📌 빅데이터 관련 용어
- Big Data
- 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술
- Hadoop
- 오픈 소스 기반 분산 컴퓨팅 기술
- 현재 정형/비정형 빅 데이터 분석에 가장 선호되는 솔루션
- 구글의 맵리듀스(MapReduce) 엔진 사용
- NoSQL
- 전통적인 관계형 데이터베이스 RDBMS와 다르게 설계된 비관계형 데이터베이스이다.
- 대규모의 유연한 데이터 처리를 위해서 적합
- Data Mining (데이터 마이닝)
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것
- 데이터웨어 하우스
- 기간 시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환하여 관리하는 큰 데이터베이스
- 데이터 마트
- 데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터들을 담은 비교적 작은 규모의 데이터웨어 하우스
- OLAP
- 이용자가 직접 데이터베이스를 검색, 분석해서 문제점이나 해결책을 찾는 분석형 애플리케이션 개념
- Mashup
- 웹에서 제공하는 정보 및 서비스를 이용하는 새로운 소프트웨어나 서비스, 데이터베이스 등을 만드는 기술
2020년 정보처리기사 1회 실기 기출
문제
데이터 마이닝의 개념에 관해서 서술하시오.
정답
대량의 데이터에서 유용한 정보를 추출하기 위해 패턴, 규칙, 또는 관계를 발견하는 기술
해설
📌 데이터 마이닝(Data Mining) 개념
데이터 마이닝(Data Mining)은 대량의 데이터에서 유용한 정보를 추출하고 숨겨진 패턴이나 관계를 발견하는 기술입니다.
이는 데이터에서 의미 있는 패턴이나 인사이트를 찾아내어 비즈니스 의사결정, 예측, 문제 해결 등에 활용하는 과정을 포함합니다.
- 대규모로 저자된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것
- 수많은 데이터에서 가치있는 유용한 정보를 찾아내는 것
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것
📌 데이터 마이닝(Data Mining) 주요 기법과 절차
- 데이터 수집(Data Collection): 분석할 데이터를 수집하는 단계입니다. 데이터는 다양한 소스에서 수집될 수 있으며, 정형 데이터(데이터베이스, 스프레드시트 등)와 비정형 데이터(문서, 이미지, 소셜 미디어 데이터 등)가 포함될 수 있습니다.
- 데이터 전처리(Data Preprocessing): 수집된 데이터는 정제, 변환, 통합 등의 전처리 과정을 거쳐 분석 가능한 형태로 변환됩니다. 이 단계에서는 결측값 처리, 이상값 제거, 데이터 정규화 등이 수행됩니다.
- 데이터 분석(Data Analysis): 다양한 데이터 마이닝 기법을 사용하여 데이터를 분석합니다. 주요 기법에는 다음이 포함됩니다:
- 분류(Classification): 데이터를 사전 정의된 클래스나 범주로 분류합니다. 예를 들어, 이메일을 스팸과 비스팸으로 분류하는 작업이 있습니다.
- 클러스터링(Clustering): 데이터 포인트를 유사한 특성을 가진 그룹으로 묶습니다. 고객 세분화에서 유용하게 사용됩니다.
- 회귀 분석(Regression Analysis): 변수 간의 관계를 모델링하여 연속적인 값을 예측합니다. 예를 들어, 주택 가격 예측에 활용됩니다.
- 연관 규칙 학습(Association Rule Learning): 데이터 항목 간의 연관성을 발견합니다. 예를 들어, 장바구니 분석에서 "빵을 구매한 고객이 우유를 구매할 확률"을 찾는 작업입니다.
- 결과 해석 및 활용(Result Interpretation and Utilization): 분석 결과를 해석하고 이를 기반으로 의사결정, 전략 수립, 문제 해결 등의 업무에 적용합니다. 데이터 마이닝의 결과는 비즈니스 인사이트를 제공하고, 예측 및 추세 분석을 통해 전략적 결정을 지원합니다.
데이터 마이닝은 비즈니스, 금융, 의료, 소셜 미디어 등 다양한 분야에서 활용되며, 데이터 기반 의사결정을 통해 효율성을 높이고 경쟁력을 강화하는 데 중요한 역할을 합니다.
2020년 정보처리기사 4회 실기 기출
문제
다음 설명에 해당하는 용어를 쓰시오.
- 정형 데이터 및 사진 영상 등의 비정형 데이터를 효과적으로 처리하는 오픈소스 빅데이터 솔루션이다.
- 많은 양의 데이터를 여러 대의 범용 컴퓨터에 나눠서 저장해주고 처리한다.
- 더그 커팅과 마이크 캐퍼랠라가 개발했으며, 구글의 맵리듀스(MapReduce)엔진을 사용한다.
- 오픈 소스 기반으로 한 분산 컴퓨팅 플랫폼으로, 일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성하고 그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 자바 소프트웨어 프레임워크로 구글, 야후 등에 적용한 기술
정답
하둡(Hadoop)
해설
📌 하둡(Hadoop) 개념
하둡(Hadoop)은 대규모 데이터 처리 및 저장을 위한 오픈 소스 빅데이터 솔루션입니다. 주로 정형 데이터와 비정형 데이터(예: 사진, 영상)를 효과적으로 처리하는 데 사용됩니다. 하둡은 구글의 맵리듀스(MapReduce) 엔진을 기반으로 하며, 데이터를 여러 대의 컴퓨터에 분산 저장하고 병렬 처리하여 대규모 데이터를 효율적으로 처리할 수 있습니다.
📌 하둡 주요 특징
- 분산 저장: 하둡은 데이터를 여러 대의 서버에 분산시켜 저장합니다. 이를 통해 데이터 저장 용량을 확장하고, 한 대의 서버가 다운되더라도 다른 서버에서 데이터를 복구할 수 있는 내결함성을 제공합니다.
- 병렬 처리: 하둡은 데이터를 여러 컴퓨터에서 동시에 처리하는 병렬 처리 방식을 사용하여, 대용량 데이터를 효율적으로 처리할 수 있습니다. 이 방식은 처리 속도를 크게 향상시킵니다.
- 맵리듀스(MapReduce): 하둡의 핵심 기술인 맵리듀스는 데이터를 분산 처리하는 알고리즘입니다. 맵(Map) 단계에서 데이터를 처리하고, 리듀스(Reduce) 단계에서 처리된 데이터를 집계합니다. 이를 통해 대용량 데이터를 효율적으로 처리할 수 있습니다.
- 오픈소스 및 확장성: 하둡은 오픈 소스로 제공되며, 다양한 기업과 개발자들이 이를 활용해 시스템을 확장하고 커스터마이징할 수 있습니다. 구글, 야후 등 대기업에서 하둡을 활용하여 빅데이터를 처리하고 있습니다.
- 대용량 데이터 처리: 하둡은 매우 큰 데이터를 처리할 수 있는 능력을 가지고 있으며, 여러 대의 일반적인 PC를 연결해 대형 스토리지를 형성하고, 그 안에 보관된 데이터를 병렬로 처리합니다. 이로 인해 하둡은 빅데이터 처리에 매우 적합한 기술입니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
'코딩일기 > 자격증' 카테고리의 다른 글
[정보처리기사] 인터페이스 구현 : JSON, XML, AJAX, REST | 정보처리기사 실기 기출 모음 (0) | 2024.09.05 |
---|---|
[정보처리기사] 프로토콜이란? 프로토콜의 개념과 3가지 기본 요소 | 정보처리기사 실기 기출문제 (1) | 2024.09.05 |
[정보처리기사] 소프트웨어 테스트 원리 | 소프트웨어 테스팅 7가지 기본 원칙 (2020년 정보처리기사 실기 기출) (0) | 2024.09.04 |
[정보처리기사] 소프트웨어 비용 산정 | LOC (Line of Code) 기법 (0) | 2024.09.04 |
[정보처리기사] Java 제어문 | 정보처리기사 실기 기출 문제 (0) | 2024.09.03 |