빅데이터분석기사 필기 - 데이터 전처리(1)

● 데이터 오류 원인

원인 설명 오류 처리 방법 예
결측값(Missing Value) - 필수적인 데이터가 입력되지 않고 누락된 값 - 중심 경향값 넣기
- 분포기반 처리
노이즈(Noise) - 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 - 평균값, 중간값 대체
이상값(Outlier) - 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값 - 하한값 대체, 상한값 대체

 

 

● 데이터 일관성 유지를 위한 정제 기법

기법 설명 사례
변환(Transform) - 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업 - 코드 변환, 형식 변환
파싱(Parsing) - 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업 - 주민 등록 번호를 생년월일, 성별로 분할
보강(Enhancement) - 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업 - 주민 등록 번호를 통해 성별을 추출한 후 추가 정보 반영

 


 

● 데이터 정제 기술

기술 설명
ETL - 수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
맵리듀스
(Map Reduce)
- 구글에서 대용량 데이터 세트를 분산, 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
스파크 / 스톰
(Spark / Storm)
- 인 메모리 기반 데이터 처리 방식
CEP
(Complex Event
Processing)
- 실시간으로 발생하는 이벤트 처리에 대한 결과값을 수집하고 처리하는 기술
피그(Pig) - 대용량 데이터 집합을 분석하기 위한 플랫폼
플럼(Flume) - 로그 데이터를 수집하고 처리하는 기법
- 실시간에 근접하게 데이터를 전처리하고 수집하는 기술

 


 

● 데이터 세분화 방법 상세

구분 기법 설명
계층적
방법
응집분석법 - 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
분할분석법 - 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
비 계층적
방법
인공신경망 모델 - 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 모델
K-평균 군집화 - K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집화하는 방식

 

● 데이터 결측 값 종류

종류 설명
완전 무작위 결측
(MCAR)
- 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
무작위 결측
(MAR)
- 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
비 무작위 결측
(MNAR)
- 누락된 값(변수의 결과)이 다른 변수와 연관 있는 경우

 

● 단순 대치법의 종류

종류 설명
완전 분석법 - 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법
평균 대치법 - 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법
단순 확률 대치법 - 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법

 

● 단순 확률 대치법의 종류

종류 설명
핫덱(Hot-Deck) 대체 - 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체하는 방법
콜드덱(Cold-Deck) 대체 - 핫덱과 비슷하나 대체할 자료를 현재 진행중인 연구에서 얻는 것이 아니라 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
혼합 방법 - 몇 가지 다른 방법을 혼합하는 방법
TAGS.

Comments