빅데이터분석기사 필기 - 데이터 전처리(1)
● 데이터 오류 원인
원인 | 설명 | 오류 처리 방법 예 |
결측값(Missing Value) | - 필수적인 데이터가 입력되지 않고 누락된 값 | - 중심 경향값 넣기 - 분포기반 처리 |
노이즈(Noise) | - 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 | - 평균값, 중간값 대체 |
이상값(Outlier) | - 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값 | - 하한값 대체, 상한값 대체 |
● 데이터 일관성 유지를 위한 정제 기법
기법 | 설명 | 사례 |
변환(Transform) | - 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업 | - 코드 변환, 형식 변환 |
파싱(Parsing) | - 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업 | - 주민 등록 번호를 생년월일, 성별로 분할 |
보강(Enhancement) | - 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업 | - 주민 등록 번호를 통해 성별을 추출한 후 추가 정보 반영 |
● 데이터 정제 기술
기술 | 설명 |
ETL | - 수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술 |
맵리듀스 (Map Reduce) |
- 구글에서 대용량 데이터 세트를 분산, 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크 |
스파크 / 스톰 (Spark / Storm) |
- 인 메모리 기반 데이터 처리 방식 |
CEP (Complex Event Processing) |
- 실시간으로 발생하는 이벤트 처리에 대한 결과값을 수집하고 처리하는 기술 |
피그(Pig) | - 대용량 데이터 집합을 분석하기 위한 플랫폼 |
플럼(Flume) | - 로그 데이터를 수집하고 처리하는 기법 - 실시간에 근접하게 데이터를 전처리하고 수집하는 기술 |
● 데이터 세분화 방법 상세
구분 | 기법 | 설명 |
계층적 방법 |
응집분석법 | - 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법 |
분할분석법 | - 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법 | |
비 계층적 방법 |
인공신경망 모델 | - 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 모델 |
K-평균 군집화 | - K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집화하는 방식 |
● 데이터 결측 값 종류
종류 | 설명 |
완전 무작위 결측 (MCAR) |
- 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우 |
무작위 결측 (MAR) |
- 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우 |
비 무작위 결측 (MNAR) |
- 누락된 값(변수의 결과)이 다른 변수와 연관 있는 경우 |
● 단순 대치법의 종류
종류 | 설명 |
완전 분석법 | - 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법 |
평균 대치법 | - 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법 |
단순 확률 대치법 | - 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법 |
● 단순 확률 대치법의 종류
종류 | 설명 |
핫덱(Hot-Deck) 대체 | - 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체하는 방법 |
콜드덱(Cold-Deck) 대체 | - 핫덱과 비슷하나 대체할 자료를 현재 진행중인 연구에서 얻는 것이 아니라 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법 |
혼합 방법 | - 몇 가지 다른 방법을 혼합하는 방법 |
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 - 데이터 탐색 (0) | 2021.04.05 |
---|---|
빅데이터분석기사 필기 - 데이터 전처리(2) (0) | 2021.04.03 |
빅데이터분석기사 필기 - 데이터 수집 방식 및 기술 (0) | 2021.03.31 |
빅데이터분석기사 필기 - 분석 로드맵, 분석 방법론 (0) | 2021.03.30 |
빅데이터분석기사 필기 - 개인정보보호법, 제도 (0) | 2021.03.29 |
TAGS.