빅데이터분석기사 필기 - 데이터 전처리(1) — 세모로그

빅데이터분석기사 필기 - 데이터 전처리(1)

세모로그

빅데이터

빅데이터분석기사 필기 - 데이터 전처리(1)

2021. 4. 2. 22:23

● 데이터 오류 원인

원인	설명	오류 처리 방법 예
결측값(Missing Value)	- 필수적인 데이터가 입력되지 않고 누락된 값	- 중심 경향값 넣기 - 분포기반 처리
노이즈(Noise)	- 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값	- 평균값, 중간값 대체
이상값(Outlier)	- 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값	- 하한값 대체, 상한값 대체

● 데이터 일관성 유지를 위한 정제 기법

기법	설명	사례
변환(Transform)	- 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업	- 코드 변환, 형식 변환
파싱(Parsing)	- 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업	- 주민 등록 번호를 생년월일, 성별로 분할
보강(Enhancement)	- 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업	- 주민 등록 번호를 통해 성별을 추출한 후 추가 정보 반영

● 데이터 정제 기술

기술	설명
ETL	- 수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
맵리듀스 (Map Reduce)	- 구글에서 대용량 데이터 세트를 분산, 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
스파크 / 스톰 (Spark / Storm)	- 인 메모리 기반 데이터 처리 방식
CEP (Complex Event Processing)	- 실시간으로 발생하는 이벤트 처리에 대한 결과값을 수집하고 처리하는 기술
피그(Pig)	- 대용량 데이터 집합을 분석하기 위한 플랫폼
플럼(Flume)	- 로그 데이터를 수집하고 처리하는 기법 - 실시간에 근접하게 데이터를 전처리하고 수집하는 기술

● 데이터 세분화 방법 상세

구분	기법	설명
계층적 방법	응집분석법	- 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
계층적 방법	분할분석법	- 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
비 계층적 방법	인공신경망 모델	- 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 모델
비 계층적 방법	K-평균 군집화	- K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집화하는 방식

● 데이터 결측 값 종류

종류	설명
완전 무작위 결측 (MCAR)	- 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
무작위 결측 (MAR)	- 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
비 무작위 결측 (MNAR)	- 누락된 값(변수의 결과)이 다른 변수와 연관 있는 경우

● 단순 대치법의 종류

종류	설명
완전 분석법	- 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법
평균 대치법	- 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법
단순 확률 대치법	- 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법

● 단순 확률 대치법의 종류

종류	설명
핫덱(Hot-Deck) 대체	- 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체하는 방법
콜드덱(Cold-Deck) 대체	- 핫덱과 비슷하나 대체할 자료를 현재 진행중인 연구에서 얻는 것이 아니라 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
혼합 방법	- 몇 가지 다른 방법을 혼합하는 방법

저작자표시 동일조건 (새창열림)

'빅데이터' 카테고리의 다른 글

빅데이터분석기사 필기 - 데이터 탐색 (0)	2021.04.05
빅데이터분석기사 필기 - 데이터 전처리(2) (0)	2021.04.03
빅데이터분석기사 필기 - 데이터 수집 방식 및 기술 (0)	2021.03.31
빅데이터분석기사 필기 - 분석 로드맵, 분석 방법론 (0)	2021.03.30
빅데이터분석기사 필기 - 개인정보보호법, 제도 (0)	2021.03.29

티스토리툴바