빅데이터분석기사 필기 4일차 -2

Part02 빅데이터 탐색

Chapter01 데이터 전처리

Section01 데이터 정제

 

 

○ 데이터 : 이론을 세우는 기초가 되는 사실 또는 자료

 

1) 데이터의 종류

  • 단변량자료 : 특성 변수가 하나인 자료
  • 다변량자료 : 특성 변수가 두 가지 이상인 자료
  • 질적자료 : 정성적 자료라고도 하며 자료를 범주의 형태로 분류

 

2) 데이터의 정제

- 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정

 

구분 수행내용 Process
데이터의 수집 - 데이터의 입수 방법 및 정책 결정 Pre Processing 포함
데이터의 변환 - Data 유형의 변화 및 분석 가능한 형태로 가공  
데이터의 교정 - 결측치의 처리, 이상치 처리, 노이즈 처리  
데이터의 통합 - 데이터분석이 용이하도록 기존 또는 유사데이터와의 연계 통합  

 

 

(1) 데이터 정제의 전처리, 후처리

  • 전처리(Pre Processing) : 데이터 저장 전의 처리과정으로 대상 데이터와 입수 방법 결정 및 저장 방식 장소를 선정
  • 후처리(Post Processing) : 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함

 

3) 데이터 결측값 처리

- 데이터 분석에서 결측치는 데이터가 없음을 의미

 

 

(1) 결측 데이터의 종류

  • 완전 무작위 결측 : 다른 변수와 아무런 연관이 없는 경우
  • 무작위 결측 : 비관측값들과는 연관되지 않는 경우
  • 비 무작위 결측 : 완전 무작위 결측, 무작위 결측이 아닌 결측변수값이 결측여부와 관련이 있는 경우

 

(2) 단순 대치법

- 결측치에 대하여 MCAR 또는 MAR로 판단하고 이에 대한 처리를 하는 방법

  1. Completes Analysis : 불완전 자료는 완전하게 무시하고 분석 수행
  2. 평균 대치법 : 관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치해서 사용
  3. 회귀 대치법 : 회귀분석에 의한 결측치를 대치하는 방법으로 조건부 평균 대치법이라고도 함
  4. 단순확률 대치법 : 평균대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법으로 Hot-deck 방법이라고도 함. 확률추출에 의해서 전체 데이터 중 무작위로 대치하는 방법
  5. 최근방 대치법 : 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치함. 응답값이 여러 번 사용될 가능성이 단점

 

4) 데이터 이상값 처리

- 이상치란 데이터의 전처리 과정에 발생 가능한 문제로 정상의 점주에서 벗어난 값을 의미

 

 

(1) 이상치의 종류 및 발생원인

  • 단변수 이상치 : 하나의 데이터 분포에서 발생하는 이상치
  • 다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치

 

(2) 이상치의 발생 원인

- 입력실수, 측정오류, 실험오류, 의도적 아웃라이어, 자료처리오류, 표본오류

 

 

(3) 이상치의 문제점

  • 기초(통계적) 분석결과의 신뢰도 저하
  • 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하

 

(4) 이상치의 탐지

  1. 시각화를 통한 방법
  2. Z-Score 통한 방법
  3. 밀도기반 클러스터링 방법
  4. 고립 의사나무 방법

 

 

참고도서 : 이기적 빅데이터분석기사 필기

TAGS.

Comments