빅데이터분석기사 필기 4일차 -2
Part02 빅데이터 탐색
Chapter01 데이터 전처리
Section01 데이터 정제
○ 데이터 : 이론을 세우는 기초가 되는 사실 또는 자료
1) 데이터의 종류
- 단변량자료 : 특성 변수가 하나인 자료
- 다변량자료 : 특성 변수가 두 가지 이상인 자료
- 질적자료 : 정성적 자료라고도 하며 자료를 범주의 형태로 분류
2) 데이터의 정제
- 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정
구분 | 수행내용 | Process |
데이터의 수집 | - 데이터의 입수 방법 및 정책 결정 | Pre Processing 포함 |
데이터의 변환 | - Data 유형의 변화 및 분석 가능한 형태로 가공 | |
데이터의 교정 | - 결측치의 처리, 이상치 처리, 노이즈 처리 | |
데이터의 통합 | - 데이터분석이 용이하도록 기존 또는 유사데이터와의 연계 통합 |
(1) 데이터 정제의 전처리, 후처리
- 전처리(Pre Processing) : 데이터 저장 전의 처리과정으로 대상 데이터와 입수 방법 결정 및 저장 방식 장소를 선정
- 후처리(Post Processing) : 저장 후의 처리를 지칭하며 저장 데이터의 품질관리 등의 과정을 포함
3) 데이터 결측값 처리
- 데이터 분석에서 결측치는 데이터가 없음을 의미
(1) 결측 데이터의 종류
- 완전 무작위 결측 : 다른 변수와 아무런 연관이 없는 경우
- 무작위 결측 : 비관측값들과는 연관되지 않는 경우
- 비 무작위 결측 : 완전 무작위 결측, 무작위 결측이 아닌 결측변수값이 결측여부와 관련이 있는 경우
(2) 단순 대치법
- 결측치에 대하여 MCAR 또는 MAR로 판단하고 이에 대한 처리를 하는 방법
- Completes Analysis : 불완전 자료는 완전하게 무시하고 분석 수행
- 평균 대치법 : 관측 또는 실험으로 얻어진 데이터의 평균으로 결측치를 대치해서 사용
- 회귀 대치법 : 회귀분석에 의한 결측치를 대치하는 방법으로 조건부 평균 대치법이라고도 함
- 단순확률 대치법 : 평균대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법으로 Hot-deck 방법이라고도 함. 확률추출에 의해서 전체 데이터 중 무작위로 대치하는 방법
- 최근방 대치법 : 전체표본을 몇 개의 대체군으로 분류하여 각 층에서의 응답자료를 순서대로 정리한 후 결측값 바로 이전의 응답을 결측치로 대치함. 응답값이 여러 번 사용될 가능성이 단점
4) 데이터 이상값 처리
- 이상치란 데이터의 전처리 과정에 발생 가능한 문제로 정상의 점주에서 벗어난 값을 의미
(1) 이상치의 종류 및 발생원인
- 단변수 이상치 : 하나의 데이터 분포에서 발생하는 이상치
- 다변수 이상치 : 복수의 연결된 데이터 분포공간에서 발생하는 이상치
(2) 이상치의 발생 원인
- 입력실수, 측정오류, 실험오류, 의도적 아웃라이어, 자료처리오류, 표본오류
(3) 이상치의 문제점
- 기초(통계적) 분석결과의 신뢰도 저하
- 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하
(4) 이상치의 탐지
- 시각화를 통한 방법
- Z-Score 통한 방법
- 밀도기반 클러스터링 방법
- 고립 의사나무 방법
참고도서 : 이기적 빅데이터분석기사 필기
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 6일차 -1 (0) | 2021.03.16 |
---|---|
빅데이터분석기사 필기 5일차 (0) | 2021.03.15 |
빅데이터분석기사 필기 4일차 -1 (0) | 2021.03.12 |
빅데이터분석기사 필기 3일차 -2 (0) | 2021.03.11 |
빅데이터분석기사 필기 3일차 -1 (0) | 2021.03.11 |
TAGS.