빅데이터분석기사 필기 - 데이터 전처리(2)
● 데이터 이상값 발생 원인
발생 원인 | 설명 |
데이터 입력 오류 | - 데이터를 수집하는 과정에서 발생할 수 있는 에러 ex) 100을 입력해야 하는데, 1000을 입력하면 10배의 값으로 입력 |
측정 오류 | - 데이터를 측정하는 과정에서 발생하는 에러 ex) 몸무게를 측정하는데, 9개의 체중계는 정상 작동, 1개는 비정상 작동을 한다고 가정할 때, 한 사용자가 비정상적으로 작동하는 체중계를 이용할 경우 에러 발생 |
실험 오류 | - 실험조건이 동일하지 않은 경우 발생 ex) 100미터 달리기를 하는데, 한 선수가 '출발' 신호를 못 듣고 늦게 출발했다면 그 선수의 기록은 다른 선수들보다 늦을 것이고, 그의 경기 시간은 이상값이 될 수 있음 |
고의적인 이상값 | - 자기 보고식 측정에서 나타나는 에러 - 정확하게 기입한 값이 이상값으로 보일 수도 있음 ex) 음주량을 묻는 조사가 있다고 가정했을 때 10대 대부분은 자신들의 음주량을 적게 기입할 것이고, 오직 일부만 정확한 값을 적는 경우 발생 |
표본추출 에러 | - 데이터를 샘플링하는 과정에서 나타나는 에러 - 샘플링을 잘못한 경우 ex) 대학 신입생들의 키를 조사하기 위해 샘플링을 하는데, 농구선수가 포함되었다면 농구선수의 키는 이상값이 될 수 있음 |
● 데이터 이상값 검출 방법
검출 방법 | 설명 |
개별 데이터 관찰 | - 전체 데이터의 추이나 특이사항 관찰하여 이상값 검출 - 전체 데이터 중 무작위 표본 추출 후 관찰하여 이상값 검출 |
통계값 | - 통계 지표 데이터(평균, 중앙값, 최빈값)와 데이터 분산도(범위, 분산)를 활용한 이상값 검출 |
시각화 | - 데이터 시각화를 통한 지표 확인으로 이상값 검출 ex) 확률 밀도 함수, 히스토그램, 시계열 차트 |
머신러닝 기법 | - 데이터 군집화를 통한 이상값 검출 ex) K-평균 알고리즘 |
마할라노비스 거리 활용 | - 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법 |
LOF | - 관측치 주변의 밀도와 근접한 관측치 주변 밀도의 상대적인 비교를 통해 이상값을 탐색하는 기법 |
iForest | - 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터 마이닝 기법인 의사결정나무를 이용하여 이상값을 탐지하는 방법 |
● 통계 기법을 이용한 데이터 이상값 검출 방법
검출 기법 | 설명 |
ESD | - 평균으로부터 3 표준편차 떨어진 값을 이상값으로 판단 |
기하평균 활용한 방법 | - 기하평균으로부터 2.5 표준편차 떨어진 값을 이상값으로 판단 |
사분위 수를 이용한 방법 | - 제 1사분위, 제3 사분위를 기준으로 사분위간 범위(Q3 - Q1)의 1.5배 이상 떨어진 값을 이상값으로 판단 |
표준화 점수(Z-Score)를 활용한 이상값 검출 | - 평균이 μ이고, 표준편차가 σ인 정규 분표를 따르는 관측치들이 자료의 중심에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값을 검출 |
딕슨의 Q 검정 | - 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이의 비율을 활용하여 이상값 여부를 검정하는 방법 |
그럽스 T-검정 | - 정규 분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법 |
카이제곱 검정 | - 데이터가 정규 분포를 만족하나, 자료의 수가 적은 경우에 이상값을 검정하는 방법 |
● 변수 선택 기법
기법 | 설명 |
필터 기법 | - 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법 |
래퍼 기법 | - 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 택해나가는 기법 |
임베디드 기법 | - 모델 자체에 변수 선택이 포함된 기법 |
● 필터 기법 사례
- 정보소득(Information Gain)
- 카이제곱 검정
- 피셔 스코어
- 상관계수
● 래퍼 기법 사례
- RFE
- SFS
- 유전 알고리즘
- 단변량 선택
- mRMR
● 임베디드 기법 사례
- 라쏘(LASSO)
- 릿지(Ridge)
- 엘라스틱 넷
- SelectFromModel
● 차원축소 기법
기법 | 설명 |
주성분 분석(PCA) | - 원래 데이터 특징을 잘 설명해주는 성분을 추출하기 위하여 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간을 변환하는 기법 |
특이값 분해(SVD) | - M * N 차원의 행렬데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법 |
요인분석 | - 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법 |
독립성분분석 | - 주성분 분석과는 달리, 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리하여 차원을 축소하는 기법 |
다차원 척도법 | - 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간 상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법 |
● 언더 샘플링 기법
기법 | 설명 |
랜덤 언더 샘플링 | - 무작위로 다수 클래스 데이터의 일부만 선택하는 기법 |
ENN | - 소수 클래스 주위에 인접한 다수 클래스 데이터를 제거하여 데이터의 비율을 맞추는 방법 |
토멕 링크 방법 | - 다수 클래스에 속한 토멕 링크를 제거하는 방법 |
CNN | - 다수 클래스에 밀집된 데이터가 없을 때까지 데이터를 제거하여 데이터 분포에서 대표적인 데이터만 남도록 하는 방법 |
OSS | - 토멕 링크 방법과 Condensed Nearest Neighbor 기법의 장점을 섞는 방법 |
● 오버 샘플링 기법
기법 | 설명 |
랜덤 오버 샘플링 | - 무작위로 소수 클래스 데이터를 복제하여 데이터의 비율을 맞추는 방법 |
SMOTE | - 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 방법 |
Borderline-SMOTE | - 다수 클래스와 소수 클래스의 경계선에서 SMOTE를 적용하는 기법 |
ADASYN | - 모든 소수 클래스에서 다수 클래스의 관측비율을 계산하여 SMOTE를 적용하는 방법 |
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 - 분석 모형 설계 (0) | 2021.04.05 |
---|---|
빅데이터분석기사 필기 - 데이터 탐색 (0) | 2021.04.05 |
빅데이터분석기사 필기 - 데이터 전처리(1) (0) | 2021.04.02 |
빅데이터분석기사 필기 - 데이터 수집 방식 및 기술 (0) | 2021.03.31 |
빅데이터분석기사 필기 - 분석 로드맵, 분석 방법론 (0) | 2021.03.30 |
TAGS.