빅데이터분석기사 필기 - 데이터 전처리(2)

● 데이터 이상값 발생 원인

발생 원인 설명
데이터 입력 오류 - 데이터를 수집하는 과정에서 발생할 수 있는 에러
 ex) 100을 입력해야 하는데, 1000을 입력하면 10배의 값으로 입력
측정 오류 - 데이터를 측정하는 과정에서 발생하는 에러
 ex) 몸무게를 측정하는데, 9개의 체중계는 정상 작동, 1개는 비정상 작동을 한다고 가정할 때, 한 사용자가 비정상적으로 작동하는 체중계를 이용할 경우 에러 발생
실험 오류 - 실험조건이 동일하지 않은 경우 발생
 ex) 100미터 달리기를 하는데, 한 선수가 '출발' 신호를 못 듣고 늦게 출발했다면 그 선수의 기록은 다른 선수들보다 늦을 것이고, 그의 경기 시간은 이상값이 될 수 있음 
고의적인 이상값 - 자기 보고식 측정에서 나타나는 에러
- 정확하게 기입한 값이 이상값으로 보일 수도 있음
 ex) 음주량을 묻는 조사가 있다고 가정했을 때 10대 대부분은 자신들의 음주량을 적게 기입할 것이고, 오직 일부만 정확한 값을 적는 경우 발생
표본추출 에러 - 데이터를 샘플링하는 과정에서 나타나는 에러
- 샘플링을 잘못한 경우
 ex) 대학 신입생들의 키를 조사하기 위해 샘플링을 하는데, 농구선수가 포함되었다면 농구선수의 키는 이상값이 될 수 있음

 

● 데이터 이상값 검출 방법

검출 방법 설명
개별 데이터 관찰 - 전체 데이터의 추이나 특이사항 관찰하여 이상값 검출
- 전체 데이터 중 무작위 표본 추출 후 관찰하여 이상값 검출
통계값 - 통계 지표 데이터(평균, 중앙값, 최빈값)와 데이터 분산도(범위, 분산)를 활용한 이상값 검출
시각화 - 데이터 시각화를 통한 지표 확인으로 이상값 검출
 ex) 확률 밀도 함수, 히스토그램, 시계열 차트
머신러닝 기법 - 데이터 군집화를 통한 이상값 검출
 ex) K-평균 알고리즘
마할라노비스 거리 활용 - 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법
LOF - 관측치 주변의 밀도와 근접한 관측치 주변 밀도의 상대적인 비교를 통해 이상값을 탐색하는 기법
iForest - 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터 마이닝 기법인 의사결정나무를 이용하여 이상값을 탐지하는 방법

 

● 통계 기법을 이용한 데이터 이상값 검출 방법

검출 기법 설명
ESD - 평균으로부터 3 표준편차 떨어진 값을 이상값으로 판단
기하평균 활용한 방법 - 기하평균으로부터 2.5 표준편차 떨어진 값을 이상값으로 판단
사분위 수를 이용한 방법 - 제 1사분위, 제3 사분위를 기준으로 사분위간 범위(Q3 - Q1)의 1.5배 이상 떨어진 값을 이상값으로 판단
표준화 점수(Z-Score)를 활용한 이상값 검출 - 평균이 μ이고, 표준편차가 σ인 정규 분표를 따르는 관측치들이 자료의 중심에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값을 검출
딕슨의 Q 검정 - 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이의 비율을 활용하여 이상값 여부를 검정하는 방법
그럽스 T-검정 - 정규 분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법
카이제곱 검정 - 데이터가 정규 분포를 만족하나, 자료의 수가 적은 경우에 이상값을 검정하는 방법

● 변수 선택 기법

기법 설명
필터 기법 - 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법
래퍼 기법 - 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 택해나가는 기법
임베디드 기법 - 모델 자체에 변수 선택이 포함된 기법

 

● 필터 기법 사례

  1. 정보소득(Information Gain)
  2. 카이제곱 검정
  3. 피셔 스코어
  4. 상관계수

● 래퍼 기법 사례

  1. RFE
  2. SFS
  3. 유전 알고리즘
  4. 단변량 선택
  5. mRMR

● 임베디드 기법 사례

  1. 라쏘(LASSO)
  2. 릿지(Ridge)
  3. 엘라스틱 넷
  4. SelectFromModel

● 차원축소 기법

기법 설명
주성분 분석(PCA) - 원래 데이터 특징을 잘 설명해주는 성분을 추출하기 위하여 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간을 변환하는 기법
특이값 분해(SVD) - M * N 차원의 행렬데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법
요인분석 - 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을  도출하고 데이터 안의 구조를 해석하는 기법
독립성분분석 - 주성분 분석과는 달리, 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리하여 차원을 축소하는 기법
다차원 척도법 - 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간 상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

● 언더 샘플링 기법

기법 설명
랜덤 언더 샘플링 - 무작위로 다수 클래스 데이터의 일부만 선택하는 기법
ENN - 소수 클래스 주위에 인접한 다수 클래스 데이터를 제거하여 데이터의 비율을 맞추는 방법
토멕 링크 방법 - 다수 클래스에 속한 토멕 링크를 제거하는 방법
CNN - 다수 클래스에 밀집된 데이터가 없을 때까지 데이터를 제거하여 데이터 분포에서 대표적인 데이터만 남도록 하는 방법
OSS - 토멕 링크 방법과 Condensed Nearest Neighbor 기법의 장점을 섞는 방법

 

● 오버 샘플링 기법

기법 설명
랜덤 오버 샘플링 - 무작위로 소수 클래스 데이터를 복제하여 데이터의 비율을 맞추는 방법
SMOTE - 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 방법
Borderline-SMOTE - 다수 클래스와 소수 클래스의 경계선에서 SMOTE를 적용하는 기법
ADASYN - 모든 소수 클래스에서 다수 클래스의 관측비율을 계산하여 SMOTE를 적용하는 방법

 

TAGS.

Comments