빅데이터분석기사 필기 11일차 -1

Part04 빅데이터 결과 해석

Chapter01 분석모형 평가 및 개선

Section01 분석모형 평가

 

▷ 오차행렬

  실제정답
True False
분류결과 True True Positive False Positive
False False Negative True Negative
  • True Positive(TP) : 실제 True인 정답을 True라고 예측(정답)
  • False Positive(FP) : 실제 False인 정답을 True라고 예측(오답)
  • False Negative(FN) : 실제 True인 정답을 False라고 예측(오답)
  • True Negative(TN) : 실제 False인 정답을 False라고 예측(정답)

 

① 정확도(Accuracy) : 실제 데이터와 예측 데이터를 비교하여 같은 지 판단

② 정밀도(Precision) : Positive로 예측한 대상 중에 실제와 예측 값이 일치하는 비율

③ 재현율(Recall) : 실제 Positive인 대상 중에 실제와 예측 값이 일치하는 비율

정확도, 정밀도, 재현율

 

④ F1 Score : 정밀도와 재현율을 결합한 조화평균 지표

F1 Score

 

⑤ ROC 곡선 : FPR(False Positive Rate)이 변할 때 민감도인 TPR(True Positive Rate)이 어떻게 변화하는지 나타내는 곡선

TPR, FPR

 

⑥ AUC(Area Under Curve) : 평가모델의 ROC 곡선의 하단 면적

 

 

1) 지도학습-회귀모델 평가 지표

 

① SSE(Sum Squared Error) : 실제값과 예측값의 차이를 제곱하여 더한 값

② MSE(Mean Squared Error) : 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값

③ RMSE(Root Mean Squared Error) : MSE에 루트를 취한 값으로 평균제곱근 오차라고도 함

④ 결정계수 R² : 회귀모형이 실제값에 대해 얼마나 잘 적합하는지에 대한 비율

SSE, MSE, RMSE
결정계수 R²

 

 

2) 비지도학습-군집분석 평가 지표

- 비지도학습은 지도학습과 달리 실측자료에 라벨링이 없으므로 모델에 대한 성능평가가 어려움

 

① 실루엣 계수

실루엣 계수

② Dunn Index : 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표

 

Dunn Index

 

3) 분석모형 진단

(1) 정규성 가정

  1. 중심극한정리 : 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론
  2. Shapiro-Wilks Test : 표본수(n)가 2000개 미만인 데이터셋에 적합
  3. Kolmogorove-Smirnov Test : 표본수(n)가 2000개 초과인 데이터셋에 적합
  4. Quantile-Quantile Plot : 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석방법, 표본수(n)가 소규모일 때 적합

 

(2) 잔차 진단

  1. 잔차의 정규성 진단
  2. 잔차의 등분산성 진단
  3. 잔차의 독립성 진단

 

4) 교차검증

- 고정된 훈련 데이터 셋과 테스트 검증 데이터 셋으로 평가를 하여 반복적으로 튜닝하게 될 시 테스트 데이터 셋에 과적합 되어버리는 결과가 생길 수 있는데 이를 방지하고자 나온 방법

- k-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복 없이 병행 진행한 후 평균을 내어 최종적 모델의 성능을 평가

k-fold 교차검증 기법

 

5) 적합도 검정

- Goodness-of-fit 검정이라고도 하며 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포 함수와 얼마나 맞는지 검정하는 방법

 

① 카이제곱 검정 : 기대값과 관측값을 이용한 방법으로 k개의 범주별로 나뉘어진 관측치들과 이와 동일한 범주의 가정된 분포 사이의 적합도를 검정

카이제곱 검정

 

② 콜모고로프 스미르노프 검정(K-S Test) : 관측된 표본분포와 가정된 분포 사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법

K-S 검정 이해도

 

 

 

 

참고 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments