빅데이터분석기사 필기 11일차 -1
Part04 빅데이터 결과 해석
Chapter01 분석모형 평가 및 개선
Section01 분석모형 평가
▷ 오차행렬
실제정답 | |||
True | False | ||
분류결과 | True | True Positive | False Positive |
False | False Negative | True Negative |
- True Positive(TP) : 실제 True인 정답을 True라고 예측(정답)
- False Positive(FP) : 실제 False인 정답을 True라고 예측(오답)
- False Negative(FN) : 실제 True인 정답을 False라고 예측(오답)
- True Negative(TN) : 실제 False인 정답을 False라고 예측(정답)
① 정확도(Accuracy) : 실제 데이터와 예측 데이터를 비교하여 같은 지 판단
② 정밀도(Precision) : Positive로 예측한 대상 중에 실제와 예측 값이 일치하는 비율
③ 재현율(Recall) : 실제 Positive인 대상 중에 실제와 예측 값이 일치하는 비율
④ F1 Score : 정밀도와 재현율을 결합한 조화평균 지표
⑤ ROC 곡선 : FPR(False Positive Rate)이 변할 때 민감도인 TPR(True Positive Rate)이 어떻게 변화하는지 나타내는 곡선
⑥ AUC(Area Under Curve) : 평가모델의 ROC 곡선의 하단 면적
1) 지도학습-회귀모델 평가 지표
① SSE(Sum Squared Error) : 실제값과 예측값의 차이를 제곱하여 더한 값
② MSE(Mean Squared Error) : 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값
③ RMSE(Root Mean Squared Error) : MSE에 루트를 취한 값으로 평균제곱근 오차라고도 함
④ 결정계수 R² : 회귀모형이 실제값에 대해 얼마나 잘 적합하는지에 대한 비율
2) 비지도학습-군집분석 평가 지표
- 비지도학습은 지도학습과 달리 실측자료에 라벨링이 없으므로 모델에 대한 성능평가가 어려움
① 실루엣 계수
② Dunn Index : 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표
3) 분석모형 진단
(1) 정규성 가정
- 중심극한정리 : 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 이론
- Shapiro-Wilks Test : 표본수(n)가 2000개 미만인 데이터셋에 적합
- Kolmogorove-Smirnov Test : 표본수(n)가 2000개 초과인 데이터셋에 적합
- Quantile-Quantile Plot : 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석방법, 표본수(n)가 소규모일 때 적합
(2) 잔차 진단
- 잔차의 정규성 진단
- 잔차의 등분산성 진단
- 잔차의 독립성 진단
4) 교차검증
- 고정된 훈련 데이터 셋과 테스트 검증 데이터 셋으로 평가를 하여 반복적으로 튜닝하게 될 시 테스트 데이터 셋에 과적합 되어버리는 결과가 생길 수 있는데 이를 방지하고자 나온 방법
- k-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복 없이 병행 진행한 후 평균을 내어 최종적 모델의 성능을 평가
5) 적합도 검정
- Goodness-of-fit 검정이라고도 하며 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포 함수와 얼마나 맞는지 검정하는 방법
① 카이제곱 검정 : 기대값과 관측값을 이용한 방법으로 k개의 범주별로 나뉘어진 관측치들과 이와 동일한 범주의 가정된 분포 사이의 적합도를 검정
② 콜모고로프 스미르노프 검정(K-S Test) : 관측된 표본분포와 가정된 분포 사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 12일차 -1 (0) | 2021.03.24 |
---|---|
빅데이터분석기사 필기 11일차 -2 (0) | 2021.03.23 |
빅데이터분석기사 필기 10일차 -2 (0) | 2021.03.22 |
빅데이터분석기사 필기 10일차 -1 (0) | 2021.03.22 |
빅데이터분석기사 필기 9일차 -2 (0) | 2021.03.20 |