빅데이터분석기사 필기 11일차 -1

Part04 빅데이터 결과 해석

▷ 오차행렬

① 정확도(Accuracy) : 실제 데이터와 예측 데이터를 비교하여 같은 지 판단

② 정밀도(Precision) : Positive로 예측한 대상 중에 실제와 예측 값이 일치하는 비율

③ 재현율(Recall) : 실제 Positive인 대상 중에 실제와 예측 값이 일치하는 비율

④ F1 Score : 정밀도와 재현율을 결합한 조화평균 지표

⑤ ROC 곡선 : FPR(False Positive Rate)이 변할 때 민감도인 TPR(True Positive Rate)이 어떻게 변화하는지 나타내는 곡선

⑥ AUC(Area Under Curve) : 평가모델의 ROC 곡선의 하단 면적

1) 지도학습-회귀모델 평가 지표

① SSE(Sum Squared Error) : 실제값과 예측값의 차이를 제곱하여 더한 값

② MSE(Mean Squared Error) : 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값

③ RMSE(Root Mean Squared Error) : MSE에 루트를 취한 값으로 평균제곱근 오차라고도 함

④ 결정계수 R² : 회귀모형이 실제값에 대해 얼마나 잘 적합하는지에 대한 비율

2) 비지도학습-군집분석 평가 지표

- 비지도학습은 지도학습과 달리 실측자료에 라벨링이 없으므로 모델에 대한 성능평가가 어려움

① 실루엣 계수

② Dunn Index : 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모로 하는 지표

3) 분석모형 진단

(1) 정규성 가정

(2) 잔차 진단

4) 교차검증

- 고정된 훈련 데이터 셋과 테스트 검증 데이터 셋으로 평가를 하여 반복적으로 튜닝하게 될 시 테스트 데이터 셋에 과적합 되어버리는 결과가 생길 수 있는데 이를 방지하고자 나온 방법

- k-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복 없이 병행 진행한 후 평균을 내어 최종적 모델의 성능을 평가

5) 적합도 검정

- Goodness-of-fit 검정이라고도 하며 데이터가 가정된 확률에 적합하게 따르는지, 즉 데이터 분포가 특정 분포 함수와 얼마나 맞는지 검정하는 방법

① 카이제곱 검정 : 기대값과 관측값을 이용한 방법으로 k개의 범주별로 나뉘어진 관측치들과 이와 동일한 범주의 가정된 분포 사이의 적합도를 검정

② 콜모고로프 스미르노프 검정(K-S Test) : 관측된 표본분포와 가정된 분포 사이의 적합도를 검사하는 누적분포함수의 차이를 이용한 검정법

참고 : 이기적 빅데이터분석기사 필기 교재