빅데이터분석기사 필기 11일차 -2
Part04 빅데이터 결과 해석
Chapter01 분석모형 평가 및 개선
Section02 분석모형 개선
1) 과대적합 방지
- 훈련 시에는 높은 성능이나, 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지
(1) 모델의 낮은 복잡도
- 훈련 데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동 탐색
① 하이퍼파라미터
② 드롭아웃 : 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법
(2) 가중치 감소
- 학습과정에서 큰 가중치에 대해서는 큰 페널티를 부과하여 가중치의 절댓값을 가능한 작게 만듦
① L2 규제 : 손실 함수에 가중치에 대한 L2 노름의 제곱을 더한 페널티를 부여하여 가중치 값을 비용 함수 모델에 비해 작게 만들어 냄
② L1 규제 : L2 규제의 가중치 제곱을 절댓값으로 바꾸는 개념
2) 매개변수 최적화
- 학습 모델과 실제 값의 차이가 손실 함수로 표현될 때 손실 함수의 값을 최소화하도록 하는 매개변수
① 확률적 경사 하강법(SGD) : 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실 함수가 가장 작은 지점에 도달하도록 하는 알고리즘
② 모멘텀 : 확률적 경사 하강법에 속도 개념인 기울기 방향으로 힘을 받으면 물체가 가속되는 물리법칙을 알고리즘에 적용한 것
③ AdaGrad Algorithm : 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행하는 알고리즘
④ Adam : 모멘텀과 AdaGrad를 결합한 방법론으로 학습률, 일차 모멘텀 계수, 이차 모멘텀 계수의 3가지 초매개변수들을 설정
⑤ 초매개변수 최적화 : 사람이 직접 설정해주어야 하는 매개변수
- 미니배치 크기
- 훈련 반복 횟수
- 은닉층 개수
3) 분석모형 융합
(1) 앙상블 학습
- 주어진 자료를 이용하여 여러 가지 분석 예측모형들을 만들고 해당 예측모형들을 결합하여 최종적인 하나의 예측모형을 만드는 방법
4) 최종 모형 선정
(1) 분류모형에 대한 주요 성능평가지표
특이도(Specificity) - 음성 중 맞춘 음성의 수 |
TN / (TN + FP) |
정밀도(Precision) - 양성 판정 수 중 실제 양성 수 - 해당 클래스 예측 샘플 중 실제 속한 샘플 수 의 비율 |
TP / (TP + FP) |
재현율(Recall) - 통계용어로 민감도 - 전체 양성 수에서 검출 양성 수 - 실제 속한 샘플 중 특정 클래스에 속한다고 예측한 표본 수 비율 |
TP / (TP + FN) |
정확도(Accuracy) - 전체 수 중에서 양성과 음성을 맞춘 수 - 전체 샘플 중 맞게 예측한 샘플 수 비율 |
(TP + TN) / (TP + TN + FP + FN) |
(2) 비지도학습 모형에 대한 주요 성능평가지표
① 군집분석 : 군집타당성지표로 군집 간 분산과 군집 내 분산으로 (1) 군집 간 거리 (2) 군집의 지름 (3) 군집의 분산 고려
② 연관분석 : 연관 규칙에서 지지도와 신뢰도가 모두 최소한도보다 높은 것으로 평가
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 12일차 -2 (0) | 2021.03.24 |
---|---|
빅데이터분석기사 필기 12일차 -1 (0) | 2021.03.24 |
빅데이터분석기사 필기 11일차 -1 (0) | 2021.03.23 |
빅데이터분석기사 필기 10일차 -2 (0) | 2021.03.22 |
빅데이터분석기사 필기 10일차 -1 (0) | 2021.03.22 |