빅데이터분석기사 필기 9일차 -1
Part03 빅데이터 모델링
Chapter02 분석기법 적용
Section01 분석기법
1) 학습 유형에 따른 데이터 분석 모델
① 지도학습 : 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습
지도학습 - 분류 | 의사결정트리(분류), 랜덤 포레스트, 인공신경망(지도학습), 서포트 벡터 머신(SVM), 로지스틱 회귀분석 |
지도학습 - 회귀(예측) | 선형회귀분석, 다중회귀분석, 의사결정트리(회귀) |
② 비지도학습 : 정답 없이 컴퓨터 스스로 입력 데이터 패턴을 구분하도록 학습
③ 준지도학습 : 효율적 학습을 위해 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는 잠재변수를 찾게 하는 것
④ 강화학습 : 주어진 환경에서 보상을 최대화하도록 에이전트를 학습하는 기법
비지도학습 | 군집분석, 연관분석, 인공신경망, 오토인코더(Autoencoder) |
준지도학습 | 셀프 트레이닝, GAN |
강화학습 | Q-Learning, 정책경사 |
2) 회귀분석
- 특정 변수가 다른 변수에 어떤 영향을 미치는지, 즉 원인과 결과의 연관을 분석하는 방법
회귀분석
TV 시청을 많이 할수록 운동하는 시간이 적어지는 가설을 입증하려 한다면,
TV 시청 시간은 운동 시간에 영향을 미치는 원인 즉 독립변수가 되고, 운동하는 시간은 TV 시청 시간에 따라 영향을 받아 값이 달라지는 결과변수라고 할 수 있다.
▶ 회귀 분석의 기본적인 가정과 확인 방법
기본 가정 | 확인 방법 | |
선형성 | 족립변수와 종속변수가 선형적 | - 회귀선 확인 |
잔차 정규성 | 잔차의 기댓값은 0이며 정규분포를 이룸 | - 정규성 검정 확인 |
잔차 독립성 | 잔차들은 서로 독립적 | - 잔차에 대한 더빈 왓슨 검정 - 오차항들 간에 자기상관이 없는지 확인 |
잔차 등분산성 | 잔차들의 분산이 일정 | - 표준잔차와 표준예측지 도표 |
다중 공선성 | 다중 회귀 분석을 수행할 경우 3개 이상의 독립변수 간에 상관관계로 인한 문제가 없어야 함 | - 독립변수 간 상관관계 확인 |
(1) 선형 회귀분석
- 종속 변수 y와 한 개 이상의 독립변수 x와의 선형 상관성을 파악하는 회귀분석 기법
(2) 로지스틱 회귀분석
- 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
3) 의사결정나무
- 의사결정 규칙을 나무 모양으로 조합하여 목표 변수에 대한 분류 또는 예측을 수행하는 기법
(1) 분류나무
- 이산형 목표변수에 따른 빈도 기반 분리에 사용
- 카이제곱 통계량의 p-value : 범주간의 빈도수 차이로 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법, 범주간의 척도 차이를 확인할 시 유의확률의 기준인 유의수준 p-value로 두 범주간의 차이가 크고 작은지를 확인할 수 있음
- 지니 지수 : 영역 내에서 특정 클래스에 속하는 관측치들의 비율을 제외한 값으로 불순도를 측정하는 지표, 데이터의 통계적 분산 정도를 정량화해서 표현한 값
- 엔트로피 지수 : 확률 변수의 불확실성을 수치로 나타낸 개념, 확률분포가 가지는 정보의 확신도를 나타낸 값
● 정보 획득 : 순도가 증가하고 불확실성이 감소하는 것
● 재귀적 분기 학습 : 사전에 설정한 기준을 만족할 때까지 분기를 반복하는 학습
(2) 의사결정나무의 대표적 알고리즘
① CART : 불순도 측도로 범주형 또는 이산형일 경우 지니지수를, 연속형인 경우 분산의 감소량을 이용한 이진분리를 활용
② C4.5 / C5.0 : 불순도 측도로 엔트로피 지수를 활용
③ 랜덤 포레스트 : 배깅 기반 나무들을 모아 앙상블 학습하여 숲을 형성하는 것
- 부트스트래핑 : 단순 복원 임의추출법(랜덤 샘플링)으로 크기가 동일한 여러 개의 표본자료를 생성
- 배깅 : 여러 부트스트랩 자료를 생성하여 학습하는 모델링
- 부스팅 : 가중치를 활용하여 약분류기를 강분류기로 만드는 방법으로 순차적으로 분류 모델들이 틀린 곳에 집중하여 새로운 분류 규칙을 생성하는 기법
- 앙상블 학습 : 여러 모델을 학습시켜 결합하는 방식의 학습방법
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 10일차 -1 (0) | 2021.03.22 |
---|---|
빅데이터분석기사 필기 9일차 -2 (0) | 2021.03.20 |
빅데이터분석기사 필기 8일차 -2 (0) | 2021.03.19 |
빅데이터분석기사 필기 8일차 -1 (0) | 2021.03.19 |
빅데이터분석기사 필기 7일차 -2 (0) | 2021.03.18 |