빅데이터분석기사 필기 9일차 -1

Part03 빅데이터 모델링

Chapter02 분석기법 적용

Section01 분석기법

 

 

1) 학습 유형에 따른 데이터 분석 모델

 

① 지도학습 : 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습

지도학습 - 분류 의사결정트리(분류), 랜덤 포레스트, 인공신경망(지도학습), 서포트 벡터 머신(SVM), 로지스틱 회귀분석
지도학습 - 회귀(예측) 선형회귀분석, 다중회귀분석, 의사결정트리(회귀)

 

② 비지도학습 : 정답 없이 컴퓨터 스스로 입력 데이터 패턴을 구분하도록 학습

 

③ 준지도학습 : 효율적 학습을 위해 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는 잠재변수를 찾게 하는 것

 

④ 강화학습 : 주어진 환경에서 보상을 최대화하도록 에이전트를 학습하는 기법

비지도학습 군집분석, 연관분석, 인공신경망, 오토인코더(Autoencoder)
준지도학습 셀프 트레이닝, GAN
강화학습 Q-Learning, 정책경사

 

 

2) 회귀분석

- 특정 변수가 다른 변수에 어떤 영향을 미치는지, 즉 원인과 결과의 연관을 분석하는 방법

더보기

회귀분석

 

TV 시청을 많이 할수록 운동하는 시간이 적어지는 가설을 입증하려 한다면,

TV 시청 시간은 운동 시간에 영향을 미치는 원인 즉 독립변수가 되고, 운동하는 시간은 TV 시청 시간에 따라 영향을 받아 값이 달라지는 결과변수라고 할 수 있다.

 

▶ 회귀 분석의 기본적인 가정과 확인 방법

기본 가정 확인 방법
선형성 족립변수와 종속변수가 선형적 - 회귀선 확인
잔차 정규성 잔차의 기댓값은 0이며 정규분포를 이룸 - 정규성 검정 확인
잔차 독립성 잔차들은 서로 독립적 - 잔차에 대한 더빈 왓슨 검정
- 오차항들 간에 자기상관이 없는지 확인
잔차 등분산성 잔차들의 분산이 일정 - 표준잔차와 표준예측지 도표
다중 공선성 다중 회귀 분석을 수행할 경우 3개 이상의 독립변수 간에 상관관계로 인한 문제가 없어야 함 - 독립변수 간 상관관계 확인

 

 

(1) 선형 회귀분석

- 종속 변수 y와 한 개 이상의 독립변수 x와의 선형 상관성을 파악하는 회귀분석 기법

 

(2) 로지스틱 회귀분석

- 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법

 

 

3) 의사결정나무

- 의사결정 규칙을 나무 모양으로 조합하여 목표 변수에 대한 분류 또는 예측을 수행하는 기법

의사결정나무

 

(1) 분류나무

- 이산형 목표변수에 따른 빈도 기반 분리에 사용

  • 카이제곱 통계량의 p-value : 범주간의 빈도수 차이로 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법, 범주간의 척도 차이를 확인할 시 유의확률의 기준인 유의수준 p-value로 두 범주간의 차이가 크고 작은지를 확인할 수 있음
  • 지니 지수 : 영역 내에서 특정 클래스에 속하는 관측치들의 비율을 제외한 값으로 불순도를 측정하는 지표, 데이터의 통계적 분산 정도를 정량화해서 표현한 값
  • 엔트로피 지수 : 확률 변수의 불확실성을 수치로 나타낸 개념, 확률분포가 가지는 정보의 확신도를 나타낸 값

 

● 정보 획득 : 순도가 증가하고 불확실성이 감소하는 것

정보 획득

 

● 재귀적 분기 학습 : 사전에 설정한 기준을 만족할 때까지 분기를 반복하는 학습

 

 

(2) 의사결정나무의 대표적 알고리즘

 

① CART : 불순도 측도로 범주형 또는 이산형일 경우 지니지수를, 연속형인 경우 분산의 감소량을 이용한 이진분리를 활용

 

② C4.5 / C5.0 : 불순도 측도로 엔트로피 지수를 활용

 

③ 랜덤 포레스트 : 배깅 기반 나무들을 모아 앙상블 학습하여 숲을 형성하는 것

  • 부트스트래핑 : 단순 복원 임의추출법(랜덤 샘플링)으로 크기가 동일한 여러 개의 표본자료를 생성
  • 배깅 : 여러 부트스트랩 자료를 생성하여 학습하는 모델링
  • 부스팅 : 가중치를 활용하여 약분류기를 강분류기로 만드는 방법으로 순차적으로 분류 모델들이 틀린 곳에 집중하여 새로운 분류 규칙을 생성하는 기법
  • 앙상블 학습 : 여러 모델을 학습시켜 결합하는 방식의 학습방법

배깅

 

 

 

 

참고 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments