빅데이터분석기사 필기 - 분석기법 적용(1)

● 회귀분석

- 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

 

● 회귀 모형 가정

가정 설명
선형성 - 독립변수의 변화에 따라 종속변수도 일정 크기로 변화
- 독립변수와 종속변수의 관계의 형태는 선형
독립성 - 잔차와 독립변수의 값이 관련돼 있지 않음
등분산성 - 독립변수의 모든 값에 대해 오차들의 분산이 일정
비상관성 - 관측치들의 오차들끼리 상과이 없어야 함
정상성 - 오차항이 정규 분포를 이뤄야 함

 

● 회귀 분석 유형

종류 수식 모형
단순회귀 Y = β₁+β₂X+ε - 독립변수가 1개이며, 종속변수와의 관계가 직선
다중회귀 Y = β₁+β₂X₂+...+ε - 독립변수가 K개이며 종속변수와의 관계가 선형(1차 함수)
다항회귀 Y = β₁+β₂X₂+β₃X₃+β₁X₁²+...+ε - 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
곡선회귀 - 2차 곡선인 경우
Y = β₁+β₂X+β₃X²+ε
- 3차 곡선인 경우
Y = β₁+β₂X+β₃X²+β₄X³ε
- 독립변수가 1개이며, 종속변수와의 관계가 곡선

 

● 회귀 분석 검정

구분 설명
회귀계수 검정 - 회귀계수 β₁이 0이면 입련변수와 출력변수는 인과관게가 없음
결정계수(R²) - 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로 회귀선의 정확도를 평가
회귀직선의 적합도 검토 - 결정계수를 통해 추정된 회귀식이 얼마나 타당한지 검토
- 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표

 

● 통계적 유의성

귀무가설(Hο) : β₁ = β₂ = ... = 0
대립가설(H₁) : β₁ ~ ... 중에서 적어도 하나는 0이 아니다.
요인 제곱합 자유도 제곱평균 F-통계량
회귀 회귀 제곱합(SSR) k 회귀 제곱평균(MSR)
MSR = SSR / k
F = MSR / MSE
오차 오차 제곱합(SSE) n-k-1 잔차 제곱평균(MSE)
MSE = SSE / n-k-1
전체 제곱합(SST) n-1 총 제곱평균(MST)
MST = SST / n-1

 

● 다중 선형 회귀 분석 검정

구분 설명
회귀계수의 유의성 - 회귀계수의 유의성은 단변량 회귀 분석의 회귀계수 유의성 검토와 같이 t-통계량을 통해 확인
결정계수(R²) - 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로 회귀선의 정확도를 평가
모형의 적합성 - 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인
다중공선성 - 다중 회귀 분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 난해함

 

● 변수선택 방법

유형 설명
전진 선택법 - 절편만 있는 상수 모형부터 시작해 중요하다고 생각되는 설명변수를 차례로 모형에 추가하는 방식
후진 제거법 - 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 떄까지 설명변수들을 제거하고 이때의 모형을 선택하는 방법
단계적 방법 - 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 단계별 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단하는 방법

 

● 로지스틱 회귀 분석

- 반응변수가 범주형인 경우 적용되는 회귀 분석 모형

- 새로운 설명변수의 값이 주어질 때 반응 변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정 확률을 기준치에 따라 분류하는 목적으로 사용

 

승산(Odds)

- 실패에 비해 성공할 확률의 비를 의미하며, Odds = p / 1 - p로 계산

ex) 게임에서 이길 확률이 1/5, 질 확률이 4/5이면 Odds는 1/4이다. 계산된 값은 '5번 중에, 4번 질 동안 1번 이긴다.'라고 해석함. Odds = (1/5) / (4/5) = 1/4

TAGS.

Comments