빅데이터분석기사 필기 - 분석기법 적용(1)
● 회귀분석
- 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
● 회귀 모형 가정
가정 | 설명 |
선형성 | - 독립변수의 변화에 따라 종속변수도 일정 크기로 변화 - 독립변수와 종속변수의 관계의 형태는 선형 |
독립성 | - 잔차와 독립변수의 값이 관련돼 있지 않음 |
등분산성 | - 독립변수의 모든 값에 대해 오차들의 분산이 일정 |
비상관성 | - 관측치들의 오차들끼리 상과이 없어야 함 |
정상성 | - 오차항이 정규 분포를 이뤄야 함 |
● 회귀 분석 유형
종류 | 수식 | 모형 |
단순회귀 | Y = β₁+β₂X+ε | - 독립변수가 1개이며, 종속변수와의 관계가 직선 |
다중회귀 | Y = β₁+β₂X₂+...+ε | - 독립변수가 K개이며 종속변수와의 관계가 선형(1차 함수) |
다항회귀 | Y = β₁+β₂X₂+β₃X₃+β₁₁X₁²+...+ε | - 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 |
곡선회귀 | - 2차 곡선인 경우 Y = β₁+β₂X+β₃X²+ε - 3차 곡선인 경우 Y = β₁+β₂X+β₃X²+β₄X³ε |
- 독립변수가 1개이며, 종속변수와의 관계가 곡선 |
● 회귀 분석 검정
구분 | 설명 |
회귀계수 검정 | - 회귀계수 β₁이 0이면 입련변수와 출력변수는 인과관게가 없음 |
결정계수(R²) | - 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로 회귀선의 정확도를 평가 |
회귀직선의 적합도 검토 | - 결정계수를 통해 추정된 회귀식이 얼마나 타당한지 검토 - 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표 |
● 통계적 유의성
귀무가설(Hο) : β₁ = β₂ = ... = 0 대립가설(H₁) : β₁ ~ ... 중에서 적어도 하나는 0이 아니다. |
||||
요인 | 제곱합 | 자유도 | 제곱평균 | F-통계량 |
회귀 | 회귀 제곱합(SSR) | k | 회귀 제곱평균(MSR) MSR = SSR / k |
F = MSR / MSE |
오차 | 오차 제곱합(SSE) | n-k-1 | 잔차 제곱평균(MSE) MSE = SSE / n-k-1 |
|
계 | 전체 제곱합(SST) | n-1 | 총 제곱평균(MST) MST = SST / n-1 |
● 다중 선형 회귀 분석 검정
구분 | 설명 |
회귀계수의 유의성 | - 회귀계수의 유의성은 단변량 회귀 분석의 회귀계수 유의성 검토와 같이 t-통계량을 통해 확인 |
결정계수(R²) | - 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로 회귀선의 정확도를 평가 |
모형의 적합성 | - 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인 |
다중공선성 | - 다중 회귀 분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 난해함 |
● 변수선택 방법
유형 | 설명 |
전진 선택법 | - 절편만 있는 상수 모형부터 시작해 중요하다고 생각되는 설명변수를 차례로 모형에 추가하는 방식 |
후진 제거법 | - 독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 떄까지 설명변수들을 제거하고 이때의 모형을 선택하는 방법 |
단계적 방법 | - 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 단계별 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단하는 방법 |
● 로지스틱 회귀 분석
- 반응변수가 범주형인 경우 적용되는 회귀 분석 모형
- 새로운 설명변수의 값이 주어질 때 반응 변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정 확률을 기준치에 따라 분류하는 목적으로 사용
● 승산(Odds)
- 실패에 비해 성공할 확률의 비를 의미하며, Odds = p / 1 - p로 계산
ex) 게임에서 이길 확률이 1/5, 질 확률이 4/5이면 Odds는 1/4이다. 계산된 값은 '5번 중에, 4번 질 동안 1번 이긴다.'라고 해석함. Odds = (1/5) / (4/5) = 1/4
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 - 분석 모형 설계 (0) | 2021.04.05 |
---|---|
빅데이터분석기사 필기 - 데이터 탐색 (0) | 2021.04.05 |
빅데이터분석기사 필기 - 데이터 전처리(2) (0) | 2021.04.03 |
빅데이터분석기사 필기 - 데이터 전처리(1) (0) | 2021.04.02 |
빅데이터분석기사 필기 - 데이터 수집 방식 및 기술 (0) | 2021.03.31 |
TAGS.