로지스틱 회귀(Logistic Regression)

로지스틱 회귀(Logistic Regression)

- 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법

 

로지스틱 회귀 목적

- 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것.

- 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사

- 하지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류가 나뉘기 때문에 일종의 분류(Classification) 기법으로 볼 수 있음

 

로지스틱 회귀는 종속 변수가 이항형 문제(유효한 범주의 개수가 두 개인 경우)를 지칭할 때 사용

 

승산(Odds)

특정 변수에 대한 확률값이 선형이 아닌 S-커브 형태를 따르는 경우가 많다. 이러한 S-커브를 함수로 표현해낸 것이 바로 로지스틱 함수. 분야에 따라 시그모이드(Sigmoid) 함수로도 불리기도 함

 

로지스틱 함수는 x값으로 어떤 값이든 받을 수가 있지만 출력 결과는 항상 0에서 1 사이 값이 됨. 즉 확률밀도함수(Probability Density Function) 요건을 충족시키는 함수.

 

승산(Odds)이란 임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율을 뜻하는 개념.

 

P(A)가 1에 가까울 수록 승산은 치솟음. 반대로 P(A)가 0이라면 0이 됨. 즉, 승산이 커질수록 사건 A가 발생할 확률이 커짐.

 

이항 로지스틱 회귀(Binomial Logistic Regression)

- 종속 변수가 이분형 범주를 가질 때 독립 변수로부터 종속 변수의 범주를 예측

- 특정 사건이 발생할 확률을 직접 추정

- 종속 변수의 예측값은 0과 1 사이의 확률 값을 가짐

- 기준 값(0.5)보다 크면 사건이 발생하고, 기준 값보다 작으면 사건이 발생하지 않는 것으로 예측

TAGS.

Comments