Tree-based Model(트리 기반 모델)

1. 트리 기반 모델

트리 기반 의사 결정 모델은 Feature space를 여러 개의 영역으로 나누는 것을 목표로 동작하는 알고리즘.

Feature space를 평균(회귀) 또는 모드(분류)를 기반으로 주어진 관찰에 대한 예측 수행

 

2. 트리 기반 모델의 평가 척도

트리 기반 의사 결정 모델은 Impurity(불순도)로 측정되며 설정된 불순도 기준에 따라 변수가 Stopping Criteria(중지 기준)에 도달할 때까지 반복적으로 분할

 

1) 불순도 측정 척도

[1] Entropy 엔트로피

- 샘플이 완전 균질하면 엔트로피는 0, 샘플이 마구 섞여 있으면 엔트로피가 1이 됨. 엔트로피는 중간에서 최댓값을 가지며 그 값은 1이고 극값은 0으로 최솟값을 가진다.

즉, 데이터가 서로 다른 종류끼리 섞여있으면 엔트로피가 높고 비슷한 종류끼리 섞여있으면 엔트로피가 낮음

i = Class Number

 

[2] Information Gain 정보 획득

- Decision Tree에서 정보 획득은 고유 정보에 대한 정보 획득 비율.

즉, 어떤 변수를 선택하냐에 따라 데이터를 잘 구분할 수 있는지를 나타내는 척도

 

Information Gain = 상위 엔트로피 - (가중치 % * 하위 엔트로피)의 합계

 

[3] Gini 계수

- 오분류의 척도로 엔트로피와 유사하게 작동하지만 Gini 계산법이 더 빠름.

Gini impurity = 0 이면 집단은 완벽하게 순수하다는 뜻.

즉, 비슷한 집단끼리 잘 분류되어 있다는 것을 의미.

 

3. 불순도의 여러 가지 측도

[1] CART(Classification And Regression Tree)

- 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 방법

- 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점

- 불순도의 측도로 출력(목적) 변수가 이산형일 경우는 지니 지수를 이용, 연속형일 경우 분산을 이용한 이진 분리(Binary Split)를 이용

- 개별 입력변수뿐만 아니라 입력 변수들의 선형 결합 중에서 최적의 분리를 구할 수 있음

 

[2] C4.5와 C5.0

- 가지치기를 사용할 때 학습자료를 사용

- 목표 변수가 반드시 범주형이어야 하며, 불순도의 측도로는 엔트로피 지수 사용

- CART와는 다르게 각 마디에서 다지 분리(Multiple Split)가 가능하며 범주형 입력 변수에 대해서는 범주의 수만큼 분리가 일어남

 

[3] CHAID(Chi-squared Automatic Interaction Detection)

- AID(Automatic Interaction Detection)를 발전시킨 알고리즘

- 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하며 입력변수가 반드시 범주형 변수이어야 함

- 불순도의 측도로는 카이제곱 통계량 사용

- 분리 방법은 다리 분리 사용

- 분리 변수의 각 범주가 하나의 부 마디를 형성

 

[4] QUEST

- 변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 CART의 문제점을 개선한 알고리즘

- 변수 선택 편향이 거의 없음

- 분리 규칙은 분리 변수 선택과 분리점 선택의 두 단계로 나누어 시행

- 불순도의 측도로는 카이제곱 통계량 사용

- 분리 방법은 이진 분리 사용

TAGS.

Comments