빅데이터분석기사 필기 5일차

Part02 빅데이터 탐색

Chapter01 데이터 전처리

Section02 분석 변수 처리

 

1) 변수선택

- 통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 많을수록 좋음

 

 

2) 변수별 모형의 분류

  1. 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형
  2. 축소 모형(RM : Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형
  3. 영 모형(NM : Null Model) : 독립변수가 하나도 없는 모형

 

3) 변수의 선택 방법

  1. 전진 선택법 : 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것, 한번 추가된 변수는 제거하지 않는 것이 원칙
  2. 후진 선택법 : 전체 모델에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외시킴, 한번 제거된 변수는 추가하지 않음
  3. 단계적 선택법 : 전진 선택법과 후진 선택법의 보완 방법. 제거된 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복

 

4) 차원 축소

(1) 자료의 차원 : 분석하는 데이터의 종류의 수

(2) 차원의 축소 : 어떤 목적에 따라서 변수(데이터의 종류)의 양을 줄이는 것

(3) 차원 축소의 필요성

  1. 복잡도의 축소
  2. 과적합의 방지
  3. 해석력의 확보

 

5) 차원 축소의 방법

- 데이터 분석에 있어 차원 축소의 필요성을 인지하고 실제적으로 차원을 축소하는 데 사용될 수 있는 방법

 

① 요인 분석 : 다수의 변수들 간의 관계(상관관계)를 분석하여 공통차원을 축약하는 통계분석 과정

      ● 요인 분석의 종류 : 주성분 분석, 공통요인 분석 특이값 분해(SVD), 행렬과 음수 미포함 행렬분해(NMF)

 

② 주성분 분석 : 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것

 

③ 특이값 분해

 

④ 행렬과 음수 미포함 행렬분해 : 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘

 

6) 파생변수의 생성

 - 요약변수와 파생변수는 분석모델을 구축하는 데 있어서 핵심인 환경과 문제를 잘 해석할 수 있는 변수를 찾는데 의의를 가짐

 

(1) 파생변수 : 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있음. 세분화 고객행동예측, 캠페인반응예측 등에 활용할 수 있음. 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있음

 

(2) 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수. 데이터 마트에서 가장 기본적인 변수. 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성이 높음

 

▶ 매장 매출 관련 데이터를 통한 요약변수와 파생변수 사례

요약변수(단순 종합 개념) 파생변수(주관적 변수 개념)
매장이용 횟수 주 구매매장 변수
구매상품품목 개수 구매상품 다양성 변수
기간별 구매금액, 횟수 주 활동지역 변수
상품별 구매금액, 횟수 주 구매상품 변수

 

7) 변수 변환 : 데이터를 분석하기 좋은 형태로 바꾸는 작업. 데이터의 전처리 과정 중 하나로 간주

 

 (1) 변수 변환의 방법

  1. 범주형 변환
  2. 정규화
  3. 로그변환
  4. 역수변환
  5. 지수변환
  6. 제곱근변환
  7. 분포형태별 정규분포 변환

 

8) 불균형 데이터 처리

- 어떤 데이터에서 각 클래스(주로 범주형 반응 변수)가 갖고 있는 데이터의 양에 차이가 큰 경우, 클래스 불균형이 있다고 말한다.

 

 (1) 불균형 데이터의 문제

- 정확도(accuracy)가 높아도 데이터 개수가 적은 클래스의 재현율이 급격히 작아지는 현상이 발생할 수 있음

 

 

(2) 불균형 데이터의 처리 방법

① 가중치 균형방법 : 데이터에서 loss를 계산할 때 특정 클래스의 데이터에 더 큰 loss 값을 갖도록 하는 방법

 

② 언더샘플링과 오버샘플링

https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

 

  • 언더샘플링 : 대표클래스의 일부만을 선택하고, 소수클래스는 최대한 많은 데이터를 사용하는 방법
  • 오버샘플링 : 소수클래스의 복사본을 만들어, 대표클래스의 수만큼 데이터를 만들어 주는 것

 

 

참고자료 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments