빅데이터분석기사 필기 5일차
Part02 빅데이터 탐색
Chapter01 데이터 전처리
Section02 분석 변수 처리
1) 변수선택
- 통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 많을수록 좋음
2) 변수별 모형의 분류
- 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형
- 축소 모형(RM : Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형
- 영 모형(NM : Null Model) : 독립변수가 하나도 없는 모형
3) 변수의 선택 방법
- 전진 선택법 : 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것, 한번 추가된 변수는 제거하지 않는 것이 원칙
- 후진 선택법 : 전체 모델에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 분석모형에서 제외시킴, 한번 제거된 변수는 추가하지 않음
- 단계적 선택법 : 전진 선택법과 후진 선택법의 보완 방법. 제거된 변수는 다시 모형에 포함하지 않으며 유의한 설명변수가 존재하지 않을 때까지 과정을 반복
4) 차원 축소
(1) 자료의 차원 : 분석하는 데이터의 종류의 수
(2) 차원의 축소 : 어떤 목적에 따라서 변수(데이터의 종류)의 양을 줄이는 것
(3) 차원 축소의 필요성
- 복잡도의 축소
- 과적합의 방지
- 해석력의 확보
5) 차원 축소의 방법
- 데이터 분석에 있어 차원 축소의 필요성을 인지하고 실제적으로 차원을 축소하는 데 사용될 수 있는 방법
① 요인 분석 : 다수의 변수들 간의 관계(상관관계)를 분석하여 공통차원을 축약하는 통계분석 과정
● 요인 분석의 종류 : 주성분 분석, 공통요인 분석 특이값 분해(SVD), 행렬과 음수 미포함 행렬분해(NMF)
② 주성분 분석 : 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것
③ 특이값 분해
④ 행렬과 음수 미포함 행렬분해 : 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘
6) 파생변수의 생성
- 요약변수와 파생변수는 분석모델을 구축하는 데 있어서 핵심인 환경과 문제를 잘 해석할 수 있는 변수를 찾는데 의의를 가짐
(1) 파생변수 : 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여하는 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있음. 세분화 고객행동예측, 캠페인반응예측 등에 활용할 수 있음. 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있음
(2) 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수. 데이터 마트에서 가장 기본적인 변수. 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성이 높음
▶ 매장 매출 관련 데이터를 통한 요약변수와 파생변수 사례
요약변수(단순 종합 개념) | 파생변수(주관적 변수 개념) |
매장이용 횟수 | 주 구매매장 변수 |
구매상품품목 개수 | 구매상품 다양성 변수 |
기간별 구매금액, 횟수 | 주 활동지역 변수 |
상품별 구매금액, 횟수 | 주 구매상품 변수 |
7) 변수 변환 : 데이터를 분석하기 좋은 형태로 바꾸는 작업. 데이터의 전처리 과정 중 하나로 간주
(1) 변수 변환의 방법
- 범주형 변환
- 정규화
- 로그변환
- 역수변환
- 지수변환
- 제곱근변환
- 분포형태별 정규분포 변환
8) 불균형 데이터 처리
- 어떤 데이터에서 각 클래스(주로 범주형 반응 변수)가 갖고 있는 데이터의 양에 차이가 큰 경우, 클래스 불균형이 있다고 말한다.
(1) 불균형 데이터의 문제
- 정확도(accuracy)가 높아도 데이터 개수가 적은 클래스의 재현율이 급격히 작아지는 현상이 발생할 수 있음
(2) 불균형 데이터의 처리 방법
① 가중치 균형방법 : 데이터에서 loss를 계산할 때 특정 클래스의 데이터에 더 큰 loss 값을 갖도록 하는 방법
② 언더샘플링과 오버샘플링
- 언더샘플링 : 대표클래스의 일부만을 선택하고, 소수클래스는 최대한 많은 데이터를 사용하는 방법
- 오버샘플링 : 소수클래스의 복사본을 만들어, 대표클래스의 수만큼 데이터를 만들어 주는 것
참고자료 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 6일차 -2 (0) | 2021.03.16 |
---|---|
빅데이터분석기사 필기 6일차 -1 (0) | 2021.03.16 |
빅데이터분석기사 필기 4일차 -2 (0) | 2021.03.12 |
빅데이터분석기사 필기 4일차 -1 (0) | 2021.03.12 |
빅데이터분석기사 필기 3일차 -2 (0) | 2021.03.11 |