빅데이터분석기사 필기 10일차 -1
Part03 빅데이터 모델링
Chapter02 분석기법 적용
Section02 고급 분석기법
1) 범주형 자료분석
- 변수들이 이산형 변수일 때 주로 사용하는 분석
ex) 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부
2) 자료의 분석
독립변수 | 종속변수 | 분석방법 | 예제 |
범주형 | 범주형 | 빈도분석, 카이제곱 검정, 로그선형모형 | 지역별 선호정당 |
연속형 | 범주형 | 로지스틱 회귀분석 | 소득에 따른 결혼의 선호도 |
범주형 | 연속형 | T검정(2그룹), 분산분석(2그룹 이상) | 지역별 가계수입의 차이 |
연속형 | 연속형 | 상관분석, 회귀분석 |
① 빈도분석 : 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰임
② 카이제곱검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법
③ T검정 : 독립변수가 범주형이고 종속변수가 연속형인 경우 사용되는 검정방법
3) 다변량 분석
- 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법
- 명목 척도 : 분류만을 위해 사용된 숫자
- 순위 척도 : 선호되는 순위를 나타낸 숫자
- 등간 척도 : 측정된 숫자 자체와 숫자의 차이는 의미를 가지나 숫자의 비율은 의미를 가지지 못하는 측정단위
- 비율 척도 : 측정된 숫자와 그 간격이 의미를 가질 뿐만 아니라 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위
- 정량적 자료 : 등간 척도나 비율 척도로 측정된 자료로서 양적 자료라고도 함
- 비정량적 자료 : 명목 척도나 순위 척도로 측정된 자료로서 질적 자료라고도 함
- 변량 : 변수들을 일종의 통계적인 방법으로 가중치를 주어 변수들의 합의 형태로 나타낸 새로운 변수
(1) 분류
- 다중회귀분석 : 하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간에 관련성이 있다고 가정되는 연구 문제에 적합한 분석기법
- 다변량분산분석 : 두 개 이상의 범주형 종속변수와 다수의 계량적 독립변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법
- 정준상관분석 : 종속변수군과 독립변수군 간의 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 것
- 요인분석 : 많은 수의 변수들 간 상호관련성을 분석하고, 이들 변수들을 어떤 공통 요인들로 설명하고자 할 때 이용되는 기법
- 군집분석 : 집단에 관한 사전 정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때, 즉 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법
- 다중판별분석 : 집단 간의 차이를 판별하며, 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성을 예측하는 것
4) 시계열분석
- 시계열 자료를 분석하고 여러 변수들 간의 인과관계를 분석하는 방법론
● 정상성 : 시계열 데이터가 평균과 분산이 일정한 경우
- 평균이 일정 : 모든 시점에 대해 평균이 일정
- 분산이 일정 : 모든 시점에서 분산이 일정
● 정상시계열은 어떤 시점에서 평균분산 그리고 특정시차가 일정한 경우의 공분산이 동일
● 지수평활법 : 관찰기간의 제한이 없이 모든 시계열 데이터를 사용하며 최근 시계열에 더 많은 가중치를 주며 추세를 찾는 방법
5) 베이즈 추론
- 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법
● 나이브 베이즈 분류 : 특성들 상의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기
: 모든 특성 값이 서로 독립임을 가정
: 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적음
: 조건부 확률 모델
이벤트 모델 | 적용사항 |
가우시안 나이브 베이즈 | 연속적인 값을 지닌 데이터를 처리 할 때! |
다항분포 나이브 베이즈 | 특성 벡터들이 다항분포에 의해 생성된 이벤트의 경우! |
베르누이 나이브 베이즈 | 특성 벡터들이 독립적인 이진 변수로 표현될 경우! |
6) 딥러닝
● 인공신경망 : 기계학습과 인지과학에서 생물학의 신경망을 통해 영감을 얻은 통계학적 학습 알고리즘
▶ 문제점
- 계산속도의 저하
- 초기치의 의존성
- 과적합 문제
★ 딥러닝 : 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합
(1) 딥러닝 분석 알고리즘
① 심층 신경망(DNN) : 입력층과 출력층 사이에 여러 개의 은닉층들로 이뤄진 인공 신경망
② 합성곱 신경망(CNN) : 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론의 한 종류
③ 순환 신경망(RNN) : 인공신경망을 구성하는 유닛 사이의 연결이 Directed Cycle을 구성하는 신경망
④ 심층 신뢰 신경망(DBN) : 잠재 변수의 다중계층으로 이루어진 심층 신경망
참고 : 이기적 빅데이터분석기사 필기 교재