빅데이터분석기사 필기 10일차 -1

Part03 빅데이터 모델링

Chapter02 분석기법 적용

Section02 고급 분석기법

 

 

1) 범주형 자료분석

- 변수들이 이산형 변수일 때 주로 사용하는 분석

          ex) 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부

 

 

2) 자료의 분석

독립변수 종속변수 분석방법 예제
범주형 범주형 빈도분석, 카이제곱 검정,   로그선형모형 지역별 선호정당
연속형 범주형 로지스틱 회귀분석 소득에 따른 결혼의 선호도
범주형 연속형 T검정(2그룹), 분산분석(2그룹 이상) 지역별 가계수입의 차이
연속형 연속형 상관분석, 회귀분석  

 

① 빈도분석 : 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰임

② 카이제곱검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법

③ T검정 : 독립변수가 범주형이고 종속변수가 연속형인 경우 사용되는 검정방법

 

 

3) 다변량 분석

- 조사 중인 각 개인 혹은 대상물에 대한 다수의 측정치를 동시에 분석하는 모든 통계적 방법

  1. 명목 척도 : 분류만을 위해 사용된 숫자
  2. 순위 척도 : 선호되는 순위를 나타낸 숫자
  3. 등간 척도 : 측정된 숫자 자체와 숫자의 차이는 의미를 가지나 숫자의 비율은 의미를 가지지 못하는 측정단위
  4. 비율 척도 : 측정된 숫자와 그 간격이 의미를 가질 뿐만 아니라 숫자의 비율마저도 의미를 가지는 가장 높은 측정단위
  5. 정량적 자료 : 등간 척도나 비율 척도로 측정된 자료로서 양적 자료라고도 함
  6. 비정량적 자료 : 명목 척도나 순위 척도로 측정된 자료로서 질적 자료라고도 함
  7. 변량 : 변수들을 일종의 통계적인 방법으로 가중치를 주어 변수들의 합의 형태로 나타낸 새로운 변수

(1) 분류

  1. 다중회귀분석 : 하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간에 관련성이 있다고 가정되는 연구 문제에 적합한 분석기법
  2. 다변량분산분석 : 두 개 이상의 범주형 종속변수와 다수의 계량적 독립변수 간 관련성을 동시에 알아볼 때 이용되는 통계적 방법
  3. 정준상관분석 : 종속변수군과 독립변수군 간의 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 것
  4. 요인분석 : 많은 수의 변수들 간 상호관련성을 분석하고, 이들 변수들을 어떤 공통 요인들로 설명하고자 할 때 이용되는 기법
  5. 군집분석 : 집단에 관한 사전 정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때, 즉 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법
  6. 다중판별분석 : 집단 간의 차이를 판별하며, 어떤 사례가 여러 개의 계량적 독립변수에 기초하여 특정 집단에 속할 가능성을 예측하는 것

 

4) 시계열분석

- 시계열 자료를 분석하고 여러 변수들 간의 인과관계를 분석하는 방법론

 

● 정상성 : 시계열 데이터가 평균과 분산이 일정한 경우

  1. 평균이 일정 : 모든 시점에 대해 평균이 일정
  2. 분산이 일정 : 모든 시점에서 분산이 일정

● 정상시계열은 어떤 시점에서 평균분산 그리고 특정시차가 일정한 경우의 공분산이 동일

● 지수평활법 : 관찰기간의 제한이 없이 모든 시계열 데이터를 사용하며 최근 시계열에 더 많은 가중치를 주며 추세를 찾는 방법

 

 

5) 베이즈 추론

- 추론 대상의 사전 확률과 추가적인 정보를 통해 해당 대상의 사후 확률을 추론하는 방법

 

● 나이브 베이즈 분류 : 특성들 상의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기

                              : 모든 특성 값이 서로 독립임을 가정

                              : 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적음

                              : 조건부 확률 모델

이벤트 모델 적용사항
가우시안 나이브 베이즈 연속적인 값을 지닌 데이터를 처리 할 때!
다항분포 나이브 베이즈 특성 벡터들이 다항분포에 의해 생성된 이벤트의 경우!
베르누이 나이브 베이즈 특성 벡터들이 독립적인 이진 변수로 표현될 경우!

 

 

6) 딥러닝

● 인공신경망 : 기계학습과 인지과학에서 생물학의 신경망을 통해 영감을 얻은 통계학적 학습 알고리즘

 

▶ 문제점

  1. 계산속도의 저하
  2. 초기치의 의존성
  3. 과적합 문제

★ 딥러닝 : 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합

머신러닝과 딥러닝의 차이

 

(1) 딥러닝 분석 알고리즘

① 심층 신경망(DNN) : 입력층과 출력층 사이에 여러 개의 은닉층들로 이뤄진 인공 신경망

DNN

② 합성곱 신경망(CNN) : 최소한의 전처리를 사용하도록 설계된 다계층 퍼셉트론의 한 종류

CNN

③ 순환 신경망(RNN) : 인공신경망을 구성하는 유닛 사이의 연결이 Directed Cycle을 구성하는 신경망

RNN

④ 심층 신뢰 신경망(DBN) : 잠재 변수의 다중계층으로 이루어진 심층 신경망

DBN

 

 

참고 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments