빅데이터분석기사 필기 - 분석 모형 설계

● 통계기반 분석 모형

구분 설명
기술 통계 - 데이터 분석의 목적으로 수집된 데이터를 확률 통계적으로 정리 요약하는 기초적인 통계
상관 분석 - 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법
회귀 분석 - 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
   - 단순 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
   - 다중 회귀 : 독립변수가 K개이며, 종속변수와의 관계가 선형(1차 함수)
   - 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
   - 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
   - 로지스틱 회귀 : 종속변수가 범주형인 경우 적용
분산 분석 - 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법
주성분 분석 - 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계기법
판별 분석 - 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법

 

● 분류 모델 유형

모델 설명
통계적 기법 - 로지스틱 회귀 분석, 판별 분석 등과 같은 다변량 통계이론에 근거한 기법
트리 기반 기법 - 의사결정 규칙에 따라 관심 대상이 되는 집단을 몇 개의 소집단으로 분류하면서 분석하는 기법
- CART 알고리즘 활용
최적화 기법 - 가장 적합한 값을 찾는 기법
- 서포트 벡터 머신 활용
기계학습 - 인공지능의 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술

 

● 예측 모델 기법

기법 설명
회귀 분석 - 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
의사결정나무 - 의사결정 규칙을 트리구조로 도표화하여 분류와 예측을 수행하는 분석 방법
시계열 분석 - 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 방법
인공신경망 - 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델

 


● 지도 학습 기법의 유형

유형 설명
로지스틱 회귀 - 종속변수가 범주형인 경우 적용되는 회귀 분석 모형
인공신경망 분석 - 인간의 뉴런 구조를 모방하여 만든 기계학습 모델
의사결정나무 - 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델
서포트 벡터 머신 - 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
랜덤 포레스트 - 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
감성 분석 - 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석

 

● 분석 모형 기법 및 활용 사례

기법 기법 설명 활용 사례
연관규칙학습 - 변인 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 - 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
- 치킨을 먹는 사람은 어떤 종류의 음료를 많이 마실까?
분류 분석 - 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 - 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘 - 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 - 응급실에서 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가?
기계학습 - 알려진 특성을 활용하여 훈련 데이터를 학습시키고 예측하는 기법 - 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까?
회귀 분석 - 독립변수의 조작에 따른 종속변수의 변화를 확인하여 두 변수 간의 관계를 파악할 때 사용 - 구매자의 나이가 구매 차량의 유형에 어떤 영향을 미치는가?
감성 분석 - 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 - 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜 네트워크 분석 - 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 - 고객들 간 관계망은 어떻게 구성되어 있나?
TAGS.

Comments