빅데이터분석기사 필기 10일차 -2

Part03 빅데이터 모델링

Chapter02 분석기법 적용

Section02 고급 분석기법

 

1) 비정형 데이터 분석

 

(1) 비정형 데이터

- 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적

 

형태 특징 수집 난이도
정형 데이터 내부 시스템인 경우가 대부분이라 수집이 쉬움
반정형 데이터 보통 API 형태로 제공되기 때문에 데이터 처리 기술이 요구됨
비정형 데이터 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움

 

● 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 다양한 기법을 사용

 

 

(2) 데이터 마이닝

- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정

 

▷ 적용분야

  • 분류
  • 군집화
  • 연관성
  • 연속성
  • 예측

 

(3) 텍스트 마이닝

- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법

 

● 자연어 처리(NLP)

- 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야

 

(4) 웹 마이닝

- 인터넷을 통해 웹자원으로부터 의미 있는 패턴, 프로파일, 추세 등을 발견하는 것

 

(5) 오피니언 마이닝

- 어떤 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것

 

(6) 리얼리티 마이닝

- 매일 사용하는 스마트폰의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법

 

 

2) 앙상블 분석

- 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념

- 다양한 Weak Learner를 통해 Strong Learner를 만들어가는 과정

 

  1. 약학습기(Weak Learner) : 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하(50% 이하)인 학습 규칙
  2. 강학습기(Strong Learner) : Weak Learner로부터 만들어내는 강력한 학습 규칙

 

(1) 앙상블 분석의 종류

① 투표방법(Voting) : 서로 다른 알고리즘이 도출해 낸 결과물에 대하여 최종 투표하는 방식을 통해 최종 결과 선택

② 부스팅(Boosting)  : 가중치를 활용하여 연속적인 약학습기를 생성하고 이를 통해 강학습기를 만드는 방법

                             순차적인 학습을 하며 weight를 부여해서 오차를 보완해 나감

③ 배깅(Bagging) : 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계하는 방법

                         간단하면서도 강력한 방법이며 배깅 기법을 활용한 모델이 랜덤 포레스트(Random Forest)

부스팅, 배깅

 

3) 비모수 통계

● 모수 : 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수

● 비모수 통계 : 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석

 

▷ 비모수 통계법의 사용조건

  1. 자료가 나타내는 모집단의 형상이 정규분포가 아닐 때
  2. 자료가 나타내는 현상이 정규분포로 적절히 변환되지 못할 때
  3. 자료의 표본이 적을 때
  4. 자료들이 서로 독립적일 때
  5. 변인의 척도가 명명척도나 서열척도일 때

① 부호검정 : 관측치들 간에 같다 혹은 크거나 작다라는 주장이 사실인지 아닌지를 검정

② 윌콕슨 부호순위 검정 : 크거나 작음을 나타내는 부호뿐만 아니라 관측치 간 차이의 크기 순위 까지를 고려하여 검정

③ 만 위트니 검정 : 두 집단 간의 중심위치를 비교하기 위하여 사용하는 검정 방법

④ 크루스칼-왈리스 검정 : 3개 이상 집단의 중앙값 차이를 검정

 

 

 

참고 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments