빅데이터분석기사 필기 10일차 -2
Part03 빅데이터 모델링
Chapter02 분석기법 적용
Section02 고급 분석기법
1) 비정형 데이터 분석
(1) 비정형 데이터
- 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적
형태 | 특징 | 수집 난이도 |
정형 데이터 | 내부 시스템인 경우가 대부분이라 수집이 쉬움 | 하 |
반정형 데이터 | 보통 API 형태로 제공되기 때문에 데이터 처리 기술이 요구됨 | 중 |
비정형 데이터 | 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움 | 상 |
● 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 다양한 기법을 사용
(2) 데이터 마이닝
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
▷ 적용분야
- 분류
- 군집화
- 연관성
- 연속성
- 예측
(3) 텍스트 마이닝
- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법
●● 자연어 처리(NLP)
- 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야
(4) 웹 마이닝
- 인터넷을 통해 웹자원으로부터 의미 있는 패턴, 프로파일, 추세 등을 발견하는 것
(5) 오피니언 마이닝
- 어떤 사안이나 인물, 이슈, 이벤트 등과 관련된 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것
(6) 리얼리티 마이닝
- 매일 사용하는 스마트폰의 기계나 모션센서 등의 행동에서 비정형 데이터를 추출하는 방법
2) 앙상블 분석
- 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념
- 다양한 Weak Learner를 통해 Strong Learner를 만들어가는 과정
- 약학습기(Weak Learner) : 무작위 선정이 아닌 성공확률이 높은, 즉 오차율이 일정 이하(50% 이하)인 학습 규칙
- 강학습기(Strong Learner) : Weak Learner로부터 만들어내는 강력한 학습 규칙
(1) 앙상블 분석의 종류
① 투표방법(Voting) : 서로 다른 알고리즘이 도출해 낸 결과물에 대하여 최종 투표하는 방식을 통해 최종 결과 선택
② 부스팅(Boosting) : 가중치를 활용하여 연속적인 약학습기를 생성하고 이를 통해 강학습기를 만드는 방법
순차적인 학습을 하며 weight를 부여해서 오차를 보완해 나감
③ 배깅(Bagging) : 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계하는 방법
간단하면서도 강력한 방법이며 배깅 기법을 활용한 모델이 랜덤 포레스트(Random Forest)
3) 비모수 통계
● 모수 : 어떠한 시스템이나 함수의 특정한 성질을 나타내는 변수
● 비모수 통계 : 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석
▷ 비모수 통계법의 사용조건
- 자료가 나타내는 모집단의 형상이 정규분포가 아닐 때
- 자료가 나타내는 현상이 정규분포로 적절히 변환되지 못할 때
- 자료의 표본이 적을 때
- 자료들이 서로 독립적일 때
- 변인의 척도가 명명척도나 서열척도일 때
① 부호검정 : 관측치들 간에 같다 혹은 크거나 작다라는 주장이 사실인지 아닌지를 검정
② 윌콕슨 부호순위 검정 : 크거나 작음을 나타내는 부호뿐만 아니라 관측치 간 차이의 크기 순위 까지를 고려하여 검정
③ 만 위트니 검정 : 두 집단 간의 중심위치를 비교하기 위하여 사용하는 검정 방법
④ 크루스칼-왈리스 검정 : 3개 이상 집단의 중앙값 차이를 검정
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 11일차 -2 (0) | 2021.03.23 |
---|---|
빅데이터분석기사 필기 11일차 -1 (0) | 2021.03.23 |
빅데이터분석기사 필기 10일차 -1 (0) | 2021.03.22 |
빅데이터분석기사 필기 9일차 -2 (0) | 2021.03.20 |
빅데이터분석기사 필기 9일차 -1 (0) | 2021.03.20 |