빅데이터분석기사 필기 6일차 -2

Part02 빅데이터 탐색

Chapter02 데이터 탐색

Section02 고급 데이터 탐색

 

1) 시공간 데이터 탐색

- 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것

 

① 시간 데이터 : 어느 한 시점에 대한 스냅샷 정보

② 공간 데이터 : 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 갖는 공간 데이터를 효율적으로 관리, 저장, 이용하는 데 초점을 맞춤

③ 공간 데이터 모델

  • 관계형 모델 : 기존 정적 모델로 데이터의 표현이 유연하지 못하며 실세계 공간의 객체의 특징을 적절히 표현하지 못하는 문제점이 있다.
  • 객체지향 모델 : 비 구조적이고 복잡한 데이터를 자연스럽게 표현

④ 시공간 데이터 : 시간과 공간 데이터의 결합 형태

 

 

2) 시공간 데이터 분석

  • 시공간자료 정의언어 : 시공간 테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함되어 있음
  • 시공간자료 조작언어 : 객체의 삽입, 삭제, 변경 등의 검색문이 있음

 

3) 다변량 데이터 탐색

- 기본적으로 변수들 간 인과관계의 규명과 분석을 하는 것

 

(1) 종속변수와 독립변수 사이의 인과 관계

 

① 다중회귀 : 독립변수가 2개 이상인 회귀모형을 지칭하며 각 독립 변수는 종속변수와 선형관계에 있음을 가정

② 로지스틱 회귀 : 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법

③ 분산분석 : 3개 이상의 표본들의 차이를 표본 평균 간의 분산과 표본 내의 관측치 간 분산을 비교하여 가설을 검정하는 것

         - 일원분산분석 : 단 하나의 인자에 근거하여 여러 수준으로 나누어지는 분석

                              ex) 3학급(A반, B반, C반) 간 성적의 평균 차이가 존재할 것이다.

                              ex) 판매방법이나 지역에 따라 자사 매출액 평균에 차이가 존재하는가?

④ 다변량 분산분석 : 측정형 변수, 종속 변수가 2개 이상인 분산분석

         - 이원분산분석 : 두 개 이상의 인자에 근거하여 여러 수준으로 나누어지는 분석

 

 

(2) 변수축약

 

① 주성분분석 : 다변량자료에서 존재하는 비정규성이나 이상치를 발견하기 위하여 새로운 변수를 구하는 것

② 요인분석 : 다수의 변수들의 상관관계를 분석하여 공통차원들을 통해 축약해 나가는 방법

③ 정준상관분석 : 두 변수 집단 간의 연관성을 각 변수 집단에 속한 변수들의 선형 결합의 상관계수를 이용하여 분석하는 방법

 

 

(3) 개체유도

- 개체들의 특성을 측정한 변수들의 상관관계를 이용하여 유사한 개체를 분류하는 방법

 

① 군집분석 : 사전 정보가 없는 경우에 관측값들 사이의 거리를 이용하여 변수 또는 개체들을 자연스럽게 몇 개의 그룹 또는 군집으로 나누는 분석법

② 다차원 척도법

③ 판별 분석 : 2개 이상의 그룹으로 나누어진 개체에 대해 분류에 영향을 미칠 것 같은 특성을 측정하고 이를 이용하여 새로운 개체를 분류하는 방법

 

 

4) 비정형 데이터 탐색

 

(1) 비정형 데이터

- 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보

형태 특징
정형 데이터 - 내부 시스템인 경우가 대부분이라 수집이 쉬움
반정형 데이터 - 보통 API 형태로 제공되기 때문에 데이터 처리 기술이 요구됨
비정형 데이터 - 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움

 

 

(2) 비정형 데이터의 분석

 

① 데이터 마이닝 : 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정

  1. 분류
  2. 군집화
  3. 연관성
  4. 연속성
  5. 예측

② 텍스트 마이닝 : 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터의 숨겨진 의미를 발견하는 기법

 

③ 오피니언 마이닝 : 텍스트 마이닝의 한 분류로서, 특정 주제에 대한 사람들의 주관적 의견을 통계, 수치화해 객관적 정보로 바꾸는 빅데이터 분석기술

 

④ 웹 마이닝 : 웹으로 통한 모든 것을 분석하여 도출해 내는 것

  1.   웹구조 마이닝 : 웹사이트로부터 구조적 요약정보를 추출하는 것
  2.   웹내용 마이닝 : 웹사이트 또는 페이지로부터 의미 있는 내용을 추출하는 것
  3.   웹사용 마이닝 : 웹상의 사용자의 행동 등 패턴으로부터 통찰을 이끌어 내는 방법
TAGS.

Comments