빅데이터분석기사 필기 - 데이터 탐색

● 탐색적 데이터 분석의 4가지 주제

주제(특징) 내용
저항성
(Resistance)
- 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미
잔차 해석
(Residual)
- 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
자료 재표현
(Re-expression)
- 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
현시성
(Graphic Representation)
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미

 

● 다차원 데이터 탐색 방법

데이터 조합 설명
범주형 - 범주형 - 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석
수치형 - 수치형 - 산점도와 기울기를 통하여 변수 간의 상관성을 분석
범주형 - 수치형 - 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교

 

● 변수의 속성에 따른 상관성 분석 방법의 분류

변수의 속성 설명 분석 방법
수치적 데이터 - 수치형 데이터인 등간 척도, 비율 척도에 해당
- 수치로 표현을 할 수 있는 측정 가능한 데이터 변수
 ex) 나이, 몸무게, 이동 거리
- 변수의 연산이 가능
 ex) 이동거리의 평균
피어슨 상관계수
순서적 데이터 - 범주형 데이터 중에서 순서적 데이터에 해당
- 데이터의 순서에 의미를 부여한 데이터 변수
 ex) 성적 순위(1등, 2등, 3등), 학력(대졸, 고졸, 중졸)
- 변수의 연산이 불가능
 ex) 고졸 + 중졸 = 대졸로 표현 불가능
스피어만 순위 상관 분석
명목적 데이터 - 범주형 데이터 중에서 명목척도에 해당
- 데이터의 특성을 구분하기 위하여 숫자나 기호를 할당한 데이터 변수
 ex) 성별(남 / 여), 학반(1반, 2반, 3반)
- 변수의 연산이 불가능
 ex) 1반 + 2반 = 3반으로 표현 불가능
카이제곱 검정

 


 

● 변량 데이터의 유형

유형 설명
일변량 데이터 - 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료로 단변량 자료라고도 함
이변량 데이터 - 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료
다변량 데이터 - 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료

 

● 변량 데이터 탐색

구분 설명
일변량 데이터 탐색 - 기술 통계량, 그래프 통계량
- 기술 통계량 = 평균, 분산, 표준편차
- 그래프 통계량 = 히스토그램, 상자 그림
이변량 데이터 탐색 - 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측함
다변량 데이터 탐색 - 분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색함

 

● 비정형 데이터의 유형

유형 데이터 내용
비정형 데이터 텍스트 - 단어들의 빈도를 표현하는 방법을 이용해 텍스트 덩어리를 정형 데이터로 변환한 뒤 텍스트 분석을 수행
이미지 - 이미지를 한 픽셀마다 수치로 변환하는 과정을 거쳐 이미지 분석을 수행
- 딥러닝 기법의 하나인 CNN이 주로 쓰임
반정형 데이터 XML - 웹페이지를 만드는 HTML을 개선하여 만든 마크업 언어
JSON - 웹상에서 자료를 주고 받을 때 사람이 읽을 수 있는 데이터 포맷
- 자바스크립트 구문 형식의 언어 독립형 데이터 포맷
HTML - 링크, 인용 등을 이용해 구조적 문서를 만들 수 있는 방법
- 웹페이지를 위해 고안된 언어

 

● 비정형 데이터 탐색 플랫폼 구성

구성요소 설명
HDFS - 마스터 / 슬레이브 구조를 가지는 분산형 파일 시스템
맵리듀스 - 맵 함수에서 데이터를 처리하고, 리듀스 함수에서 원하는 결과를 계산하는 데이터 탐색 엔진
주키퍼 - 분산 환경에서 노드 간의 정보를 공유, 락, 이벤트 등 보조 기능을 제공하는 프레임워크
Avro - 이기종 간 데이터 타입을 교환할 수 있는 체계를 제공하는 기술
Hive - SQL과 유사한 구조를 가지고, 데이터를 요약하고 쿼리를 수행하여 분석할 수 있는 데이터 웨어하우징 솔루션
Pig - 대규모 데이터 세트에 대한 분석을 위한 쿼리 인터페이스
HCatalog - 하둡 데이터용 테이블 및 스토리지 관리 서비스

 

TAGS.

Comments