빅데이터분석기사 필기 - 데이터 탐색
● 탐색적 데이터 분석의 4가지 주제
주제(특징) | 내용 |
저항성 (Resistance) |
- 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미 |
잔차 해석 (Residual) |
- 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색 |
자료 재표현 (Re-expression) |
- 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것 |
현시성 (Graphic Representation) |
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미 |
● 다차원 데이터 탐색 방법
데이터 조합 | 설명 |
범주형 - 범주형 | - 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석 |
수치형 - 수치형 | - 산점도와 기울기를 통하여 변수 간의 상관성을 분석 |
범주형 - 수치형 | - 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교 |
● 변수의 속성에 따른 상관성 분석 방법의 분류
변수의 속성 | 설명 | 분석 방법 |
수치적 데이터 | - 수치형 데이터인 등간 척도, 비율 척도에 해당 - 수치로 표현을 할 수 있는 측정 가능한 데이터 변수 ex) 나이, 몸무게, 이동 거리 - 변수의 연산이 가능 ex) 이동거리의 평균 |
피어슨 상관계수 |
순서적 데이터 | - 범주형 데이터 중에서 순서적 데이터에 해당 - 데이터의 순서에 의미를 부여한 데이터 변수 ex) 성적 순위(1등, 2등, 3등), 학력(대졸, 고졸, 중졸) - 변수의 연산이 불가능 ex) 고졸 + 중졸 = 대졸로 표현 불가능 |
스피어만 순위 상관 분석 |
명목적 데이터 | - 범주형 데이터 중에서 명목척도에 해당 - 데이터의 특성을 구분하기 위하여 숫자나 기호를 할당한 데이터 변수 ex) 성별(남 / 여), 학반(1반, 2반, 3반) - 변수의 연산이 불가능 ex) 1반 + 2반 = 3반으로 표현 불가능 |
카이제곱 검정 |
● 변량 데이터의 유형
유형 | 설명 |
일변량 데이터 | - 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료로 단변량 자료라고도 함 |
이변량 데이터 | - 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료 |
다변량 데이터 | - 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료 |
● 변량 데이터 탐색
구분 | 설명 |
일변량 데이터 탐색 | - 기술 통계량, 그래프 통계량 - 기술 통계량 = 평균, 분산, 표준편차 - 그래프 통계량 = 히스토그램, 상자 그림 |
이변량 데이터 탐색 | - 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측함 |
다변량 데이터 탐색 | - 분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료를 탐색함 |
● 비정형 데이터의 유형
유형 | 데이터 | 내용 |
비정형 데이터 | 텍스트 | - 단어들의 빈도를 표현하는 방법을 이용해 텍스트 덩어리를 정형 데이터로 변환한 뒤 텍스트 분석을 수행 |
이미지 | - 이미지를 한 픽셀마다 수치로 변환하는 과정을 거쳐 이미지 분석을 수행 - 딥러닝 기법의 하나인 CNN이 주로 쓰임 |
|
반정형 데이터 | XML | - 웹페이지를 만드는 HTML을 개선하여 만든 마크업 언어 |
JSON | - 웹상에서 자료를 주고 받을 때 사람이 읽을 수 있는 데이터 포맷 - 자바스크립트 구문 형식의 언어 독립형 데이터 포맷 |
|
HTML | - 링크, 인용 등을 이용해 구조적 문서를 만들 수 있는 방법 - 웹페이지를 위해 고안된 언어 |
● 비정형 데이터 탐색 플랫폼 구성
구성요소 | 설명 |
HDFS | - 마스터 / 슬레이브 구조를 가지는 분산형 파일 시스템 |
맵리듀스 | - 맵 함수에서 데이터를 처리하고, 리듀스 함수에서 원하는 결과를 계산하는 데이터 탐색 엔진 |
주키퍼 | - 분산 환경에서 노드 간의 정보를 공유, 락, 이벤트 등 보조 기능을 제공하는 프레임워크 |
Avro | - 이기종 간 데이터 타입을 교환할 수 있는 체계를 제공하는 기술 |
Hive | - SQL과 유사한 구조를 가지고, 데이터를 요약하고 쿼리를 수행하여 분석할 수 있는 데이터 웨어하우징 솔루션 |
Pig | - 대규모 데이터 세트에 대한 분석을 위한 쿼리 인터페이스 |
HCatalog | - 하둡 데이터용 테이블 및 스토리지 관리 서비스 |
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 - 분석기법 적용(1) (0) | 2021.04.07 |
---|---|
빅데이터분석기사 필기 - 분석 모형 설계 (0) | 2021.04.05 |
빅데이터분석기사 필기 - 데이터 전처리(2) (0) | 2021.04.03 |
빅데이터분석기사 필기 - 데이터 전처리(1) (0) | 2021.04.02 |
빅데이터분석기사 필기 - 데이터 수집 방식 및 기술 (0) | 2021.03.31 |
TAGS.