빅데이터분석기사 필기 6일차 -1
Part02 빅데이터 탐색
Chapter02 데이터 탐색
Section01 데이터 탐색의 기초
1) 데이터 탐색의 개요
(1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis)
- 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정
(2) 탐색적 데이터 분석의 필요성
- 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있음
- 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있음
(3) 이상치의 검출 방법
- 개별 데이터 관찰 : 데이터 값을 눈으로 훑어보면서 전체적인 추세와 특이사항을 관찰할 수 있음
- 통계값 활용
- 시각화 활용 : 시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정할 수 있음
- 머신러닝 기법 활용 : K-means를 통해 이상치를 확인할 수 있음
2) 상관관계분석
(1) 변수 간의 상관성 분석
- 두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수 간의 관계의 강도를 상관관계라 한다.
- 단순상관분석
- 다중상관분석
(2) 상관분석의 기본 가정
- 선형성
- 동변량성
- 두 변인의 정규분포성
- 무선독립표본
(3) 상관분석방법
① 피어슨 상관계수
- 두 변수 X와 Y 간의 선형 상관관계를 계량화한 수치
- 피어슨 상관계수는 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 의미
② 스피어만 상관계수
- 데이터가 서열 자료인 경우, 자료의 값 대신 순위를 이용하는 경우의 상관계수
2) 기초 통계량
(1) 중심화 경향 기초 통계량
① 산술평균 : 모든 자료들을 합한 후 전체 자료 수로 나누어 계산하는 일반적인 평균
② 기하평균 : N개의 자료에 대해서 관측치를 곱한 후 n 제곱근으로 표현
③ 중앙값 : 자료를 크기 순으로 나열할 때 가운데에 위치한 값
④ 최빈값 : 가장 노출 빈도가 높은 자료
⑤ 분위수 : 자료의 위치를 표현하는 수치
(2) 산포도(분산도)
① 분산, 표준편차
- 분산은 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도, 표준편차는 분산의 제곱근
② 범위 : 데이터 간의 최댓값과 최솟값의 차이
③ 평균 절대 편차 : 각 자료값과 표본 평균과의 편차의 절댓값에 대한 산술평균
④ 사분위편차
⑤ 변동 계수(CV) : 평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치
(3) 자료의 분포형태
① 왜도 : 분포가 어느 한쪽으로 치우친 정도
② 첨도 : 분포의 뾰족한 정도
3) 시각적 데이터 탐색
(1) 통계적 시각화 도구
- 도수분포표
- 히스토그램
- 막대그래프
- 파이 차트
- 산점도
- 줄기잎 그림
- 상자 수염 그림
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 7일차 -1 (0) | 2021.03.18 |
---|---|
빅데이터분석기사 필기 6일차 -2 (0) | 2021.03.16 |
빅데이터분석기사 필기 5일차 (0) | 2021.03.15 |
빅데이터분석기사 필기 4일차 -2 (0) | 2021.03.12 |
빅데이터분석기사 필기 4일차 -1 (0) | 2021.03.12 |