빅데이터분석기사 필기 6일차 -1

Part02 빅데이터 탐색

Chapter02 데이터 탐색

Section01 데이터 탐색의 기초

 

1) 데이터 탐색의 개요

(1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis)

- 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정

 

 

(2) 탐색적 데이터 분석의 필요성

  • 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있음
  • 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있음

 

(3) 이상치의 검출 방법

  • 개별 데이터 관찰 : 데이터 값을 눈으로 훑어보면서 전체적인 추세와 특이사항을 관찰할 수 있음
  • 통계값 활용
  • 시각화 활용 : 시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정할 수 있음
  • 머신러닝 기법 활용 : K-means를 통해 이상치를 확인할 수 있음

 

2) 상관관계분석

(1) 변수 간의 상관성 분석

- 두 변수 간에 어떤 선형적 관계를 갖고 있는지를 분석하는 방법. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수 간의 관계의 강도를 상관관계라 한다.

  • 단순상관분석
  • 다중상관분석

 

(2) 상관분석의 기본 가정

  1. 선형성
  2. 동변량성
  3. 두 변인의 정규분포성
  4. 무선독립표본

 

(3) 상관분석방법

 

① 피어슨 상관계수

  • 두 변수 X와 Y 간의 선형 상관관계를 계량화한 수치
  • 피어슨 상관계수는 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관관계, 0은 선형 상관관계 없음, -1은 완벽한 음의 선형 상관관계를 의미

피어슨 상관계수
산점도

 

 

② 스피어만 상관계수

- 데이터가 서열 자료인 경우, 자료의 값 대신 순위를 이용하는 경우의 상관계수

 

 

2) 기초 통계량

(1) 중심화 경향 기초 통계량

 

① 산술평균 : 모든 자료들을 합한 후 전체 자료 수로 나누어 계산하는 일반적인 평균

② 기하평균 : N개의 자료에 대해서 관측치를 곱한 후 n 제곱근으로 표현

③ 중앙값 : 자료를 크기 순으로 나열할 때 가운데에 위치한 값

④ 최빈값 : 가장 노출 빈도가 높은 자료

⑤ 분위수 : 자료의 위치를 표현하는 수치

 

(2) 산포도(분산도)

 

① 분산, 표준편차

- 분산은 평균을 중심으로 밀집되거나 퍼짐 정도를 나타내는 척도, 표준편차는 분산의 제곱근

범위 : 데이터 간의 최댓값과 최솟값의 차이

③ 평균 절대 편차 : 각 자료값과 표본 평균과의 편차의 절댓값에 대한 산술평균

④ 사분위편차

⑤ 변동 계수(CV) : 평균을 중심으로 한 상대적인 산포의 척도를 나타내는 수치

 

(3) 자료의 분포형태

 

① 왜도 : 분포가 어느 한쪽으로 치우친 정도

왜도

 

② 첨도 : 분포의 뾰족한 정도

 

 

3) 시각적 데이터 탐색

(1) 통계적 시각화 도구

 

  1. 도수분포표
  2. 히스토그램
  3. 막대그래프
  4. 파이 차트
  5. 산점도
  6. 줄기잎 그림
  7. 상자 수염 그림

 

TAGS.

Comments