빅데이터분석기사 필기 7일차 -1

Part02 빅데이터 탐색

Chapter03 통계기법의 이해

Section01 기술통계

 

● 기술통계 : 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법

 

 

1) 표본추출

  • 모집단 : 관심 대상의 전체집합
  • 표본 : 모집단 속에서 그 일부를 끄집어내어 조사한 결과
  • 표본추출 : 모집단으로부터 표본을 선택하는 행위

 

2) 전수조사와 표본조사

  • 전수조사 : 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것
  • 표본조사 : 관심의 대상이 되는 모집단에서 표본을 추출하여 표본을 대상으로 조사를 시행하는 것

 

● 표본추출 오차 : 표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생

  • 과잉 대표 : 중복선택 등의 원인으로 반복, 중복된 데이터만으로 규정되는 현상
  • 최소 대표 : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상

 

3) 표본추출 기법

  • 단순무작위 추출 : 모집단으로부터 무작위 추출하고 독립적 선택으로 편향성을 제거하여 난수를 이용한 추출 방법
  • 계통추출 : 모집단에서 추출 간격을 설정 간격 사이에서 무작위로 추출하는 방법
  • 층화추출 : 모집단을 서로 겹치지 않게 여러 층으로 나누어 분할된 층별로 배정된 표본을 단순 임의 추출법에 따라 추출하는 방법
  • 군집추출 : 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위의 일부 또는 전체에 대한 분석을 시행

 

4) 확률분포

 

● 확률 : 통계적 현상의 확실함의 정도

● 표본공간 : 통계적 실험에서 모든 발생 가능한 실험 결과들의 집합

● 조건부 확률 : 사건 B가 일어났다는 조건하에서 다른 사건 A가 일어날 확률

 

조건부 확률

 

 

(1) 확률변수 : 사건의 시행의 결과를 하나의 수치로 대응시킬 때의 값

  • 이산확률변수 : 확률변수가 취할 수 있는 값의 수가 유한한 변수
  • 연속확률변수 : 확률변수가 취할 수 있는 값의 수가 무한한 변수

(2) 확률분포 : 수치로 대응된 확률변수의 개별 값들이 가지는 확률 값의 분포

  • 이산확률분포 : 확률변수가 취할 수 있는 값의 수가 유한한 확률분포
  • 연속확률분포 : 확률변수가 취할 수 있는 값의 수가 무한한 확률분포

(3) 확률분포함수 : 확률변수가 취할 수 있는 구체적인 값 하나하나를 확률 공간상의 확률 값으로 할당해주는 함수

  • 이산확률분포함수 : 확률변수가 이산적인 확률분포를 가지는 함수
  • 연속확률분포함수 : 확률변수가 연속적인 확률분포를 가지는 함수

 

(4) 이산확률분포의 종류

  1. 베르누이분포 : 결과가 성공 아니면 실패, 두 가지로 귀결되어 나오는 이산확률분포
  2. 이항분포 : 베르누이시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포
  3. 다항분포 : 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포
  4. 포아송분포 : 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포
  5. 기하분포 : 베르누이시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포의 한 종류
  6. 초기하분포 : 비복원 추출에서 N개 중에 n개를 추출했을 때, 원하는 것 k개가 뽑힐 확률을 나타내는 이산확률분포

 

(5) 연속확률분포의 종류

  1. 정규분포 : 도수분포 곡선이 평균값을 중앙으로 하여 좌우대칭인 종 모양을 이루는 분포
  2. 표준정규분포 : 표준정규분포는 평균 = 0, 표준편차 = 1이 되도록 한 정규분포
  3. 카이제곱분포 : k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포
  4. t 분포 : 정규분포의 평균 측정 시 주로 사용하는 분포
  5. F 분포

정규화

 

정규분포 그래프

 

 

카이제곱분포 그래프

 

자유도에 따른 스튜던트 t 분포

5) 표본분포

- 크기 n의 확률분포의 확률변수의 분포

 

● 표준오차 : 표본평균의 표준편차를 평균의 표준오차라 함

 

(1) 중심극한정리 : 동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리, 모집단의 분포가 무엇이든 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포가 정규분포를 이룬다는 의미

 

 

6) 표본평균의 표준화

표본평균의 표준화

 

7) 표본비율

- 크기가 N인 모집단으로부터 표본크기가 n인 표본을 추출 시 이 표본을 구성하는 n개의 개체들을 통해 조사하고자 하는 결과가 성공 또는 실패로 구분될 때, 표본을 구성하는 n개의 개체 중에서 성공으로 나타나는 개체 수의 비율

 

 

 

 

참고 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments