빅데이터분석기사 필기 7일차 -2

Part02 빅데이터 탐색

Chapter03 통계기법의 이해

Section02 추론통계

 

 

● 추론 : 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정

● 가설검정 : 모집단의 실제값이 얼마나 되는가 하는 주장과 관련해서, 표본이 가지고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정

 

1) 점추정

- 모수에 대한 즉 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정하는 것

 

(1) 추정량의 선택 기준

  1. 불편성
  2. 효율성
  3. 일치성
  4. 충분성

 

(2) 점추정량

- 모집단의 특성을 단일값으로 추청하는 것

 

(3) 적률 방법

- 양수 n에 대해 확률변수 X의 n제곱의 기댓값이 E(X의 n제곱)을 확률변수 X의 원점에 대한 n차 적률이라고 함

 

(4) 편향

- 기대하는 추정량과 모수의 차이

- 불편추정량 : 편향이 0이 되는 상황의 추정량을 불편추정량이라고 함.

 

 

2) 구간추정

- 점추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추청하는 것

 

(1) 신뢰도

- 구간추정에 있어서 추정한 구간에 모수가 들어갈 확률

 

(2) 모평균의 구간추정

 

모평균의 구간추정

  1.  모집단의 분산을 알고 있는 경우 : Z는 오른쪽 면적이 a / 2인 표준정규분포를 따르는 Z값
  2.  모집단의 분산을 모르는 경우 : 모집단의 표준편자를 모르는 경우 표본에서 구한 불편추정량 S, 즉 표본의 표준편차를 대신 사용함. (t-분포는 자유도가 작을 때에는 정규분포에 비해 넓게 퍼진 모양을 갖지만, 자유도가 클 때에는 정규분포에 거의 접근하게 됨.)

자유도에 따른 T분포와 정규분포 비교

 

 

3) 가설검정

- 모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 맞는지 틀린지 타당성 여부를 결정하는 통계적 기법

 

(1) 가설의 검정

  • 귀무가설 : 현재 통념적으로 믿어지고 있는 모수에 대한 주장 또는 원래의 기준이 되는 가설
  • 대립가설 : 연구자가 모수에 대해 새로운 통계적 입증을 이루어 내고자 하는 가설

(2) 유의수준

  • 제 1종 오류(Type 1 Error) : 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류
  • 제 2종 오류(Type 2 Error) : 귀무가설이 거짓인데 귀무가설을 채택할 오류, 또는 대립가설이 참일 때 귀무가설을 채택하도록 결정하는 오류

▷ 유의수준 : 제 1종 오류를 범할 확률의 최대 허용한계를 유의수준 또는 위험률이라 하며 가설검정에서의 판단의 기준

 

양측검정의 기각역과 채택역
단측검정의 기각역과 채택역

 

(3) 기각역의 결정

- 표본에서 계산된 통계량이 가설로 설정한 모집단의 성격과 현저한 차이가 있을 경우에는 모집단에 대해 설정한 귀무가설을 기각

- 이때 귀무가설을 기각하게 되는 검정통계량의 범위를 기각역이라 하며, 기각역의 경계값을 임계치라 함.

 

(4) p-value

- 주어진 자료로서 귀무가설을 기각하려고 할 때 필요한 최소의 유의수준

 

p-value < α : 귀무가설을 기각

p-value > α : 귀무가설을 채택

 

 

 

 

 

 

참고 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments