빅데이터분석기사 필기 7일차 -2
Part02 빅데이터 탐색
Chapter03 통계기법의 이해
Section02 추론통계
● 추론 : 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정
● 가설검정 : 모집단의 실제값이 얼마나 되는가 하는 주장과 관련해서, 표본이 가지고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정
1) 점추정
- 모수에 대한 즉 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정하는 것
(1) 추정량의 선택 기준
- 불편성
- 효율성
- 일치성
- 충분성
(2) 점추정량
- 모집단의 특성을 단일값으로 추청하는 것
(3) 적률 방법
- 양수 n에 대해 확률변수 X의 n제곱의 기댓값이 E(X의 n제곱)을 확률변수 X의 원점에 대한 n차 적률이라고 함
(4) 편향
- 기대하는 추정량과 모수의 차이
- 불편추정량 : 편향이 0이 되는 상황의 추정량을 불편추정량이라고 함.
2) 구간추정
- 점추정에 오차의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추청하는 것
(1) 신뢰도
- 구간추정에 있어서 추정한 구간에 모수가 들어갈 확률
(2) 모평균의 구간추정
- 모집단의 분산을 알고 있는 경우 : Z는 오른쪽 면적이 a / 2인 표준정규분포를 따르는 Z값
- 모집단의 분산을 모르는 경우 : 모집단의 표준편자를 모르는 경우 표본에서 구한 불편추정량 S, 즉 표본의 표준편차를 대신 사용함. (t-분포는 자유도가 작을 때에는 정규분포에 비해 넓게 퍼진 모양을 갖지만, 자유도가 클 때에는 정규분포에 거의 접근하게 됨.)
3) 가설검정
- 모집단에 대해 어떤 가설을 설정하고 그 모집단으로부터 추출된 표본을 분석함으로써 그 가설이 맞는지 틀린지 타당성 여부를 결정하는 통계적 기법
(1) 가설의 검정
- 귀무가설 : 현재 통념적으로 믿어지고 있는 모수에 대한 주장 또는 원래의 기준이 되는 가설
- 대립가설 : 연구자가 모수에 대해 새로운 통계적 입증을 이루어 내고자 하는 가설
(2) 유의수준
- 제 1종 오류(Type 1 Error) : 귀무가설이 참일 때 귀무가설을 기각하도록 결정하는 오류
- 제 2종 오류(Type 2 Error) : 귀무가설이 거짓인데 귀무가설을 채택할 오류, 또는 대립가설이 참일 때 귀무가설을 채택하도록 결정하는 오류
▷ 유의수준 : 제 1종 오류를 범할 확률의 최대 허용한계를 유의수준 또는 위험률이라 하며 가설검정에서의 판단의 기준
(3) 기각역의 결정
- 표본에서 계산된 통계량이 가설로 설정한 모집단의 성격과 현저한 차이가 있을 경우에는 모집단에 대해 설정한 귀무가설을 기각
- 이때 귀무가설을 기각하게 되는 검정통계량의 범위를 기각역이라 하며, 기각역의 경계값을 임계치라 함.
(4) p-value
- 주어진 자료로서 귀무가설을 기각하려고 할 때 필요한 최소의 유의수준
p-value < α : 귀무가설을 기각
p-value > α : 귀무가설을 채택
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 8일차 -2 (0) | 2021.03.19 |
---|---|
빅데이터분석기사 필기 8일차 -1 (0) | 2021.03.19 |
빅데이터분석기사 필기 7일차 -1 (0) | 2021.03.18 |
빅데이터분석기사 필기 6일차 -2 (0) | 2021.03.16 |
빅데이터분석기사 필기 6일차 -1 (0) | 2021.03.16 |