빅데이터분석기사 필기 7일차 -1
Part02 빅데이터 탐색
Chapter03 통계기법의 이해
Section01 기술통계
● 기술통계 : 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법
1) 표본추출
- 모집단 : 관심 대상의 전체집합
- 표본 : 모집단 속에서 그 일부를 끄집어내어 조사한 결과
- 표본추출 : 모집단으로부터 표본을 선택하는 행위
2) 전수조사와 표본조사
- 전수조사 : 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것
- 표본조사 : 관심의 대상이 되는 모집단에서 표본을 추출하여 표본을 대상으로 조사를 시행하는 것
● 표본추출 오차 : 표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생
- 과잉 대표 : 중복선택 등의 원인으로 반복, 중복된 데이터만으로 규정되는 현상
- 최소 대표 : 실제모집단의 대표성을 나타낼 표본이 아닌 다른 데이터가 표본이 되는 현상
3) 표본추출 기법
- 단순무작위 추출 : 모집단으로부터 무작위 추출하고 독립적 선택으로 편향성을 제거하여 난수를 이용한 추출 방법
- 계통추출 : 모집단에서 추출 간격을 설정 간격 사이에서 무작위로 추출하는 방법
- 층화추출 : 모집단을 서로 겹치지 않게 여러 층으로 나누어 분할된 층별로 배정된 표본을 단순 임의 추출법에 따라 추출하는 방법
- 군집추출 : 모집단을 차이가 없는 여러 개 군집으로 나누어 군집의 단위의 일부 또는 전체에 대한 분석을 시행
4) 확률분포
● 확률 : 통계적 현상의 확실함의 정도
● 표본공간 : 통계적 실험에서 모든 발생 가능한 실험 결과들의 집합
● 조건부 확률 : 사건 B가 일어났다는 조건하에서 다른 사건 A가 일어날 확률
(1) 확률변수 : 사건의 시행의 결과를 하나의 수치로 대응시킬 때의 값
- 이산확률변수 : 확률변수가 취할 수 있는 값의 수가 유한한 변수
- 연속확률변수 : 확률변수가 취할 수 있는 값의 수가 무한한 변수
(2) 확률분포 : 수치로 대응된 확률변수의 개별 값들이 가지는 확률 값의 분포
- 이산확률분포 : 확률변수가 취할 수 있는 값의 수가 유한한 확률분포
- 연속확률분포 : 확률변수가 취할 수 있는 값의 수가 무한한 확률분포
(3) 확률분포함수 : 확률변수가 취할 수 있는 구체적인 값 하나하나를 확률 공간상의 확률 값으로 할당해주는 함수
- 이산확률분포함수 : 확률변수가 이산적인 확률분포를 가지는 함수
- 연속확률분포함수 : 확률변수가 연속적인 확률분포를 가지는 함수
(4) 이산확률분포의 종류
- 베르누이분포 : 결과가 성공 아니면 실패, 두 가지로 귀결되어 나오는 이산확률분포
- 이항분포 : 베르누이시행을 n번 독립적으로 시행할 때 성공횟수를 X로 정의한 이산확률분포
- 다항분포 : 여러 개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포
- 포아송분포 : 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포
- 기하분포 : 베르누이시행에서 처음 성공까지 시도한 횟수를 분포화한 이산확률분포의 한 종류
- 초기하분포 : 비복원 추출에서 N개 중에 n개를 추출했을 때, 원하는 것 k개가 뽑힐 확률을 나타내는 이산확률분포
(5) 연속확률분포의 종류
- 정규분포 : 도수분포 곡선이 평균값을 중앙으로 하여 좌우대칭인 종 모양을 이루는 분포
- 표준정규분포 : 표준정규분포는 평균 = 0, 표준편차 = 1이 되도록 한 정규분포
- 카이제곱분포 : k개의 서로 독립적인 표준정규확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포
- t 분포 : 정규분포의 평균 측정 시 주로 사용하는 분포
- F 분포
5) 표본분포
- 크기 n의 확률분포의 확률변수의 분포
● 표준오차 : 표본평균의 표준편차를 평균의 표준오차라 함
(1) 중심극한정리 : 동일한 확률분포를 가진 독립 확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리, 모집단의 분포가 무엇이든 상관없이 표본의 수가 큰 표본분포들의 표본평균의 분포가 정규분포를 이룬다는 의미
6) 표본평균의 표준화
7) 표본비율
- 크기가 N인 모집단으로부터 표본크기가 n인 표본을 추출 시 이 표본을 구성하는 n개의 개체들을 통해 조사하고자 하는 결과가 성공 또는 실패로 구분될 때, 표본을 구성하는 n개의 개체 중에서 성공으로 나타나는 개체 수의 비율
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 8일차 -1 (0) | 2021.03.19 |
---|---|
빅데이터분석기사 필기 7일차 -2 (0) | 2021.03.18 |
빅데이터분석기사 필기 6일차 -2 (0) | 2021.03.16 |
빅데이터분석기사 필기 6일차 -1 (0) | 2021.03.16 |
빅데이터분석기사 필기 5일차 (0) | 2021.03.15 |