Loading...
2021. 3. 20. 21:13

빅데이터분석기사 필기 9일차 -1

Part03 빅데이터 모델링 Chapter02 분석기법 적용 Section01 분석기법 1) 학습 유형에 따른 데이터 분석 모델 ① 지도학습 : 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습 지도학습 - 분류 의사결정트리(분류), 랜덤 포레스트, 인공신경망(지도학습), 서포트 벡터 머신(SVM), 로지스틱 회귀분석 지도학습 - 회귀(예측) 선형회귀분석, 다중회귀분석, 의사결정트리(회귀) ② 비지도학습 : 정답 없이 컴퓨터 스스로 입력 데이터 패턴을 구분하도록 학습 ③ 준지도학습 : 효율적 학습을 위해 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는 잠재변수를 찾게 하는 것 ④ 강화학습 ..

2021. 3. 19. 21:34

빅데이터분석기사 필기 8일차 -2

Part03 빅데이터 모델링 Chapter01 분석 모형 설계 Section02 분석 환경 구축 1) R - 통계분석과 자료의 시각화를 위해 개발한 오픈 분석용 프로그래밍 언어 ① 객체지향 언어 : 일반 데이터, 함수, 차트 등 모든 데이터가 객체 형태로 관리되어 효율적인 조작과 저장방법을 제공 ② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속으로 처리되고 재사용 가능 ③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터 프레임, 리스트 등 다양한 자료구조와 연산 기능을 제공 ④ 최신패키지 제공 : 오픈소스 커뮤니티 CRAN 사이트를 통해 데이터 분석에 필요한 최신의 알고리즘과 방법론 제공 ⑤ 시각화 : 데이터 분석과 표현을 위한 다양한 그래픽 도구 제공 ▶ R의 장, 단점 장점 - 지속적으로 ..

빅데이터분석기사 필기 8일차 -1

Part03 빅데이터 모델링 Chapter01 분석 모형 설계 Section01 분석 절차 수립 1) 분석 모형 선정 필요성 - 분석 기법 또는 분석 알고리즘을 적용하기 전에 분석 모형에 대한 선정이 필요함 (1) 분석 모형 선정 프로세스 문제요건 정의 또는 비즈니스 이해에 따른 대상 데이터 선정과 분석 목표 / 조건 정의 데이터 수집, 정리 및 도식화 데이터 전처리 분석 모형 선정 2) 분석 모형 정의와 종류 ① 예측 분석 모형 : 적조 예측, 날씨 예측, 주가 예측, 범죄 / 위험 예측, 쇼핑 아이템 추천 ② 현황 진단 모형 : 과거 데이터를 통해 현재 상황을 객관적으로 진단하는 모형 ③ 최적화 분석 모형 : 제한된 자원, 환경 내에서 최대의 효용성, 이익과 같은 결과를 생성하기 위함 ▶ 분석 모형 ..

2021. 3. 18. 21:44

빅데이터분석기사 필기 7일차 -2

Part02 빅데이터 탐색 Chapter03 통계기법의 이해 Section02 추론통계 ● 추론 : 표본을 통해 모집단 특성이 어떠한가에 대해 추측하는 과정 ● 가설검정 : 모집단의 실제값이 얼마나 되는가 하는 주장과 관련해서, 표본이 가지고 있는 정보를 이용해 가설이 올바른지 그렇지 않은지 판정하는 과정 1) 점추정 - 모수에 대한 즉 모평균이나 모표준편차 등과 같은 추정치를 이에 대응하는 통계량으로 추정하는 것 (1) 추정량의 선택 기준 불편성 효율성 일치성 충분성 (2) 점추정량 - 모집단의 특성을 단일값으로 추청하는 것 (3) 적률 방법 - 양수 n에 대해 확률변수 X의 n제곱의 기댓값이 E(X의 n제곱)을 확률변수 X의 원점에 대한 n차 적률이라고 함 (4) 편향 - 기대하는 추정량과 모수의 차..

2021. 3. 18. 21:15

빅데이터분석기사 필기 7일차 -1

Part02 빅데이터 탐색 Chapter03 통계기법의 이해 Section01 기술통계 ● 기술통계 : 분석에 필요한 데이터를 요약하여 묘사, 설명하는 통계기법 1) 표본추출 모집단 : 관심 대상의 전체집합 표본 : 모집단 속에서 그 일부를 끄집어내어 조사한 결과 표본추출 : 모집단으로부터 표본을 선택하는 행위 2) 전수조사와 표본조사 전수조사 : 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것 표본조사 : 관심의 대상이 되는 모집단에서 표본을 추출하여 표본을 대상으로 조사를 시행하는 것 ● 표본추출 오차 : 표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생 과잉 대표 : 중복선택 등의 원인으로 반복, 중복된 데이터만으로 규정되는 현상 최소 대표 : 실제모집단의 대표성을..

2021. 3. 15. 21:04

빅데이터분석기사 필기 5일차

Part02 빅데이터 탐색 Chapter01 데이터 전처리 Section02 분석 변수 처리 1) 변수선택 - 통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 많을수록 좋음 2) 변수별 모형의 분류 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형 축소 모형(RM : Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형 영 모형(NM : Null Model) : 독립변수가 하나도 없는 모형 3) 변수의 선택 방법 전진 선택법 : 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것, 한번 추가된 변수는 제거하지 않는 것이 원칙 후진 선택법 : 전체 모델에서..

빅데이터분석기사 필기 4일차 -2

Part02 빅데이터 탐색 Chapter01 데이터 전처리 Section01 데이터 정제 ○ 데이터 : 이론을 세우는 기초가 되는 사실 또는 자료 1) 데이터의 종류 단변량자료 : 특성 변수가 하나인 자료 다변량자료 : 특성 변수가 두 가지 이상인 자료 질적자료 : 정성적 자료라고도 하며 자료를 범주의 형태로 분류 2) 데이터의 정제 - 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정 구분 수행내용 Process 데이터의 수집 - 데이터의 입수 방법 및 정책 결정 Pre Processing 포함 데이터의 변환 - Data 유형의 변화 및 분석 가능한 형태로 가공 데이터의 교정 - 결측치의 처리, 이상치 처리, 노이즈 처리 데이터의 통합 - 데이터분석이 용이하도록 기존 또는 유사데이..

빅데이터분석기사 필기 4일차 -1

Part01 빅데이터 분석 기획 Chapter03 데이터 수집 및 저장 계획 Section01 데이터 적재 및 저장 1) 데이터 수집 및 적재 연계 데이터 수집 도구를 이용한 데이터 적재 NoSQL DBMS가 제공하는 도구를 이용한 데이터 적재 관계형 DBMS의 데이터를 NoSQL DBMS에서 적재 2) 빅데이터 저장시스템 - 대용량 데이터 집합을 저장하고 관리하는 시스템으로 사용자에게 데이터 제공 신뢰성과 가용성을 보장하는 시스템 파일 시스템 저장 방식 : 분산 파일의 형태로 저장하는 방식(Apache HDFS, 구글의 GFS) 데이터베이스 저장방식 : 전통적인 관계형 DB 시스템을 이용하거나 NoSQL 데이터베이스 시스템을 이용하는 방식 - 수평적 확장성, 데이터 복제, 간편한 API 제공, 일관성 ..