빅데이터
빅데이터분석기사 필기 6일차 -2
2021.03.16
Part02 빅데이터 탐색 Chapter02 데이터 탐색 Section02 고급 데이터 탐색 1) 시공간 데이터 탐색 - 공간적 정보(데이터)에 시간의 흐름(이력정보 등)이 결합된 다차원 데이터를 다루는 것 ① 시간 데이터 : 어느 한 시점에 대한 스냅샷 정보 ② 공간 데이터 : 기존 데이터베이스보다 복잡하고 다양한 유형의 값을 갖는 공간 데이터를 효율적으로 관리, 저장, 이용하는 데 초점을 맞춤 ③ 공간 데이터 모델 관계형 모델 : 기존 정적 모델로 데이터의 표현이 유연하지 못하며 실세계 공간의 객체의 특징을 적절히 표현하지 못하는 문제점이 있다. 객체지향 모델 : 비 구조적이고 복잡한 데이터를 자연스럽게 표현 ④ 시공간 데이터 : 시간과 공간 데이터의 결합 형태 2) 시공간 데이터 분석 시공간자료 정..
빅데이터
빅데이터분석기사 필기 6일차 -1
2021.03.16
Part02 빅데이터 탐색 Chapter02 데이터 탐색 Section01 데이터 탐색의 기초 1) 데이터 탐색의 개요 (1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis) - 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정 (2) 탐색적 데이터 분석의 필요성 내재된 잠재적 문제에 대해 인식하고 해결안을 도출할 수 있음 문제정의 단계에서 인지 못한 새로운 양상, 패턴을 발견할 수 있음 (3) 이상치의 검출 방법 개별 데이터 관찰 : 데이터 값을 눈으로 훑어보면서 전체적인 추세와 특이사항을 관찰할 수 있음 통계값 활용 시각화 활용 : 시각화를 통해 주어진 데이터의 개별 속성에 어떤 통계 지표가 적절한지 결정할 수 있음 머신러닝 기법 활용 :..
빅데이터
빅데이터분석기사 필기 5일차
2021.03.15
Part02 빅데이터 탐색 Chapter01 데이터 전처리 Section02 분석 변수 처리 1) 변수선택 - 통계적 분석 결과의 신뢰성을 위해서 기본적으로 데이터와 이를 특정 짓는 변수는 많으면 많을수록 좋음 2) 변수별 모형의 분류 전체 모형(FM : Full Model) : 모든 독립변수를 사용한 모형 축소 모형(RM : Reduced Model) : 전체 모형에서 사용된 변수의 개수를 줄여서 얻은 모형 영 모형(NM : Null Model) : 독립변수가 하나도 없는 모형 3) 변수의 선택 방법 전진 선택법 : 영 모형에서 시작, 모든 독립변수 중 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 분석모형에 포함시키는 것, 한번 추가된 변수는 제거하지 않는 것이 원칙 후진 선택법 : 전체 모델에서..
파이썬
파이썬 데이터 분석 실무 테크닉 100 - 데이터 가공
2021.03.13
데이터 분석을 위해 현장감각을 익히고 자연스럽게 진입할 수 있는 능력을 기르기 위해 이 책을 구매했다. 1부 데이터 가공 1장 웹에서 주문 수를 분석하는 테크닉 10 분석 목표 : 쇼핑몰 사이트의 데이터를 통해 상품 주문 수의 추세를 분석함으로써 판매량 개선의 방향을 찾는 것 전제조건 쇼핑몰 사이트의 데이터를 다룸 주요 품목은 컴퓨터 가격대별로 5개의 상품 존재 No. 파일 이름 개요 1 customer_master.csv 고객 데이터, 이름, 성별 등 2 item_master.csv 취급하는 상품 데이터, 상품명, 가격 등 3-1 transaction_1.csv 구매내역 데이터 3-2 transaction_2.csv 3-1과 연결된 구매내역 분할 데이터 4-1 transaction_detail_1.cs..
빅데이터
빅데이터분석기사 필기 4일차 -2
2021.03.12
Part02 빅데이터 탐색 Chapter01 데이터 전처리 Section01 데이터 정제 ○ 데이터 : 이론을 세우는 기초가 되는 사실 또는 자료 1) 데이터의 종류 단변량자료 : 특성 변수가 하나인 자료 다변량자료 : 특성 변수가 두 가지 이상인 자료 질적자료 : 정성적 자료라고도 하며 자료를 범주의 형태로 분류 2) 데이터의 정제 - 수집된 데이터를 대상으로 분석에 필요한 데이터를 추출하고 통합하는 과정 구분 수행내용 Process 데이터의 수집 - 데이터의 입수 방법 및 정책 결정 Pre Processing 포함 데이터의 변환 - Data 유형의 변화 및 분석 가능한 형태로 가공 데이터의 교정 - 결측치의 처리, 이상치 처리, 노이즈 처리 데이터의 통합 - 데이터분석이 용이하도록 기존 또는 유사데이..