파이썬
파이썬 데이터 분석 실무 테크닉 100 -데이터 가공(2)
2021.05.25
1부 데이터 가공 2장 대리점 데이터를 가공하는 테크닉 10 분석 목표 : '지저분한' 데이터를 처리하는 경험 쌓고, 실제 현장에서 여러 가지 상황에 대처할 수 있는 능력 키우기 전제 조건 상품 A ~ Z까지 26개의 상품 취급 매출 일과 고객정보 데이터를 직접 입력 No. 파일 이름 개요 1 uriage.csv 매출이력 기간은 2019년 1월 ~ 2019년 7월 2 kokyaku_daicho.xlsx 대리점에서 관리하는 고객 정보 테크닉011. 데이터 읽기 import pandas as pd uriage_data = pd.read_csv('uriage.csv') uriage_data.head() 결과값은 다음과 같다. 똑같이 다른 데이터도 불러온다. kokyaku_data = pd.read_excel(..
빅데이터
빅데이터분석기사 필기 - 분석기법 적용(1)
2021.04.07
● 회귀분석 - 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 ● 회귀 모형 가정 가정 설명 선형성 - 독립변수의 변화에 따라 종속변수도 일정 크기로 변화 - 독립변수와 종속변수의 관계의 형태는 선형 독립성 - 잔차와 독립변수의 값이 관련돼 있지 않음 등분산성 - 독립변수의 모든 값에 대해 오차들의 분산이 일정 비상관성 - 관측치들의 오차들끼리 상과이 없어야 함 정상성 - 오차항이 정규 분포를 이뤄야 함 ● 회귀 분석 유형 종류 수식 모형 단순회귀 Y = β₁+β₂X+ε - 독립변수가 1개이며, 종속변수와의 관계가 직선 다중회귀 Y = β₁+β₂X₂+...+ε - 독립변수가 K개이며 종속변수와의 관계가 선형(1차 함수) 다항회귀 Y = β₁+β₂X₂+β₃X₃+β₁₁X₁²+....
빅데이터
빅데이터분석기사 필기 - 분석 모형 설계
2021.04.05
● 통계기반 분석 모형 구분 설명 기술 통계 - 데이터 분석의 목적으로 수집된 데이터를 확률 통계적으로 정리 요약하는 기초적인 통계 상관 분석 - 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법 회귀 분석 - 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 - 단순 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선 - 다중 회귀 : 독립변수가 K개이며, 종속변수와의 관계가 선형(1차 함수) - 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 - 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선 - 로지스틱 회귀 : 종속변수가 범주형인 경우 적용 분산 분석 - 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 ..
빅데이터
빅데이터분석기사 필기 - 데이터 탐색
2021.04.05
● 탐색적 데이터 분석의 4가지 주제 주제(특징) 내용 저항성 (Resistance) - 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미 잔차 해석 (Residual) - 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색 자료 재표현 (Re-expression) - 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것 현시성 (Graphic Representation) - 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미 ● 다차원 데이터 탐색 방법 데이터 조합 설명 범주형 - 범주형 - 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석 수치형 - 수치형 - 산점도와 기..
빅데이터
빅데이터분석기사 필기 - 데이터 전처리(2)
2021.04.03
● 데이터 이상값 발생 원인 발생 원인 설명 데이터 입력 오류 - 데이터를 수집하는 과정에서 발생할 수 있는 에러 ex) 100을 입력해야 하는데, 1000을 입력하면 10배의 값으로 입력 측정 오류 - 데이터를 측정하는 과정에서 발생하는 에러 ex) 몸무게를 측정하는데, 9개의 체중계는 정상 작동, 1개는 비정상 작동을 한다고 가정할 때, 한 사용자가 비정상적으로 작동하는 체중계를 이용할 경우 에러 발생 실험 오류 - 실험조건이 동일하지 않은 경우 발생 ex) 100미터 달리기를 하는데, 한 선수가 '출발' 신호를 못 듣고 늦게 출발했다면 그 선수의 기록은 다른 선수들보다 늦을 것이고, 그의 경기 시간은 이상값이 될 수 있음 고의적인 이상값 - 자기 보고식 측정에서 나타나는 에러 - 정확하게 기입한 값..