Loading...
2021. 9. 13. 20:13

파이썬 데이터 분석 실무 테크닉 100 -최적화(1)

3부 최적화 6장 물류의 최적경로를 컨설팅하는 테크닉 10 분석 목표 : 물류의 기초가 되는 '운송 최적화'를 검토하고 기초적인 테크닉 배우기 전제조건 각 창고와 공장 구간의 운송 비용은 과거 데이터에서 정략적으로 계산돼 있음 집계 기간은 2019년 1월 1일 ~ 2019년 12월 31일 북부지사와 남부지사의 데이처를 시스템에서 추출 테크닉 051 : 물류 데이터를 불러오자 import pandas as pd # 공장데이터 factories = pd.read_csv('data/6장/tbl_factory.csv', index_col = 0) factories # 창고데이터 warehouse = pd.read_csv('data/6장/tbl_warehouse.csv', index_col = 0) warehou..

2021. 6. 7. 20:53

[파이썬 실습] 정규화 모델 실습(2)

k fold cross validation으로 하이퍼 파라미터 찾기 ※ Train set / Test set - Test set을 통해 모델의 성능을 검증하고, 하이퍼 파라미터를 설정하게 되면 구축된 모델이 test set에 overfitting 될 수 있다. 일반적으로 하이퍼 파라미터를 탐색하기 위해서 따로 에러 값을 찾는 검증용 데이터셋(validation set)을 사용하게 된다. ※ Train set / Validation set / Test set > K-fold cross validation 모든 데이터셋을 Train에 활용할 수 있다. 정확도를 향상시킬 수 있다. 데이터 부족으로 인한 underfitting을 방지할 수 있다. 모든 데이터셋을 Validation에 활용할 수 있다. 평가에 사..

2021. 6. 5. 14:02

[파이썬 실습] 정규화 모델 실습(1)

목표 : 정규화 모델 구축 1. 데이터 전처리 Ridge, Lasso, Elasticnet regression 구축 (hyperparameter 탐색) 예측 결과 평가 및 변수 중요도 해석 1. 모듈 불러오기 from IPython.display import display, HTML import warnings warnings.filterwarnings('ignore') # 데이터 전처리 import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet, LassoCV, R..

2021. 6. 4. 22:12

[빅데이터분석기사 실기] - 작업형 1유형

6월 19일 빅데이터 분석기사 실기 시험에 앞서 예시 문제가 올라와있다. 총 단답형 10문제 30점, 작업형 제1 유형 3개 30점, 작업형 제2 유형 1개 40점으로 총 100점 만점, 180분간 시험을 보게 된다. 위의 문제는 단답형 예시문제이다. 유형 당 1문제씩 총 3문제가 올라와있다. 위의 문제는 작업형 제 1유형 예시문제이다. 이 글에서는 이 문제에 대한 실습을 진행할 것이다. 제 2유형 예시문제는 다음 글에서 포스팅할 예정이다! Question 1 mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소 최대 척도(min - max scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. mtcars 데이터셋은 dataq 홈페이지에 올라와있다. 일단 데이터를 불러온..

2021. 6. 2. 22:25

파이썬 데이터 분석 실무 테크닉 100 -머신러닝(3)

2부 머신러닝 5장 회원 탈퇴를 예측하는 테크닉 10 분석 목표 : 의사결정 트리를 통해 탈퇴를 예측하는 흐름 배우기 전제조건 No. 파일 이름 개요 1 use_log.csv 스포츠 센터의 이용 이력 데이터. 기간은 2018년 4월 ~ 2019년 3월 2 customer_master.csv 2019년 3월 말 시점의 회원 데이터 3 class_master.csv 회원 구분 데이터(종일, 주간, 야간) 4 campaign_master.csv 캠페인 구분 데이터(입회비 무료 등) 5 customer_join.csv 3장에서 작성한 이용 이력을 포함한 고객 데이터 6 use_log_months.csv 4장에서 작성한 이용 이력을 연월 / 고객별로 집계한 데이터 테크닉041 : 데이터를 읽어 들이고 이용 데이터..

2021. 6. 1. 22:41

파이썬 데이터 분석 실무 테크닉 100 -머신러닝(2)

2부 머신러닝 4장 고객의 행동을 예측하는 테크닉 10 분석 목표 : 앞에서 사전 분석한 스포츠 센터 회원의 행동 정보를 이용해서 머신러닝으로 예측한다. 전제조건 No. 파일 이름 개요 1 use_log.csv 스포츠 센터의 이용 이력 데이터. 기간은 2018년 4월 ~ 2019년 3월 2 customer_master.csv 2019년 3월 말의 회원 데이터 3 class_master.csv 회원 구분 데이터(종일, 주간, 야간) 4 campaign_master.csv 캠페인 구분 데이터(입회비 무료 등) 5 customer_join.csv 3장에서 작성한 이용 이력을 포함한 고객 데이터 테크닉031 : 데이터 읽기 데이터를 읽으면서 결측치 상황도 확인! end_date 이외에는 결측치가 0인 것을 확인..

2021. 5. 31. 21:39

[파이썬 실습] Logistic Regression 실습

Linear Regression(선형 회귀) 실습 1. 모듈 불러오기 2. 데이터 불러오기 - 357명의 정상 환자, 212명의 유방암 환자가 존재 - X 변수 및 Y 변수 확인 - breast_cancer.target ( 0 - 유방암, 1 - 정상) ★ 작업 편의 상 - 타겟 값이 0과 같으면 1로 변경하고 아닐 경우 0으로 변경한다는 조건문 실행 3. 데이터 전처리하기 - random seed를 넣어주는 이유는 train과 test를 나누는 것이 random으로 갖고 하기 때문에 고정시켜주고 작업을 시킨다는 의미! - 각 변수 별 표준 정규화도 실시 4. 로지스틱 회귀 모델 구축하기 4.1 모델 학습하기 - 학습된 모델을 통해 베타값 도출하자. 4.2 β 확인하기 # 데이터 컬럼에 따른 beta, ..

2021. 5. 28. 21:47

[파이썬 실습] Linear Regression 실습

Linear Regression(선형 회귀) 실습 1. 모듈 불러오기 load_boston : 패키지에서 제공하는 공공데이터로 1978년 보스턴 주택 가격에 대한 데이터이다. 데이터 구조 : 관측치 개수 : 506개 변수 개수 : 설명변수 : 13개 / 반응변수 : 1개 - 설명변수(원인 : 예측값을 설명할 수 있는 변수) CRIM : 범죄율 INDUS : 비소매상업지역 면적비율 NOX : 일산화질소 농도 RM : 주택당 방 수 LSTAT : 인구 중 하위 계층 비율 B : 인구 중 흑인 비율 PTRATIO : 학생 / 교사 비율 ZN : 25,000 평방피트를 초과 거주지역 비율 CHAS : 찰스강의 경계에 위치한 경우 1, 아니면 0 AGE : 1940년 이전에 건축된 주택의 비율 RAD : 방사형 ..