Kaggle
[타이타닉 생존자 분류] - 2
2021.09.09
저번 시간에 타이타닉 데이터셋으로 EDA까지 진행해보았다. 오늘은 로지스틱 회귀 모델을 이용해 생존자 분류 모델을 만들어보고 성능을 평가해 볼 것이다. 분류 : 생존자 분류 모델 만들기 분류 모델을 위해 전처리하기 학습 데이터셋을 만들기 위해 전처리를 진행할 것이다. 먼저, age와 embark 피처의 결측치를 채워야 한다. age의 결측치는 평균값, embark의 결측치는 최빈값으로 대체할 것이다. 그리고 각 피처의 계산할 수 없는 값들을 처리하기 위해 원-핫 인코딩을 진행할 것이다. # age의 결측값을 평균값으로 대체 replace_mean = df_train[df_train['age'] > 0]['age'].mean() df_train['age'] = df_train['age'].fillna(re..
Kaggle
[타이타닉 생존자 분류] - 1
2021.09.08
타이타닉 데이터를 가지고 데이터 분석을 진행해보려고 한다. 타이타닉 데이터는 데이터 분석이나 머신러닝, 캐글에 대해 알고 있다면 여러 번 들어봤을 법한 입문자용 데이터셋이다. 이 데이터를 가지고 공부한다면 데이터 분석의 전반적인 지식을 쌓는데 많은 도움이 될 것이라고 생각한다. 탐색 : 타이타닉 데이터 살펴보기 pclass : Passenger Class, 승객 등급 survived : 생존 여부(생존은 1, 아닌 경우는 0) name : 승객 이름 sex : 승객 성별 age : 승객 나이 sibsp : 동승한 형제 또는 배우자 수 parch : 동승한 부모 또는 자녀 수 ticket : 티켓 번호 fare : 승객 지불 요금 cabin : 선실 이름 embarked : 승선항 (C = 쉘 부르크, Q..
파이썬
[파이썬 실습] 정규화 모델 실습(2)
2021.06.07
k fold cross validation으로 하이퍼 파라미터 찾기 ※ Train set / Test set - Test set을 통해 모델의 성능을 검증하고, 하이퍼 파라미터를 설정하게 되면 구축된 모델이 test set에 overfitting 될 수 있다. 일반적으로 하이퍼 파라미터를 탐색하기 위해서 따로 에러 값을 찾는 검증용 데이터셋(validation set)을 사용하게 된다. ※ Train set / Validation set / Test set > K-fold cross validation 모든 데이터셋을 Train에 활용할 수 있다. 정확도를 향상시킬 수 있다. 데이터 부족으로 인한 underfitting을 방지할 수 있다. 모든 데이터셋을 Validation에 활용할 수 있다. 평가에 사..
파이썬
[파이썬 실습] 정규화 모델 실습(1)
2021.06.05
목표 : 정규화 모델 구축 1. 데이터 전처리 Ridge, Lasso, Elasticnet regression 구축 (hyperparameter 탐색) 예측 결과 평가 및 변수 중요도 해석 1. 모듈 불러오기 from IPython.display import display, HTML import warnings warnings.filterwarnings('ignore') # 데이터 전처리 import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet, LassoCV, R..
파이썬
[빅데이터분석기사 실기] - 작업형 1유형
2021.06.04
6월 19일 빅데이터 분석기사 실기 시험에 앞서 예시 문제가 올라와있다. 총 단답형 10문제 30점, 작업형 제1 유형 3개 30점, 작업형 제2 유형 1개 40점으로 총 100점 만점, 180분간 시험을 보게 된다. 위의 문제는 단답형 예시문제이다. 유형 당 1문제씩 총 3문제가 올라와있다. 위의 문제는 작업형 제 1유형 예시문제이다. 이 글에서는 이 문제에 대한 실습을 진행할 것이다. 제 2유형 예시문제는 다음 글에서 포스팅할 예정이다! Question 1 mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소 최대 척도(min - max scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. mtcars 데이터셋은 dataq 홈페이지에 올라와있다. 일단 데이터를 불러온..