Kaggle
[타이타닉 생존자 분류] - 2
2021.09.09
저번 시간에 타이타닉 데이터셋으로 EDA까지 진행해보았다. 오늘은 로지스틱 회귀 모델을 이용해 생존자 분류 모델을 만들어보고 성능을 평가해 볼 것이다. 분류 : 생존자 분류 모델 만들기 분류 모델을 위해 전처리하기 학습 데이터셋을 만들기 위해 전처리를 진행할 것이다. 먼저, age와 embark 피처의 결측치를 채워야 한다. age의 결측치는 평균값, embark의 결측치는 최빈값으로 대체할 것이다. 그리고 각 피처의 계산할 수 없는 값들을 처리하기 위해 원-핫 인코딩을 진행할 것이다. # age의 결측값을 평균값으로 대체 replace_mean = df_train[df_train['age'] > 0]['age'].mean() df_train['age'] = df_train['age'].fillna(re..
Kaggle
[타이타닉 생존자 분류] - 1
2021.09.08
타이타닉 데이터를 가지고 데이터 분석을 진행해보려고 한다. 타이타닉 데이터는 데이터 분석이나 머신러닝, 캐글에 대해 알고 있다면 여러 번 들어봤을 법한 입문자용 데이터셋이다. 이 데이터를 가지고 공부한다면 데이터 분석의 전반적인 지식을 쌓는데 많은 도움이 될 것이라고 생각한다. 탐색 : 타이타닉 데이터 살펴보기 pclass : Passenger Class, 승객 등급 survived : 생존 여부(생존은 1, 아닌 경우는 0) name : 승객 이름 sex : 승객 성별 age : 승객 나이 sibsp : 동승한 형제 또는 배우자 수 parch : 동승한 부모 또는 자녀 수 ticket : 티켓 번호 fare : 승객 지불 요금 cabin : 선실 이름 embarked : 승선항 (C = 쉘 부르크, Q..