[샌프란시스코 범죄 분류] - 2
지난 글에서 위경도에 따른 분포를 산점도 그래프를 통해 시각화해보았다. 마지막으로 Dates 칼럼을 확인해보고 피처 엔지니어링, 모델 구축까지 진행해볼 것이다. EDA 날짜 데이터를 다룰 때는 데이터의 유형을 반드시 파악해야 한다. # Dates 확인 train_df[...
지난 글에서 위경도에 따른 분포를 산점도 그래프를 통해 시각화해보았다. 마지막으로 Dates 칼럼을 확인해보고 피처 엔지니어링, 모델 구축까지 진행해볼 것이다. EDA 날짜 데이터를 다룰 때는 데이터의 유형을 반드시 파악해야 한다. # Dates 확인 train_df[...
이번 시간에는 캐글 대회 샌프란시스코 범죄 분류에 대해서 진행해 볼 것이다. 이 대회는 총 39개의 범죄 유형을 예측해야 한다. 즉 다중 분류(Multi-Class Classification) 문제이다. 데이터는 아래의 링크에 있다. https://www.kaggle....
지난 글에 진짜 재난 뉴스 판별기 시각화까지 진행했다. 이번 글에서는 본격적으로 판별하기 위한 피처 엔지니어링을 진행할 것이다. 피처 엔지니어링 데이터 전처리를 진행할 것이다. 먼저 결측치가 있는지 확인해보자. def check_na(data): isnull_na = ...
지도 학습의 기법인 분류(Classification)는 실제 비즈니스에서 매우 자주 사용되는 머신러닝 알고리즘의 하나이다. 주어진 데이터를 기반으로 새로운 범주형 클래스를 예측하는 기법이다. 예를 들면 고객의 이탈 유무 판별, 신용 카드 연체 유무 판별, 스팸 이메일 ...
Edwith 강의를 통해 [캐글 실습으로 배우는 데이터 사이언스] 강의를 들었다. 교육 과정에 자전거 수요 예측 강의를 듣고 캐글 실습을 시작하게 되었다. 기초로 진행하기엔 좋은 데이터 분석이라 생각하여 직접 캐글로 진행해보았다. 데이터셋은 아래의 링크에 있다. htt...
저번 시간에 타이타닉 데이터셋으로 EDA까지 진행해보았다. 오늘은 로지스틱 회귀 모델을 이용해 생존자 분류 모델을 만들어보고 성능을 평가해 볼 것이다. 분류 : 생존자 분류 모델 만들기 분류 모델을 위해 전처리하기 학습 데이터셋을 만들기 위해 전처리를 진행할 것이다. ...
타이타닉 데이터를 가지고 데이터 분석을 진행해보려고 한다. 타이타닉 데이터는 데이터 분석이나 머신러닝, 캐글에 대해 알고 있다면 여러 번 들어봤을 법한 입문자용 데이터셋이다. 이 데이터를 가지고 공부한다면 데이터 분석의 전반적인 지식을 쌓는데 많은 도움이 될 것이라고 ...