Loading...
2021. 10. 5. 19:52

[샌프란시스코 범죄 분류] - 1

이번 시간에는 캐글 대회 샌프란시스코 범죄 분류에 대해서 진행해 볼 것이다. 이 대회는 총 39개의 범죄 유형을 예측해야 한다. 즉 다중 분류(Multi-Class Classification) 문제이다. 데이터는 아래의 링크에 있다. https://www.kaggle.com/c/sf-crime San Francisco Crime Classification | Kaggle www.kaggle.com 데이터 불러오기 데이터를 불러오자. import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') train.shape, test.shape 데이터는 약 88만 개 정도이고 Test 데이터의 개수가 Train 데이터의 개수보..

2021. 10. 1. 17:57

[진짜 재난 뉴스 판별기] - 1

지도 학습의 기법인 분류(Classification)는 실제 비즈니스에서 매우 자주 사용되는 머신러닝 알고리즘의 하나이다. 주어진 데이터를 기반으로 새로운 범주형 클래스를 예측하는 기법이다. 예를 들면 고객의 이탈 유무 판별, 신용 카드 연체 유무 판별, 스팸 이메일 감지, 암 진단 유무 등 다양한 곳에서 활용이 가능하다. 분류의 종류에는 이진 분류(Binary Classification), 다중 분류(Multiclass Classification)가 존재한다. 다중 분류의 가장 대표적인 예는 IRIS 데이터의 종 분류이다. 이번 글에서는 캐글 대회인 트위터 진짜 재난 뉴스 판별기 만들기를 진행해 볼 것이다. 비정형 데이터인 만큼 텍스트 마이닝이 필요하다. 데이터 불러오기 먼저 데이터는 아래의 링크에 있..