[진짜 재난 뉴스 판별기] - 1

지도 학습의 기법인 분류(Classification)는 실제 비즈니스에서 매우 자주 사용되는 머신러닝 알고리즘의 하나이다. 주어진 데이터를 기반으로 새로운 범주형 클래스를 예측하는 기법이다. 예를 들면 고객의 이탈 유무 판별, 신용 카드 연체 유무 판별, 스팸 이메일 감지, 암 진단 유무 등 다양한 곳에서 활용이 가능하다. 분류의 종류에는 이진 분류(Binary Classification), 다중 분류(Multiclass Classification)가 존재한다. 다중 분류의 가장 대표적인 예는 IRIS 데이터의 종 분류이다. 이번 글에서는 캐글 대회인 트위터 진짜 재난 뉴스 판별기 만들기를 진행해 볼 것이다. 비정형 데이터인 만큼 텍스트 마이닝이 필요하다. 데이터 불러오기 먼저 데이터는 아래의 링크에 있..