[샌프란시스코 범죄 분류] - 1
이번 시간에는 캐글 대회 샌프란시스코 범죄 분류에 대해서 진행해 볼 것이다. 이 대회는 총 39개의 범죄 유형을 예측해야 한다. 즉 다중 분류(Multi-Class Classification) 문제이다. 데이터는 아래의 링크에 있다. https://www.kaggle....
이번 시간에는 캐글 대회 샌프란시스코 범죄 분류에 대해서 진행해 볼 것이다. 이 대회는 총 39개의 범죄 유형을 예측해야 한다. 즉 다중 분류(Multi-Class Classification) 문제이다. 데이터는 아래의 링크에 있다. https://www.kaggle....
지도 학습의 기법인 분류(Classification)는 실제 비즈니스에서 매우 자주 사용되는 머신러닝 알고리즘의 하나이다. 주어진 데이터를 기반으로 새로운 범주형 클래스를 예측하는 기법이다. 예를 들면 고객의 이탈 유무 판별, 신용 카드 연체 유무 판별, 스팸 이메일 ...
이번 글에서는 Seaborn 라이브러리에 대해 알아볼 것이다. Seaborn은 Matplotlib의 기반 위에 만들어진 라이브러리이다. 특히 Seaborn 라이브러리는 코드가 쉽고 간결하며 다양한 통계 그래프를 그릴 수 있어 매력적이다. 산점도, 회귀선이 있는 산점도 ...
히스토그램 히스토그램은 연속형 변수의 분포를 그리는 데 사용한다. 연속형 변수들의 값이 빈(Bin) 수로 분할되어 x축에 표시되며, 각 빈에 포함되는 범위의 수치들은 카운트화되어 y축에 표시된다. y축에는 카운트 대신 총량의 백분율을 표시해 확률 분포를 나타내며, 이러...
Matplotlib는 다양한 파이썬 시각화 라이브러리의 기본 뼈대라고 할 수 있으며, 사용 범위는 정형 데이터, 이미지 시각화 등 매우 다양하게 사용할 수 있다. 선그래프(Line Plot) 선그래프란 연속하는 데이터 값들을 직선 또는 곡선 형태로 구하는 것을 말한다....