Loading...
2021. 10. 5. 19:52

[샌프란시스코 범죄 분류] - 1

이번 시간에는 캐글 대회 샌프란시스코 범죄 분류에 대해서 진행해 볼 것이다. 이 대회는 총 39개의 범죄 유형을 예측해야 한다. 즉 다중 분류(Multi-Class Classification) 문제이다. 데이터는 아래의 링크에 있다. https://www.kaggle.com/c/sf-crime San Francisco Crime Classification | Kaggle www.kaggle.com 데이터 불러오기 데이터를 불러오자. import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') train.shape, test.shape 데이터는 약 88만 개 정도이고 Test 데이터의 개수가 Train 데이터의 개수보..

2021. 10. 1. 17:57

[진짜 재난 뉴스 판별기] - 1

지도 학습의 기법인 분류(Classification)는 실제 비즈니스에서 매우 자주 사용되는 머신러닝 알고리즘의 하나이다. 주어진 데이터를 기반으로 새로운 범주형 클래스를 예측하는 기법이다. 예를 들면 고객의 이탈 유무 판별, 신용 카드 연체 유무 판별, 스팸 이메일 감지, 암 진단 유무 등 다양한 곳에서 활용이 가능하다. 분류의 종류에는 이진 분류(Binary Classification), 다중 분류(Multiclass Classification)가 존재한다. 다중 분류의 가장 대표적인 예는 IRIS 데이터의 종 분류이다. 이번 글에서는 캐글 대회인 트위터 진짜 재난 뉴스 판별기 만들기를 진행해 볼 것이다. 비정형 데이터인 만큼 텍스트 마이닝이 필요하다. 데이터 불러오기 먼저 데이터는 아래의 링크에 있..

2021. 9. 28. 18:24

Seaborn 시각화(1)

이번 글에서는 Seaborn 라이브러리에 대해 알아볼 것이다. Seaborn은 Matplotlib의 기반 위에 만들어진 라이브러리이다. 특히 Seaborn 라이브러리는 코드가 쉽고 간결하며 다양한 통계 그래프를 그릴 수 있어 매력적이다. 산점도, 회귀선이 있는 산점도 산점도는 서로 다른 2개의 연속형(수치형) 변수 사이에 점을 찍는 그래프이다. 보통은 Scatterplot을 사용하지만, 이외에도 relplot, regplot을 사용한다. import matplotlib.pyplot as plt import seaborn as sns tips = sns.load_dataset('tips') sns.scatterplot(x = 'total_bill', y = 'tip', data = tips) plt.sho..

2021. 9. 28. 17:52

Matplotlib 시각화(2)

히스토그램 히스토그램은 연속형 변수의 분포를 그리는 데 사용한다. 연속형 변수들의 값이 빈(Bin) 수로 분할되어 x축에 표시되며, 각 빈에 포함되는 범위의 수치들은 카운트화되어 y축에 표시된다. y축에는 카운트 대신 총량의 백분율을 표시해 확률 분포를 나타내며, 이러한 그래프는 통계 분석에 사용된다. titanic = sns.load_dataset('titanic') age = titanic['age'] nbins = 21 fig, ax = plt.subplots(figsize = (10, 6)) ax.hist(age, bins = nbins) ax.set_xlabel('Age') ax.set_ylabel('Frequency') ax.set_title('Distribution of Age in Tita..

2021. 9. 27. 19:48

Matplotlib 시각화(1)

Matplotlib는 다양한 파이썬 시각화 라이브러리의 기본 뼈대라고 할 수 있으며, 사용 범위는 정형 데이터, 이미지 시각화 등 매우 다양하게 사용할 수 있다. 선그래프(Line Plot) 선그래프란 연속하는 데이터 값들을 직선 또는 곡선 형태로 구하는 것을 말한다. 특히 주가나 일일 매출 등과 같이 연속적인 값의 변화와 패턴을 파악하는 데 적합하다. 이 글에서는 모듈에서 제공하는 데이터를 불러와 작업할 것이다. import yfinance as yf data = yf.download('AAPL', '2019-08-01', '2020-08-01') ts = data['Open'] print(ts.head()) 먼저 Fix_Yahoo_Finance 라이브러리에서 데이터셋을 가져온다. AAPL(애플) 명을..