Kaggle
[진짜 재난 뉴스 판별기] - 1
2021.10.01
지도 학습의 기법인 분류(Classification)는 실제 비즈니스에서 매우 자주 사용되는 머신러닝 알고리즘의 하나이다. 주어진 데이터를 기반으로 새로운 범주형 클래스를 예측하는 기법이다. 예를 들면 고객의 이탈 유무 판별, 신용 카드 연체 유무 판별, 스팸 이메일 감지, 암 진단 유무 등 다양한 곳에서 활용이 가능하다. 분류의 종류에는 이진 분류(Binary Classification), 다중 분류(Multiclass Classification)가 존재한다. 다중 분류의 가장 대표적인 예는 IRIS 데이터의 종 분류이다. 이번 글에서는 캐글 대회인 트위터 진짜 재난 뉴스 판별기 만들기를 진행해 볼 것이다. 비정형 데이터인 만큼 텍스트 마이닝이 필요하다. 데이터 불러오기 먼저 데이터는 아래의 링크에 있..
파이썬 시각화
Seaborn 시각화(2)
2021.09.29
막대그래프 다음으로 막대그래프에 대해 알아볼 것이다. 막대그래프에 텍스트를 추가하는 작업을 진행할 것이다. 기본 그래프는 빈도 그래프인 countplot()을 활용하면 구현하기 쉽다. sns.countplot(x = 'day', data = tips) plt.show() 요일별로 정렬되어 있어 좋지만 오름차순 또는 내림차순으로 정렬을 할 수도 있다. 이때는 Pandas 문법인 value_counts()를 활용하면 된다. sns.countplot(x = 'day', data = tips, order = tips['day'].value_counts().index) plt.show() 이에 더해 각각의 막대에 숫자를 표시할 것이다. 이때는 반복문을 사용하면 구현하기 쉽다. ax = sns.countplot(x..
파이썬 시각화
Seaborn 시각화(1)
2021.09.28
이번 글에서는 Seaborn 라이브러리에 대해 알아볼 것이다. Seaborn은 Matplotlib의 기반 위에 만들어진 라이브러리이다. 특히 Seaborn 라이브러리는 코드가 쉽고 간결하며 다양한 통계 그래프를 그릴 수 있어 매력적이다. 산점도, 회귀선이 있는 산점도 산점도는 서로 다른 2개의 연속형(수치형) 변수 사이에 점을 찍는 그래프이다. 보통은 Scatterplot을 사용하지만, 이외에도 relplot, regplot을 사용한다. import matplotlib.pyplot as plt import seaborn as sns tips = sns.load_dataset('tips') sns.scatterplot(x = 'total_bill', y = 'tip', data = tips) plt.sho..
파이썬 시각화
Matplotlib 시각화(2)
2021.09.28
히스토그램 히스토그램은 연속형 변수의 분포를 그리는 데 사용한다. 연속형 변수들의 값이 빈(Bin) 수로 분할되어 x축에 표시되며, 각 빈에 포함되는 범위의 수치들은 카운트화되어 y축에 표시된다. y축에는 카운트 대신 총량의 백분율을 표시해 확률 분포를 나타내며, 이러한 그래프는 통계 분석에 사용된다. titanic = sns.load_dataset('titanic') age = titanic['age'] nbins = 21 fig, ax = plt.subplots(figsize = (10, 6)) ax.hist(age, bins = nbins) ax.set_xlabel('Age') ax.set_ylabel('Frequency') ax.set_title('Distribution of Age in Tita..
파이썬 시각화
Matplotlib 시각화(1)
2021.09.27
Matplotlib는 다양한 파이썬 시각화 라이브러리의 기본 뼈대라고 할 수 있으며, 사용 범위는 정형 데이터, 이미지 시각화 등 매우 다양하게 사용할 수 있다. 선그래프(Line Plot) 선그래프란 연속하는 데이터 값들을 직선 또는 곡선 형태로 구하는 것을 말한다. 특히 주가나 일일 매출 등과 같이 연속적인 값의 변화와 패턴을 파악하는 데 적합하다. 이 글에서는 모듈에서 제공하는 데이터를 불러와 작업할 것이다. import yfinance as yf data = yf.download('AAPL', '2019-08-01', '2020-08-01') ts = data['Open'] print(ts.head()) 먼저 Fix_Yahoo_Finance 라이브러리에서 데이터셋을 가져온다. AAPL(애플) 명을..