.
1월

[샌프란시스코 범죄 분류] - 2

지난 글에서 위경도에 따른 분포를 산점도 그래프를 통해 시각화해보았다. 마지막으로 Dates 칼럼을 확인해보고 피처 엔지니어링, 모델 구축까지 진행해볼 것이다. EDA 날짜 데이터를 다룰 때는 데이터의 유형을 반드시 파악해야 한다. # Dates 확인 train_df[...

.
1월

[샌프란시스코 범죄 분류] - 1

이번 시간에는 캐글 대회 샌프란시스코 범죄 분류에 대해서 진행해 볼 것이다. 이 대회는 총 39개의 범죄 유형을 예측해야 한다. 즉 다중 분류(Multi-Class Classification) 문제이다. 데이터는 아래의 링크에 있다. https://www.kaggle....

.
1월

[진짜 재난 뉴스 판별기] - 2

지난 글에 진짜 재난 뉴스 판별기 시각화까지 진행했다. 이번 글에서는 본격적으로 판별하기 위한 피처 엔지니어링을 진행할 것이다. 피처 엔지니어링 데이터 전처리를 진행할 것이다. 먼저 결측치가 있는지 확인해보자. def check_na(data): isnull_na = ...

.
1월

[진짜 재난 뉴스 판별기] - 1

지도 학습의 기법인 분류(Classification)는 실제 비즈니스에서 매우 자주 사용되는 머신러닝 알고리즘의 하나이다. 주어진 데이터를 기반으로 새로운 범주형 클래스를 예측하는 기법이다. 예를 들면 고객의 이탈 유무 판별, 신용 카드 연체 유무 판별, 스팸 이메일 ...

2
9월

Seaborn 시각화(2)

막대그래프 다음으로 막대그래프에 대해 알아볼 것이다. 막대그래프에 텍스트를 추가하는 작업을 진행할 것이다. 기본 그래프는 빈도 그래프인 countplot()을 활용하면 구현하기 쉽다. sns.countplot(x = 'day', data = tips) plt.show(...

2
9월

Seaborn 시각화(1)

이번 글에서는 Seaborn 라이브러리에 대해 알아볼 것이다. Seaborn은 Matplotlib의 기반 위에 만들어진 라이브러리이다. 특히 Seaborn 라이브러리는 코드가 쉽고 간결하며 다양한 통계 그래프를 그릴 수 있어 매력적이다. 산점도, 회귀선이 있는 산점도 ...

2
9월

Matplotlib 시각화(2)

히스토그램 히스토그램은 연속형 변수의 분포를 그리는 데 사용한다. 연속형 변수들의 값이 빈(Bin) 수로 분할되어 x축에 표시되며, 각 빈에 포함되는 범위의 수치들은 카운트화되어 y축에 표시된다. y축에는 카운트 대신 총량의 백분율을 표시해 확률 분포를 나타내며, 이러...

2
9월

Matplotlib 시각화(1)

Matplotlib는 다양한 파이썬 시각화 라이브러리의 기본 뼈대라고 할 수 있으며, 사용 범위는 정형 데이터, 이미지 시각화 등 매우 다양하게 사용할 수 있다. 선그래프(Line Plot) 선그래프란 연속하는 데이터 값들을 직선 또는 곡선 형태로 구하는 것을 말한다....