Loading...
2021. 6. 4. 22:12

[빅데이터분석기사 실기] - 작업형 1유형

6월 19일 빅데이터 분석기사 실기 시험에 앞서 예시 문제가 올라와있다. 총 단답형 10문제 30점, 작업형 제1 유형 3개 30점, 작업형 제2 유형 1개 40점으로 총 100점 만점, 180분간 시험을 보게 된다. 위의 문제는 단답형 예시문제이다. 유형 당 1문제씩 총 3문제가 올라와있다. 위의 문제는 작업형 제 1유형 예시문제이다. 이 글에서는 이 문제에 대한 실습을 진행할 것이다. 제 2유형 예시문제는 다음 글에서 포스팅할 예정이다! Question 1 mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소 최대 척도(min - max scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. mtcars 데이터셋은 dataq 홈페이지에 올라와있다. 일단 데이터를 불러온..

2021. 6. 2. 22:25

파이썬 데이터 분석 실무 테크닉 100 -머신러닝(3)

2부 머신러닝 5장 회원 탈퇴를 예측하는 테크닉 10 분석 목표 : 의사결정 트리를 통해 탈퇴를 예측하는 흐름 배우기 전제조건 No. 파일 이름 개요 1 use_log.csv 스포츠 센터의 이용 이력 데이터. 기간은 2018년 4월 ~ 2019년 3월 2 customer_master.csv 2019년 3월 말 시점의 회원 데이터 3 class_master.csv 회원 구분 데이터(종일, 주간, 야간) 4 campaign_master.csv 캠페인 구분 데이터(입회비 무료 등) 5 customer_join.csv 3장에서 작성한 이용 이력을 포함한 고객 데이터 6 use_log_months.csv 4장에서 작성한 이용 이력을 연월 / 고객별로 집계한 데이터 테크닉041 : 데이터를 읽어 들이고 이용 데이터..

2021. 6. 1. 22:41

파이썬 데이터 분석 실무 테크닉 100 -머신러닝(2)

2부 머신러닝 4장 고객의 행동을 예측하는 테크닉 10 분석 목표 : 앞에서 사전 분석한 스포츠 센터 회원의 행동 정보를 이용해서 머신러닝으로 예측한다. 전제조건 No. 파일 이름 개요 1 use_log.csv 스포츠 센터의 이용 이력 데이터. 기간은 2018년 4월 ~ 2019년 3월 2 customer_master.csv 2019년 3월 말의 회원 데이터 3 class_master.csv 회원 구분 데이터(종일, 주간, 야간) 4 campaign_master.csv 캠페인 구분 데이터(입회비 무료 등) 5 customer_join.csv 3장에서 작성한 이용 이력을 포함한 고객 데이터 테크닉031 : 데이터 읽기 데이터를 읽으면서 결측치 상황도 확인! end_date 이외에는 결측치가 0인 것을 확인..

2021. 5. 31. 21:39

[파이썬 실습] Logistic Regression 실습

Linear Regression(선형 회귀) 실습 1. 모듈 불러오기 2. 데이터 불러오기 - 357명의 정상 환자, 212명의 유방암 환자가 존재 - X 변수 및 Y 변수 확인 - breast_cancer.target ( 0 - 유방암, 1 - 정상) ★ 작업 편의 상 - 타겟 값이 0과 같으면 1로 변경하고 아닐 경우 0으로 변경한다는 조건문 실행 3. 데이터 전처리하기 - random seed를 넣어주는 이유는 train과 test를 나누는 것이 random으로 갖고 하기 때문에 고정시켜주고 작업을 시킨다는 의미! - 각 변수 별 표준 정규화도 실시 4. 로지스틱 회귀 모델 구축하기 4.1 모델 학습하기 - 학습된 모델을 통해 베타값 도출하자. 4.2 β 확인하기 # 데이터 컬럼에 따른 beta, ..

2021. 5. 28. 21:47

[파이썬 실습] Linear Regression 실습

Linear Regression(선형 회귀) 실습 1. 모듈 불러오기 load_boston : 패키지에서 제공하는 공공데이터로 1978년 보스턴 주택 가격에 대한 데이터이다. 데이터 구조 : 관측치 개수 : 506개 변수 개수 : 설명변수 : 13개 / 반응변수 : 1개 - 설명변수(원인 : 예측값을 설명할 수 있는 변수) CRIM : 범죄율 INDUS : 비소매상업지역 면적비율 NOX : 일산화질소 농도 RM : 주택당 방 수 LSTAT : 인구 중 하위 계층 비율 B : 인구 중 흑인 비율 PTRATIO : 학생 / 교사 비율 ZN : 25,000 평방피트를 초과 거주지역 비율 CHAS : 찰스강의 경계에 위치한 경우 1, 아니면 0 AGE : 1940년 이전에 건축된 주택의 비율 RAD : 방사형 ..

2021. 5. 26. 19:26

파이썬 데이터 분석 실무 테크닉 100 -머신러닝(1)

2부 머신러닝 3장 고객의 전체 모습을 파악하는 테크닉 10 분석 목표 : 머신러닝을 하기 위한 데이터 가공 시술을 배우면서 고객 행동을 분석하고 파악하는 노하우 배우기 전제조건 종일 회원, 주간 회원, 야간 회원으로 구분 No. 파일 이름 개요 1 use_log.csv 센터의 이용 이력 데이터, 기간은 2018년 4월 ~ 2019년 3월 2 customer_master.csv 2019년 3월 말 시점의 회원 데이터 3 class_master.csv 회원 구분 데이터(종일, 주간, 야간) 4 campaign_master.csv 행사 구분 데이터(입회비 유무) 테크닉021 : 데이터 읽기 import pandas as pd uselog = pd.read_csv('use_log.csv') print(len(..

2021. 5. 25. 19:17

파이썬 데이터 분석 실무 테크닉 100 -데이터 가공(2)

1부 데이터 가공 2장 대리점 데이터를 가공하는 테크닉 10 분석 목표 : '지저분한' 데이터를 처리하는 경험 쌓고, 실제 현장에서 여러 가지 상황에 대처할 수 있는 능력 키우기 전제 조건 상품 A ~ Z까지 26개의 상품 취급 매출 일과 고객정보 데이터를 직접 입력 No. 파일 이름 개요 1 uriage.csv 매출이력 기간은 2019년 1월 ~ 2019년 7월 2 kokyaku_daicho.xlsx 대리점에서 관리하는 고객 정보 테크닉011. 데이터 읽기 import pandas as pd uriage_data = pd.read_csv('uriage.csv') uriage_data.head() 결과값은 다음과 같다. 똑같이 다른 데이터도 불러온다. kokyaku_data = pd.read_excel(..

빅데이터분석기사 필기 - 분석기법 적용(1)

● 회귀분석 - 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 ● 회귀 모형 가정 가정 설명 선형성 - 독립변수의 변화에 따라 종속변수도 일정 크기로 변화 - 독립변수와 종속변수의 관계의 형태는 선형 독립성 - 잔차와 독립변수의 값이 관련돼 있지 않음 등분산성 - 독립변수의 모든 값에 대해 오차들의 분산이 일정 비상관성 - 관측치들의 오차들끼리 상과이 없어야 함 정상성 - 오차항이 정규 분포를 이뤄야 함 ● 회귀 분석 유형 종류 수식 모형 단순회귀 Y = β₁+β₂X+ε - 독립변수가 1개이며, 종속변수와의 관계가 직선 다중회귀 Y = β₁+β₂X₂+...+ε - 독립변수가 K개이며 종속변수와의 관계가 선형(1차 함수) 다항회귀 Y = β₁+β₂X₂+β₃X₃+β₁₁X₁²+....