빅데이터분석기사 필기 2일차 -3
Part01 빅데이터 분석 기획
Chapter02 데이터 분석 계획
Section01 분석 방안 수립
1) 데이터 분석 방안
(1) 분석 방법론
- 데이터 분석 시 품질확보를 위하여 단계별로 수행해야 하는 활동, 작업, 산출물을 정의
① 분석 방법론의 구성요건
- 상세한 절차(Procedure)
- 방법(Method)
- 도구와 기법(Tools & Techniques)
- 탬플릿과 산출물(Templates & Outputs)
- 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도
② 분석 방법론의 생성과정(선순환 과정)
- 형식화 : 개인의 암묵지가 조직의 형식지로 발전
- 체계화 : 문서화한 최적화된 형식지로 전개됨으로써 방법론이 생성
- 내재화 : 개인에게 전파되고 활용되어 암묵지로 발전
(2) 계층적 프로세스 모델 구성
① 최상위 계층 - 단계(Phase)
- 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
② 중간 계층 - 태스크(Task)
- 각 태스크는 단계를 구성하는 단위 활동
③ 최하위 계층 - 스텝(Step)
- 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
(3) 소프트웨어개발생명주기
- 요구분석과 설계, 구현 과정을 거쳐 설치, 운영과 유지보수, 폐기할 때까지의 전 과정을 가시적으로 표현한 것
◈ 소프트웨어개발생명주기의 구성요소
> 계획 > 요구분석 > 설계 > 구현 > 시험 > 유지보수
① 폭포수 모형(Waterfall Model)
- 고전적 Life Cycle Paradigm으로 분석, 설계, 개발, 구현, 시험 및 유지보수 과정을 순차적으로 접근하는 방법
② 프로토타입 모형
- 시스템의 일부분을 일시적으로 간략히 구현한 다음 다시 요구사항을 반영하는 과정을 반복하는 개발모형
③ 나선형 모형
- 시스템을 개발하면서 생기는 위험을 최소화하기 위해 나선을 돌면서 점진적으로 완벽한 시스템으로 개발하는 모형
2) KDD 분석 방법론
- KDD는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이다.
(1) KDD 분석 방법론의 분석 절차
단계 | 내용 | |
1 | 데이터셋 선택 | - 분석대상 비즈니스 도메인에 대한 이해 및 프로젝트 목표의 정확한 설정의 선행 |
2 | 데이터 전처리 | - 잡음과 이상값, 결측치를 식별하고 필요시 제거하거나 대체 |
3 | 데이터 변환 | - 분석 목적에 맞는 변수를 선택하거나 데이터의 차원 축소 등을 수행 |
4 | 데이터 마이닝 | - 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘을 선택하여 분석을 수행 |
5 | 데이터 마이닝 결과 평가 | - 분석 결과에 대한 해석과 평가 및 분석 목적과의 일치성을 확인 |
3) CRISP-DM 분석 방법론
- CRISP-DM은 계층적 프로세스 모델로써 4계층으로 구성된 데이터 마이닝 프로세스이다.
(1) CRISP-DM 분석 방법론의 4계층
- 최상위 레벨
- 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
- 세분화 태스크 : 일반화 태스크를 구체적으로 수행
- 프로세스 실행 : 데이터 마이닝을 구체적으로 실행
(2) CRISP-DM 분석 방법론의 분석절차
단계 | 내용 | 세부업무 |
업무 이해 | - 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계 | - 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
데이터 이해 | - 분석을 위한 데이터 수집 및 데이터 속성 이해 | - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
데이터 준비 | - 수집된 데이터를 분석 기법에 적합한 데이터로 변환 | - 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅 |
모델링 | - 다양한 모델링 기법과 알고리즘으로 모형 파라미터를 최적화 | - 모델링 기법 선택, 모형 테스트 계획 설계, 모형 작성, 모형 평가 |
평가 | - 분석 모형이 프로젝트의 목적에 부합한지 평가 | - 분석결과 평가, 모델링 과정 평가, 모형 적용성 평가 |
전개 | - 완성된 분석 모형을 업무에 적용하기 위한 계획 수립 | - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
4) SEMMA 분석 방법론
- SEMMA(Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스이다.
(1) SEMMA 분석 방법론의 분석절차
단계 | 내용 | 세부요소 / 산출물 |
추출(Sample) | - 분석할 데이터 추출, 모델을 평가하기 위한 데이터 준비 | - 통계적 추출, 조건 추출 |
탐색(Explore) | - 분석용 데이터 탐색, 데이터 오류 확인, 비즈니스 이해, 이상 현상 및 변화 탐색 | - 그래프, 기초통계, Clustering, 변수 유의성 및 상관분석 |
수정(Modify) | - 분석용 데이터 변환, 데이터 표현 극대화(시각화), 파생 변수 생성, 선택, 변형 | - 수량화, 표준화, 변환, 그룹화 |
모델링(Model) | - 분석 모델 구축, 패턴 발견, 모델링과 알고리즘의 적용 | - Neural Network, Decision Tree, Logistic Regression, 통계 기법 |
평가(Assess) | - 모델 평가 및 검증, 서로 다른 모델 동시 비교, Next Step 결정 | - Report, Feedback, 모델 검증 자료 |
5) 빅데이터 분석 방법론
- 분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성됨
단계(Phase) | - 데이터 분석을 수행하기 위한 절차 |
태스크(Task) | - 각 단계별로 수행되어야 하는 세부 업무 |
스텝(Step) | - 단기간 내에 수행 가능한 워크패키지 |
(1) 빅데이터 분석 방법론의 개발절차
참고도서 : 이기적 빅데이터분석기사 필기
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 3일차 -2 (0) | 2021.03.11 |
---|---|
빅데이터분석기사 필기 3일차 -1 (0) | 2021.03.11 |
빅데이터분석기사 필기 2일차 -2 (0) | 2021.03.10 |
빅데이터분석기사 필기 2일차 -1 (0) | 2021.03.10 |
빅데이터분석기사 필기 1일차 -2 (0) | 2021.03.09 |