빅데이터분석기사 필기 2일차 -3

Part01 빅데이터 분석 기획

Chapter02 데이터 분석 계획

Section01 분석 방안 수립

 

1) 데이터 분석 방안

 (1) 분석 방법론

    - 데이터 분석 시 품질확보를 위하여 단계별로 수행해야 하는 활동, 작업, 산출물을 정의

 

 

   ① 분석 방법론의 구성요건

  • 상세한 절차(Procedure)
  • 방법(Method)
  • 도구와 기법(Tools & Techniques)
  • 탬플릿과 산출물(Templates & Outputs)
  • 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도

 

   ② 분석 방법론의 생성과정(선순환 과정)

  • 형식화 : 개인의 암묵지가 조직의 형식지로 발전
  • 체계화 : 문서화한 최적화된 형식지로 전개됨으로써 방법론이 생성
  • 내재화 : 개인에게 전파되고 활용되어 암묵지로 발전

 

 (2) 계층적 프로세스 모델 구성

  ① 최상위 계층 - 단계(Phase)

    - 프로세스 그룹을 통하여 완성된 단계별 산출물 생성

  ② 중간 계층 - 태스크(Task)

    - 각 태스크는 단계를 구성하는 단위 활동

  ③ 최하위 계층 - 스텝(Step)

    - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

 

 

 (3) 소프트웨어개발생명주기

 - 요구분석과 설계, 구현 과정을 거쳐 설치, 운영과 유지보수, 폐기할 때까지의 전 과정을 가시적으로 표현한 것

  ◈ 소프트웨어개발생명주기의 구성요소

       > 계획 > 요구분석 > 설계 > 구현 > 시험 > 유지보수

 

  ① 폭포수 모형(Waterfall Model)

    - 고전적 Life Cycle Paradigm으로 분석, 설계, 개발, 구현, 시험 및 유지보수 과정을 순차적으로 접근하는 방법

 

 

  ② 프로토타입 모형

   - 시스템의 일부분을 일시적으로 간략히 구현한 다음 다시 요구사항을 반영하는 과정을 반복하는 개발모형

 

프로토타입 모형

 

③ 나선형 모형

   - 시스템을 개발하면서 생기는 위험을 최소화하기 위해 나선을 돌면서 점진적으로 완벽한 시스템으로 개발하는 모형

 

나선형 모형

 

2) KDD 분석 방법론

- KDD는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는 데 활용할 수 있도록 체계적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이다.

  

  (1) KDD 분석 방법론의 분석 절차

단계 내용
1 데이터셋 선택 - 분석대상 비즈니스 도메인에 대한 이해 및 프로젝트 목표의 정확한 설정의 선행
2 데이터 전처리 - 잡음과 이상값, 결측치를 식별하고 필요시 제거하거나 대체
3 데이터 변환 - 분석 목적에 맞는 변수를 선택하거나 데이터의 차원 축소 등을 수행
4 데이터 마이닝 - 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘을 선택하여 분석을 수행
5 데이터 마이닝 결과 평가 - 분석 결과에 대한 해석과 평가 및 분석 목적과의 일치성을 확인

 

 

3) CRISP-DM 분석 방법론

- CRISP-DM은 계층적 프로세스 모델로써 4계층으로 구성된 데이터 마이닝 프로세스이다.

  

   (1) CRISP-DM 분석 방법론의 4계층

  1. 최상위 레벨
  2. 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
  3. 세분화 태스크 : 일반화 태스크를 구체적으로 수행
  4. 프로세스 실행 : 데이터 마이닝을 구체적으로 실행

   

   (2) CRISP-DM 분석 방법론의 분석절차

단계 내용 세부업무
업무 이해 - 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계 - 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
데이터 이해 - 분석을 위한 데이터 수집 및 데이터 속성 이해 - 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비 - 수집된 데이터를 분석 기법에 적합한 데이터로 변환 - 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅
모델링 - 다양한 모델링 기법과 알고리즘으로 모형 파라미터를 최적화 - 모델링 기법 선택, 모형 테스트 계획 설계, 모형 작성, 모형 평가
평가 - 분석 모형이 프로젝트의 목적에 부합한지 평가 - 분석결과 평가, 모델링 과정 평가, 모형 적용성 평가
전개 - 완성된 분석 모형을 업무에 적용하기 위한 계획 수립 - 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

 

CRISP-DM 분석 방법론

 

 

4) SEMMA 분석 방법론

- SEMMA(Sample, Explore, Modify, Model and Assess)는 SAS Institute의 주도로 만들어진 기술과 통계 중심의 데이터 마이닝 프로세스이다.

   

   (1) SEMMA 분석 방법론의 분석절차

단계 내용 세부요소 / 산출물
추출(Sample) - 분석할 데이터 추출, 모델을 평가하기 위한 데이터 준비 - 통계적 추출, 조건 추출
탐색(Explore) - 분석용 데이터 탐색, 데이터 오류 확인, 비즈니스 이해, 이상 현상 및 변화 탐색 - 그래프, 기초통계, Clustering, 변수 유의성 및 상관분석
수정(Modify) - 분석용 데이터 변환, 데이터 표현 극대화(시각화), 파생 변수 생성, 선택, 변형 - 수량화, 표준화, 변환, 그룹화
모델링(Model) - 분석 모델 구축, 패턴 발견, 모델링과 알고리즘의 적용 - Neural Network, Decision Tree, Logistic Regression, 통계 기법
평가(Assess) - 모델 평가 및 검증, 서로 다른 모델 동시 비교, Next Step 결정 - Report, Feedback, 모델 검증 자료

 

5) 빅데이터 분석 방법론

- 분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성됨

단계(Phase) - 데이터 분석을 수행하기 위한 절차
태스크(Task) - 각 단계별로 수행되어야 하는 세부 업무
스텝(Step) - 단기간 내에 수행 가능한 워크패키지

 

 

(1) 빅데이터 분석 방법론의 개발절차

빅데이터 분석 방법론의 개발 절차

 

 

 

 

참고도서 : 이기적 빅데이터분석기사 필기

TAGS.

Comments