빅데이터분석기사 필기 3일차 -1

Part01 빅데이터 분석 기획

Chapter02 데이터 분석 계획

Section02 분석 작업 계획

 

1) 분석 작업 개요

- 데이터 처리 프로세스 전체에 대한 이해가 필요

 

 

① 데이터 처리 영역

- 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역

단계 내용
데이터 소스 - 내부 데이터, 외부 데이터
데이터 수집 - 로그 수집기, 크롤링, 센서 네트워크 등을 통해 수집
데이터 저장 - 유형별로 나눠 최적의 설계를 하여 데이터 스토리지에 저장
데이터 처리 - 저장된 대용량의 데이터를 신속하고 정확하게 처리하기 위해 실시간 처리 및 분산 처리 등을 시도

 

 

② 데이터 분석 영역

- 저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역

 

구분 내용
도메인 이슈 도출 - 분석 대상 과제 현황 파악, 개선과제 정의
분석 목표 수립 - 빅데이터 요건 정의서를 토대로 개선방향에 맞는 현실적인 분석목표 수립
프로젝트 계획 수립 - 자원과 예산, 기간 등을 고려하여 분석 프로젝트 계획 수립
보유 데이터 자산 확인 - 현재 보유 중인 데이터의 품질이나 규모, 유형 등을 확인하고 법률적 이슈나 제약사항 등을 검토

 

 

2) 데이터 확보 계획

 

① 데이터 확보를 위한 사전 검토사항

  • 필요 데이터의 정의
  • 보유 데이터의 현황파악
  • 분석 데이터의 유형
  • 편향되지 않고 충분한 양의 데이터 규모 : 훈련 데이터셋, 검증 데이터셋, 테스트 데이터셋이 필요할 수 있음
  • 내부 데이터의 사용
  • 외부 데이터의 수집

 

3) 데이터의 전처리 수행

- 다양한 비즈니스 도메인에서 추출한 정형, 반정형, 비정형 데이터를 분석 및 처리에 적합한 데이터 형태로 조작

처리 기법 내용
데이터 정제 - 결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
데이터 통합 - 다수의 정제된 데이터를 통합하여 표현하는 작업
데이터 축소 - 데이터 집합은 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업
데이터 변환 - 데이터 마이닝의 효율을 높이기 위한 변환 및 변형 작업

 

 

4) 빅데이터의 주요 품질 지표

 

구분 품질 검증 전략
정확성 - 데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용
완전성 - 필요한 데이터인지 식별하는 수준으로 품질 요소 적용
적시성 - 소멸성이 강한 데이터 대한 품질 기준 판단
일관성 - 동일한 데이터의 경우에도 사용 목적에 따라 의미가 달리지기 때문에 분석 요건에 따른 검증 요소 적용

 

 

5) 분석 절차와 작업 계획

 

① 분석 절차

- 데이터 분석의 시발점이 되는 문제 인식에서부터 시작하여 데이터를 확보하고 분석하여 결과를 도출 및 제시하는 단계까지의 일반적인 과정을 정형화한 프로세스

구분 내용
문제 인식 - 문제를 인식하고 분석 목적을 명확하게 정의
연구조사 - 문제 해결을 위한 각종 문헌을 조사하고 내용을 바탕으로 문제에 대한 해결방안을 정의
모형화 - 복잡한 문제를 논리적이면서도 단순화하는 과정
데이터 수집 - 데이터 수집 또는 변수를 측정하는 과정
데이터 분석 - 수집된 데이터로부터 인사이트를 발굴
- 수집된 데이터로부터 변수들간의 관계를 분석
분석 결과 제시 - 변수들 간 인과관계나 상관관계를 포함한 분석 결과를 제시하고 공유
- 표, 그림, 차트, 그래프 등을 활용하여 시각화

 

6) 분석 프로젝트

- 과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단

 

관리 영역 내용
데이터 크기 - 데이터가 지속적으로 생성되어 증가하는 점을 고려
데이터 복잡도 - 정형, 비정형 데이터와 다양한 시스템에 산재되어 있는 원천 데이터들을 통합하는 진행이 필요
속도 - 분석 결과가 도출되어 이를 활용하는 시나리오 측면에서의 속도까지 고려
분석 모형의 복잡도 - 분석 모형의 정확도와 복잡도는 Trade off 관계에 있음
정확도와 정밀도 - 정확도와 정밀도는 Trade off인 경우가 많음

 

★ Trade off : 두 개의 목표 가운데 하나를 달성하려고 하면 다른 달성이 늦어지거나 희생되는 관계

 

(1) 정확도와 정밀도의 관점

 

  • 낮은 정확도, 낮은 정밀도 : 예측값들이 실제값과 멀리 떨어져 있고 예측값끼리도 멀리 떨어져 있음, 편향도 높고 분산도 높음
  • 낮은 정확도, 높은 정밀도 : 예측값들이 실제값과 멀리 떨어져 있지만 예측값끼리는 모여 있음, 편향은 높고 분산은 낮음.
  • 높은 정확도, 낮은 정밀도 : 예측값들은 실제값에 가까이 있으나 예측값끼리는 떨어져 있음, 편향은 낮고 분산은 높음
  • 높은 정확도, 높은 정밀도 : 예측값들과 실제값이 거의 같으며 모여 있음, 편향과 분산 모두 낮음

 

 

7) 분석 프로젝트의 영역별 주요 관리 항목

  • 범위 관리
  • 일정 관리
  • 원가 관리
  • 품질 관리
  • 통합 관리
  • 조달 관리
  • 인적자원 관리
  • 위험 관리
  • 의사소통 관리
  • 이해관계자 관리

 

 

참고도서 : 이기적 빅데이터분석기사 필기

TAGS.

Comments