빅데이터분석기사 필기 3일차 -1
Part01 빅데이터 분석 기획
Chapter02 데이터 분석 계획
Section02 분석 작업 계획
1) 분석 작업 개요
- 데이터 처리 프로세스 전체에 대한 이해가 필요
① 데이터 처리 영역
- 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역
단계 | 내용 |
데이터 소스 | - 내부 데이터, 외부 데이터 |
데이터 수집 | - 로그 수집기, 크롤링, 센서 네트워크 등을 통해 수집 |
데이터 저장 | - 유형별로 나눠 최적의 설계를 하여 데이터 스토리지에 저장 |
데이터 처리 | - 저장된 대용량의 데이터를 신속하고 정확하게 처리하기 위해 실시간 처리 및 분산 처리 등을 시도 |
② 데이터 분석 영역
- 저장되어 있는 데이터를 추출하여 분석 목적과 방법에 맞게 가공한 후, 데이터 분석을 직접 수행하고 그 결과를 표현하는 영역
구분 | 내용 |
도메인 이슈 도출 | - 분석 대상 과제 현황 파악, 개선과제 정의 |
분석 목표 수립 | - 빅데이터 요건 정의서를 토대로 개선방향에 맞는 현실적인 분석목표 수립 |
프로젝트 계획 수립 | - 자원과 예산, 기간 등을 고려하여 분석 프로젝트 계획 수립 |
보유 데이터 자산 확인 | - 현재 보유 중인 데이터의 품질이나 규모, 유형 등을 확인하고 법률적 이슈나 제약사항 등을 검토 |
2) 데이터 확보 계획
① 데이터 확보를 위한 사전 검토사항
- 필요 데이터의 정의
- 보유 데이터의 현황파악
- 분석 데이터의 유형
- 편향되지 않고 충분한 양의 데이터 규모 : 훈련 데이터셋, 검증 데이터셋, 테스트 데이터셋이 필요할 수 있음
- 내부 데이터의 사용
- 외부 데이터의 수집
3) 데이터의 전처리 수행
- 다양한 비즈니스 도메인에서 추출한 정형, 반정형, 비정형 데이터를 분석 및 처리에 적합한 데이터 형태로 조작
처리 기법 | 내용 |
데이터 정제 | - 결측값을 채우거나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 |
데이터 통합 | - 다수의 정제된 데이터를 통합하여 표현하는 작업 |
데이터 축소 | - 데이터 집합은 더 작지만 분석 결과는 같은 데이터 집합으로 만드는 작업 |
데이터 변환 | - 데이터 마이닝의 효율을 높이기 위한 변환 및 변형 작업 |
4) 빅데이터의 주요 품질 지표
구분 | 품질 검증 전략 |
정확성 | - 데이터 사용 목적에 따라 데이터 정확성의 기준 상이하게 적용 |
완전성 | - 필요한 데이터인지 식별하는 수준으로 품질 요소 적용 |
적시성 | - 소멸성이 강한 데이터 대한 품질 기준 판단 |
일관성 | - 동일한 데이터의 경우에도 사용 목적에 따라 의미가 달리지기 때문에 분석 요건에 따른 검증 요소 적용 |
5) 분석 절차와 작업 계획
① 분석 절차
- 데이터 분석의 시발점이 되는 문제 인식에서부터 시작하여 데이터를 확보하고 분석하여 결과를 도출 및 제시하는 단계까지의 일반적인 과정을 정형화한 프로세스
구분 | 내용 |
문제 인식 | - 문제를 인식하고 분석 목적을 명확하게 정의 |
연구조사 | - 문제 해결을 위한 각종 문헌을 조사하고 내용을 바탕으로 문제에 대한 해결방안을 정의 |
모형화 | - 복잡한 문제를 논리적이면서도 단순화하는 과정 |
데이터 수집 | - 데이터 수집 또는 변수를 측정하는 과정 |
데이터 분석 | - 수집된 데이터로부터 인사이트를 발굴 - 수집된 데이터로부터 변수들간의 관계를 분석 |
분석 결과 제시 | - 변수들 간 인과관계나 상관관계를 포함한 분석 결과를 제시하고 공유 - 표, 그림, 차트, 그래프 등을 활용하여 시각화 |
6) 분석 프로젝트
- 과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단
관리 영역 | 내용 |
데이터 크기 | - 데이터가 지속적으로 생성되어 증가하는 점을 고려 |
데이터 복잡도 | - 정형, 비정형 데이터와 다양한 시스템에 산재되어 있는 원천 데이터들을 통합하는 진행이 필요 |
속도 | - 분석 결과가 도출되어 이를 활용하는 시나리오 측면에서의 속도까지 고려 |
분석 모형의 복잡도 | - 분석 모형의 정확도와 복잡도는 Trade off 관계에 있음 |
정확도와 정밀도 | - 정확도와 정밀도는 Trade off인 경우가 많음 |
★ Trade off : 두 개의 목표 가운데 하나를 달성하려고 하면 다른 달성이 늦어지거나 희생되는 관계
(1) 정확도와 정밀도의 관점
- 낮은 정확도, 낮은 정밀도 : 예측값들이 실제값과 멀리 떨어져 있고 예측값끼리도 멀리 떨어져 있음, 편향도 높고 분산도 높음
- 낮은 정확도, 높은 정밀도 : 예측값들이 실제값과 멀리 떨어져 있지만 예측값끼리는 모여 있음, 편향은 높고 분산은 낮음.
- 높은 정확도, 낮은 정밀도 : 예측값들은 실제값에 가까이 있으나 예측값끼리는 떨어져 있음, 편향은 낮고 분산은 높음
- 높은 정확도, 높은 정밀도 : 예측값들과 실제값이 거의 같으며 모여 있음, 편향과 분산 모두 낮음
7) 분석 프로젝트의 영역별 주요 관리 항목
- 범위 관리
- 일정 관리
- 원가 관리
- 품질 관리
- 통합 관리
- 조달 관리
- 인적자원 관리
- 위험 관리
- 의사소통 관리
- 이해관계자 관리
참고도서 : 이기적 빅데이터분석기사 필기
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 4일차 -1 (0) | 2021.03.12 |
---|---|
빅데이터분석기사 필기 3일차 -2 (0) | 2021.03.11 |
빅데이터분석기사 필기 2일차 -3 (0) | 2021.03.10 |
빅데이터분석기사 필기 2일차 -2 (0) | 2021.03.10 |
빅데이터분석기사 필기 2일차 -1 (0) | 2021.03.10 |