빅데이터분석기사 필기 3일차 -2

728x90

Part01 빅데이터 분석 기획

Chapter03 데이터 수집 및 저장 계획

Section01 데이터 수집 및 전환

1) 데이터 수집

- 데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것

① 기초 데이터 수집 수행 절차

● 비즈니스 도메인 정보 수집 > 분석 기획서 기반 도메인, 서비스 이해 > 수집 데이터 탐색 > 기초 데이터 수집

② 데이터 수집 시스템 구축 절차

● 수집 데이터 유형 파악 > 수집 기술 결정 > 아키텍처 수립 > 하드웨어 구축 > 실행환경 구축

2) 비즈니스 도메인과 원천 데이터 정보 수집

① 원천 데이터 정보

- 데이터 분석에 필요한 대상 우너천 데이터의 수집 가능성, 데이터의 보안, 정확성을 탐색하고, 데이터 수집의 난이도, 수집 비용 등 기초 자료를 수집할 수 있음

3) 내, 외부 데이터 수집

① 데이터의 종류

내부 데이터 : 조직 내부의 시스템으로부터 생성되는 데이터(서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터)
외부 데이터 : 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD 등

② 데이터의 수집 방법

내부 데이터 : 분석에 적합한 정형화된 형식으로 수집됨
외부 데이터 : 분석 목표에 맞는 데이터 탐색, 이를 수집하고, 분석 목표에 맞게 수집 데이터를 변환하는 노력 필요

4) 데이터 수집 기술

① 정형 데이터 수집을 위한 Sqoop 기술

Apache Sqoop : 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송하기 위해 구현된 툴

② 로그 / 센서 데이터 수집을 위한 Flume 기술

Apache Flume : 대용량의 로그 데이터를 효과적으로 수집, 집계, 이동시키는 신뢰성 있는 분산 서비스를 제공하는 솔루션

③ 웹 및 소셜 데이터 수집을 위한 Scrapy 기술

Scrapy : 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 애플리케이션 프레임워크

5) 수집되는 데이터 형태

HTML : 웹 페이지를 만들 때 사용되는 문서 형식. 텍스트, 태그, 스크립트로 구성
XML : 데이터를 표현하기 위해서 태그를 사용하는 언어
JSON : 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식

6) 데이터 적절성 검증

데이터 누락 점검
소스 데이터와 비교
데이터의 정확성 점검
보안 사항 점검
저작권 점검
대량 트래픽 발생 여부

7) 데이터 비식별화

(1) 가명처리 : 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체

① 휴리스틱 가명화 : 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법 ex) 성명을 홍길동 같은 일반화된 이름으로 대체 표기

② 암호화 : 정보 가공 시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법

③ 교환 방법 : 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수값과 연계하여 교환

(2) 총계처리 : 데이터 전체 또는 부분을 집계(총합, 평균 등) 하는 방법

① 부분총계 : 데이터 셋 내 일정 부분 레코드만 총계 처리하며, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계 값으로 변환

② 라운딩 : 집계 처리된 값에 대하여 라운딩(올림, 내림) 기준을 적용하여 최종 집계 처리하는 방법

ex) 23세, 41세, 33세 등 각 나이 값을 20대, 40대, 30대 등으로 표기

③ 재배열 : 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법

(3) 데이터 삭제

① 식별자 삭제 : 원본 데이터에서 식별자를 단순 삭제하는 방법과 일부만 삭제하는 방법

② 레코드 삭제 : 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법

③ 식별요소 전부 삭제 : 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하는 방법

(4) 데이터 범주화

① 감추기 : 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주 값으로 변환하는 방식

② 랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림 또는 내림하는 방식

③ 범위 방법 : 수치 데이터를 임의의 수 기준의 범위로 설정하는 방식

④ 제어 라운딩 : 랜덤 라운딩 방법에서 어떠한 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법

(5) 데이터 마스킹

① 임의 잡음 추가 : 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가하는 방식

② 공백과 대체 : 특정 항목의 일부 또는 전부를 공백 또는 대체 문자로 바꾸는 방식

8) 프라이버시 보호 모델

기법	의미	적용
k-익명성	- 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률 수준 이상 비식별되도록 하는 기법	- 동일한 값을 가진 레코드를 k개 이상으로 하며, 이 경우 특정 개인을 식별할 확률은 1/k
i-다양성	- 특정인 추론이 안 된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법	- 각 레코는 최소 i개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론 방지
t-근접성	- i-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법	- 전체 데이터 집합의 정보 부누포와 특정 정보의 분포 차이를 t 이하로 하여 추론 방지

참고도서 : 이기적 빅데이터분석기사 필기

728x90

저작자표시 동일조건 (새창열림)

'빅데이터' 카테고리의 다른 글

빅데이터분석기사 필기 4일차 -2 (0)	2021.03.12
빅데이터분석기사 필기 4일차 -1 (0)	2021.03.12
빅데이터분석기사 필기 3일차 -1 (0)	2021.03.11
빅데이터분석기사 필기 2일차 -3 (0)	2021.03.10
빅데이터분석기사 필기 2일차 -2 (0)	2021.03.10

Part01 빅데이터 분석 기획

Chapter03 데이터 수집 및 저장 계획

Section01 데이터 수집 및 전환

'빅데이터' 카테고리의 다른 글

티스토리툴바