빅데이터분석기사 필기 3일차 -2
Part01 빅데이터 분석 기획
Chapter03 데이터 수집 및 저장 계획
Section01 데이터 수집 및 전환
1) 데이터 수집
- 데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것
① 기초 데이터 수집 수행 절차
● 비즈니스 도메인 정보 수집 > 분석 기획서 기반 도메인, 서비스 이해 > 수집 데이터 탐색 > 기초 데이터 수집
② 데이터 수집 시스템 구축 절차
● 수집 데이터 유형 파악 > 수집 기술 결정 > 아키텍처 수립 > 하드웨어 구축 > 실행환경 구축
2) 비즈니스 도메인과 원천 데이터 정보 수집
① 원천 데이터 정보
- 데이터 분석에 필요한 대상 우너천 데이터의 수집 가능성, 데이터의 보안, 정확성을 탐색하고, 데이터 수집의 난이도, 수집 비용 등 기초 자료를 수집할 수 있음
3) 내, 외부 데이터 수집
① 데이터의 종류
- 내부 데이터 : 조직 내부의 시스템으로부터 생성되는 데이터(서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터)
- 외부 데이터 : 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD 등
② 데이터의 수집 방법
- 내부 데이터 : 분석에 적합한 정형화된 형식으로 수집됨
- 외부 데이터 : 분석 목표에 맞는 데이터 탐색, 이를 수집하고, 분석 목표에 맞게 수집 데이터를 변환하는 노력 필요
4) 데이터 수집 기술
① 정형 데이터 수집을 위한 Sqoop 기술
- Apache Sqoop : 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송하기 위해 구현된 툴
② 로그 / 센서 데이터 수집을 위한 Flume 기술
- Apache Flume : 대용량의 로그 데이터를 효과적으로 수집, 집계, 이동시키는 신뢰성 있는 분산 서비스를 제공하는 솔루션
③ 웹 및 소셜 데이터 수집을 위한 Scrapy 기술
- Scrapy : 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 애플리케이션 프레임워크
5) 수집되는 데이터 형태
- HTML : 웹 페이지를 만들 때 사용되는 문서 형식. 텍스트, 태그, 스크립트로 구성
- XML : 데이터를 표현하기 위해서 태그를 사용하는 언어
- JSON : 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식
6) 데이터 적절성 검증
- 데이터 누락 점검
- 소스 데이터와 비교
- 데이터의 정확성 점검
- 보안 사항 점검
- 저작권 점검
- 대량 트래픽 발생 여부
7) 데이터 비식별화
(1) 가명처리 : 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체
① 휴리스틱 가명화 : 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법 ex) 성명을 홍길동 같은 일반화된 이름으로 대체 표기
② 암호화 : 정보 가공 시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법
③ 교환 방법 : 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수값과 연계하여 교환
(2) 총계처리 : 데이터 전체 또는 부분을 집계(총합, 평균 등) 하는 방법
① 부분총계 : 데이터 셋 내 일정 부분 레코드만 총계 처리하며, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계 값으로 변환
② 라운딩 : 집계 처리된 값에 대하여 라운딩(올림, 내림) 기준을 적용하여 최종 집계 처리하는 방법
ex) 23세, 41세, 33세 등 각 나이 값을 20대, 40대, 30대 등으로 표기
③ 재배열 : 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법
(3) 데이터 삭제
① 식별자 삭제 : 원본 데이터에서 식별자를 단순 삭제하는 방법과 일부만 삭제하는 방법
② 레코드 삭제 : 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법
③ 식별요소 전부 삭제 : 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하는 방법
(4) 데이터 범주화
① 감추기 : 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주 값으로 변환하는 방식
② 랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림 또는 내림하는 방식
③ 범위 방법 : 수치 데이터를 임의의 수 기준의 범위로 설정하는 방식
④ 제어 라운딩 : 랜덤 라운딩 방법에서 어떠한 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
(5) 데이터 마스킹
① 임의 잡음 추가 : 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가하는 방식
② 공백과 대체 : 특정 항목의 일부 또는 전부를 공백 또는 대체 문자로 바꾸는 방식
8) 프라이버시 보호 모델
기법 | 의미 | 적용 |
k-익명성 | - 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률 수준 이상 비식별되도록 하는 기법 | - 동일한 값을 가진 레코드를 k개 이상으로 하며, 이 경우 특정 개인을 식별할 확률은 1/k |
i-다양성 | - 특정인 추론이 안 된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법 | - 각 레코는 최소 i개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론 방지 |
t-근접성 | - i-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법 | - 전체 데이터 집합의 정보 부누포와 특정 정보의 분포 차이를 t 이하로 하여 추론 방지 |
참고도서 : 이기적 빅데이터분석기사 필기
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 4일차 -2 (0) | 2021.03.12 |
---|---|
빅데이터분석기사 필기 4일차 -1 (0) | 2021.03.12 |
빅데이터분석기사 필기 3일차 -1 (0) | 2021.03.11 |
빅데이터분석기사 필기 2일차 -3 (0) | 2021.03.10 |
빅데이터분석기사 필기 2일차 -2 (0) | 2021.03.10 |