빅데이터분석기사 필기 3일차 -2

Part01 빅데이터 분석 기획

Chapter03 데이터 수집 및 저장 계획

Section01 데이터 수집 및 전환

 

1) 데이터 수집

- 데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것

 

① 기초 데이터 수집 수행 절차

  ●  비즈니스 도메인 정보 수집 > 분석 기획서 기반 도메인, 서비스 이해 > 수집 데이터 탐색 > 기초 데이터 수집

 

② 데이터 수집 시스템 구축 절차

  ●  수집 데이터 유형 파악 > 수집 기술 결정 > 아키텍처 수립 > 하드웨어 구축 > 실행환경 구축

 

 

2) 비즈니스 도메인과 원천 데이터 정보 수집

 

① 원천 데이터 정보

   - 데이터 분석에 필요한 대상 우너천 데이터의 수집 가능성, 데이터의 보안, 정확성을 탐색하고, 데이터 수집의 난이도, 수집 비용 등 기초 자료를 수집할 수 있음

 

 

 

3) 내, 외부 데이터 수집

 

① 데이터의 종류

  • 내부 데이터 : 조직 내부의 시스템으로부터 생성되는 데이터(서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터)
  • 외부 데이터 : 다양한 소셜 데이터, 특정 기관 데이터, M2M 데이터, LOD 등

② 데이터의 수집 방법

  • 내부 데이터 : 분석에 적합한 정형화된 형식으로 수집됨
  • 외부 데이터 : 분석 목표에 맞는 데이터 탐색, 이를 수집하고, 분석 목표에 맞게 수집 데이터를 변환하는 노력 필요

 

4) 데이터 수집 기술

① 정형 데이터 수집을 위한 Sqoop 기술

  • Apache Sqoop : 관계형 데이터 스토어 간에 대량 데이터를 효과적으로 전송하기 위해 구현된 툴

② 로그 / 센서 데이터 수집을 위한 Flume 기술

  • Apache Flume : 대용량의 로그 데이터를 효과적으로 수집, 집계, 이동시키는 신뢰성 있는 분산 서비스를 제공하는 솔루션

③ 웹 및 소셜 데이터 수집을 위한 Scrapy 기술

  • Scrapy : 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 애플리케이션 프레임워크

5) 수집되는 데이터 형태

  1. HTML : 웹 페이지를 만들 때 사용되는 문서 형식. 텍스트, 태그, 스크립트로 구성
  2. XML : 데이터를 표현하기 위해서 태그를 사용하는 언어
  3. JSON : 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식

 

6) 데이터 적절성 검증

  • 데이터 누락 점검
  • 소스 데이터와 비교
  • 데이터의 정확성 점검
  • 보안 사항 점검
  • 저작권 점검
  • 대량 트래픽 발생 여부

7) 데이터 비식별화

 

(1) 가명처리 : 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체

 

 

① 휴리스틱 가명화 : 식별자에 해당하는 값들을 몇 가지 정해진 규칙으로 대체하거나 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법    ex) 성명을 홍길동 같은 일반화된 이름으로 대체 표기

 

② 암호화 : 정보 가공 시 일정한 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법

 

③ 교환 방법 : 기존의 데이터베이스의 레코드를 사전에 정해진 외부의 변수값과 연계하여 교환

 

 

(2) 총계처리 : 데이터 전체 또는 부분을 집계(총합, 평균 등) 하는 방법

 

① 부분총계 : 데이터 셋 내 일정 부분 레코드만 총계 처리하며, 다른 데이터 값에 비하여 오차 범위가 큰 항목을 통계 값으로 변환

 

② 라운딩 : 집계 처리된 값에 대하여 라운딩(올림, 내림) 기준을 적용하여 최종 집계 처리하는 방법

                     ex) 23세, 41세, 33세 등 각 나이 값을 20대, 40대, 30대 등으로 표기

 

③ 재배열 : 개인의 정보를 타인의 정보와 뒤섞어서 전체 정보에 대한 손상 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법

 

 

(3) 데이터 삭제

 

① 식별자 삭제 : 원본 데이터에서 식별자를 단순 삭제하는 방법과 일부만 삭제하는 방법

 

② 레코드 삭제 : 다른 정보와 뚜렷하게 구별되는 레코드 전체를 삭제하는 방법

 

③ 식별요소 전부 삭제 : 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 속성자까지 전부 삭제하는 방법

 

 

(4) 데이터 범주화

 

① 감추기 : 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주 값으로 변환하는 방식

 

② 랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림 또는 내림하는 방식

 

③ 범위 방법 : 수치 데이터를 임의의 수 기준의 범위로 설정하는 방식

 

④ 제어 라운딩 : 랜덤 라운딩 방법에서 어떠한 특정 값을 변경할 경우 행과 열의 합이 일치하지 않는 단점 해결을 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법

 

 

(5) 데이터 마스킹

 

① 임의 잡음 추가 : 개인 식별이 가능한 정보에 임의의 숫자 등 잡음을 추가하는 방식

 

② 공백과 대체 : 특정 항목의 일부 또는 전부를 공백 또는 대체 문자로 바꾸는 방식

 

 

8) 프라이버시 보호 모델

기법 의미 적용
k-익명성 - 특정인임을 추론할 수 있는지 여부를 검토, 일정 확률 수준 이상 비식별되도록 하는 기법 - 동일한 값을 가진 레코드를 k개 이상으로 하며, 이 경우 특정 개인을 식별할 확률은 1/k
i-다양성 - 특정인 추론이 안 된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법 - 각 레코는 최소 i개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론 방지
t-근접성 - i-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법 - 전체 데이터 집합의 정보 부누포와 특정 정보의 분포 차이를 t 이하로 하여 추론 방지

 

 

 

 

참고도서 : 이기적 빅데이터분석기사 필기

TAGS.

Comments