빅데이터분석기사 필기 - 데이터 수집 방식 및 기술

더보기

iii 데이터 수집 및 저장 계획

 

 정형 데이터 수집 방식 및 기술

수집 방식 및 기술 설명
ETL - Extract Transform Load의 약자
- 수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
FTP - File Transfer Protocol의 약자
- 원격지 시스템 간에 파일을 공유하기 위한 서버 클라이언트 모델로 TCP / IP 기반으로 파일을 송 수신하는 응용계층 통신 프로토콜
  ㅇ Active FTP
  ㅇ Passive FTP
API - Application Programming Interface의 약자
- 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구
DBToDB - 데이터베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술
Rsync - 서버 클라이언트 방식으로 수집 대상 시스템과 1:1로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술
스쿱(Sqoop) - 커넥터를 사용하여 관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술

 

● Sqoop 특징

  • 벌크 임포트 지원
  • 데이터 전송 병렬화
  • 직접 입력 제공
  • 프로그래밍 방식의 데이터 인터랙션

 

비정형 데이터 수집 방식 및 기술

수집 방식 및 기술 설명
크롤링(Crawling) - 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술
RSS(Rich Site Summary) - 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에서 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술
Open API - 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술
스크래파이(Scrapy) - 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크
아파치 카프카(Apache Kafka) - 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행, 구독하는 방식의 분산 스트리밍 플랫폼 기술

● 반정형 데이터 수집 방식 및 기술

수집 방식 및 기술 설명
센싱(Sensing) - 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 수집 및 활용
스트리밍(Streaming) - 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술
플럼(Flume) - 스트리밍 데이터 흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술
스크라이브(Scribe) - 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
척와(Chukwa) - 대규모 분산 시스템 모니터링을 위해 에이전트와 컬렉터 구성을 통해 데이터를 수집하고, 수집된 데이터를 하둡 파일 시스템에 저장하는 기능을 제공하는 데이터 수집 기술

 

스크라이브 특징

  • 실시간 스트리밍 수집
  • 확장 : 아파치 Thrift 기반 스크라이브 API를 활용하여 확장 가능
  • 데이터 수집 다양성
  • 고가용성

● 데이터 속성

구분 설명 종류
범주형(Categorical) - 조사 대상을 특성에 따라 범주로 구분하여 측정된 변수
- 질적 변수라고도 불림
- 연산의 개념을 적용시킬 수 없음
ㅇ 명목형
ㅇ 순서형
수치형(Measure) - 몇 개인가를 세어 측정하거나 측정길이, 무게와 같이 양적인 수치로 측정되는 변수
- 양적 변수라고도 불림
- 덧셈, 뺄셈 등의 연산이 가능
ㅇ 이산형
ㅇ 연속형

 

● 데이터 속성 상세

구분 종류 설명
범주형 명목형(Nominal) - 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우
 ex) 스마트폰 브랜드(삼성 = 1, LG = 2, 애플 = 3), 현역 구분(현역 = 1, 예비역 = 2)
순서형(Ordinal) - 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우
 ex) 병원수준(의원 = 1, 종합병원 = 2, 대학병원 = 3), 화장실 상태(양호 = 3, 보통 = 2, 나쁨 = 1)
수치형 이산형(Discrete) - 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
 ex) 문 개수, 시험문제 중 틀린 개수, 자동차 사기전까지 대리점 방문 횟수
연속형(Continuous) - 변수가 구간 안의 모든 값을 가질 수 있는 경우
 ex) 노인들의 키, 양의 정수 구간 안의 모든 값

데이터 측정 척도

구분 설명
명목 척도(Nominal Scale) - 관측 대산을 임의의 범주로 분류한 후 기호나 숫자를 부여하는 방법
- 분류의 수치화이고, 처도 값이 분류의 의미만을 가짐
 ex) 예비역 구분(현역, 예비역), 혈액형(A, B, O, AB), 지역 번호 등
서열 척도 / 순위 척도(Ordinal Scale) - 비계량적인 변수를 관측하기 위한 관측 방법
- 여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화를 통해 관측하는 방법
 ex) 맛집 별점, 음료수의 선호도 조사(1위, 2위, 3위), 이용자 등급 등 >> 순서만 의미가 있고, 수치의 크기나 차이는 의미가 없음
등간 척도 / 간격 척도 / 거리 척도(Interval Scale) - 비계량적인 변수를 정량적인 방법으로 측정하기 위하여 사용
- 각각의 대상을 별도로 평가하는 방법
- 동일 간격화로 크기 간의 차이를 비교할 수 있게 만든 척도
 ex) 미세먼지 수치, 당뇨 수치
비율 척도(Ratio Scale) - 균등 간격에 절대 영점이 있고, 비율 계산이 가능한 척도
- 가장 전형적인 양적 변수로 쓰임
- 순서뿐만 아니라 그 간격도 의미가 있음
 ex) 나이, 키, 금액, 거리, 넓이, 소득, 부피 등 >> 이 경우 금액의 비율, 무게의 비율이 의미가 있으며, 평균 금액, 평균 거리 등 평균치 등도 의미가 있음

 

 

TAGS.

Comments