빅데이터분석기사 필기 - 데이터 수집 방식 및 기술
더보기
iii 데이터 수집 및 저장 계획
● 정형 데이터 수집 방식 및 기술
수집 방식 및 기술 | 설명 |
ETL | - Extract Transform Load의 약자 - 수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술 |
FTP | - File Transfer Protocol의 약자 - 원격지 시스템 간에 파일을 공유하기 위한 서버 클라이언트 모델로 TCP / IP 기반으로 파일을 송 수신하는 응용계층 통신 프로토콜 ㅇ Active FTP ㅇ Passive FTP |
API | - Application Programming Interface의 약자 - 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구 |
DBToDB | - 데이터베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술 |
Rsync | - 서버 클라이언트 방식으로 수집 대상 시스템과 1:1로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술 |
스쿱(Sqoop) | - 커넥터를 사용하여 관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술 |
● Sqoop 특징
- 벌크 임포트 지원
- 데이터 전송 병렬화
- 직접 입력 제공
- 프로그래밍 방식의 데이터 인터랙션
● 비정형 데이터 수집 방식 및 기술
수집 방식 및 기술 | 설명 |
크롤링(Crawling) | - 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술 |
RSS(Rich Site Summary) | - 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에서 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술 |
Open API | - 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술 |
스크래파이(Scrapy) | - 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크 |
아파치 카프카(Apache Kafka) | - 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행, 구독하는 방식의 분산 스트리밍 플랫폼 기술 |
● 반정형 데이터 수집 방식 및 기술
수집 방식 및 기술 | 설명 |
센싱(Sensing) | - 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 수집 및 활용 |
스트리밍(Streaming) | - 네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술 |
플럼(Flume) | - 스트리밍 데이터 흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술 |
스크라이브(Scribe) | - 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 |
척와(Chukwa) | - 대규모 분산 시스템 모니터링을 위해 에이전트와 컬렉터 구성을 통해 데이터를 수집하고, 수집된 데이터를 하둡 파일 시스템에 저장하는 기능을 제공하는 데이터 수집 기술 |
● 스크라이브 특징
- 실시간 스트리밍 수집
- 확장 : 아파치 Thrift 기반 스크라이브 API를 활용하여 확장 가능
- 데이터 수집 다양성
- 고가용성
● 데이터 속성
구분 | 설명 | 종류 |
범주형(Categorical) | - 조사 대상을 특성에 따라 범주로 구분하여 측정된 변수 - 질적 변수라고도 불림 - 연산의 개념을 적용시킬 수 없음 |
ㅇ 명목형 ㅇ 순서형 |
수치형(Measure) | - 몇 개인가를 세어 측정하거나 측정길이, 무게와 같이 양적인 수치로 측정되는 변수 - 양적 변수라고도 불림 - 덧셈, 뺄셈 등의 연산이 가능 |
ㅇ 이산형 ㅇ 연속형 |
● 데이터 속성 상세
구분 | 종류 | 설명 |
범주형 | 명목형(Nominal) | - 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우 ex) 스마트폰 브랜드(삼성 = 1, LG = 2, 애플 = 3), 현역 구분(현역 = 1, 예비역 = 2) |
순서형(Ordinal) | - 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우 ex) 병원수준(의원 = 1, 종합병원 = 2, 대학병원 = 3), 화장실 상태(양호 = 3, 보통 = 2, 나쁨 = 1) |
|
수치형 | 이산형(Discrete) | - 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우 ex) 문 개수, 시험문제 중 틀린 개수, 자동차 사기전까지 대리점 방문 횟수 |
연속형(Continuous) | - 변수가 구간 안의 모든 값을 가질 수 있는 경우 ex) 노인들의 키, 양의 정수 구간 안의 모든 값 |
● 데이터 측정 척도
구분 | 설명 |
명목 척도(Nominal Scale) | - 관측 대산을 임의의 범주로 분류한 후 기호나 숫자를 부여하는 방법 - 분류의 수치화이고, 처도 값이 분류의 의미만을 가짐 ex) 예비역 구분(현역, 예비역), 혈액형(A, B, O, AB), 지역 번호 등 |
서열 척도 / 순위 척도(Ordinal Scale) | - 비계량적인 변수를 관측하기 위한 관측 방법 - 여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화를 통해 관측하는 방법 ex) 맛집 별점, 음료수의 선호도 조사(1위, 2위, 3위), 이용자 등급 등 >> 순서만 의미가 있고, 수치의 크기나 차이는 의미가 없음 |
등간 척도 / 간격 척도 / 거리 척도(Interval Scale) | - 비계량적인 변수를 정량적인 방법으로 측정하기 위하여 사용 - 각각의 대상을 별도로 평가하는 방법 - 동일 간격화로 크기 간의 차이를 비교할 수 있게 만든 척도 ex) 미세먼지 수치, 당뇨 수치 |
비율 척도(Ratio Scale) | - 균등 간격에 절대 영점이 있고, 비율 계산이 가능한 척도 - 가장 전형적인 양적 변수로 쓰임 - 순서뿐만 아니라 그 간격도 의미가 있음 ex) 나이, 키, 금액, 거리, 넓이, 소득, 부피 등 >> 이 경우 금액의 비율, 무게의 비율이 의미가 있으며, 평균 금액, 평균 거리 등 평균치 등도 의미가 있음 |
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 - 데이터 전처리(2) (0) | 2021.04.03 |
---|---|
빅데이터분석기사 필기 - 데이터 전처리(1) (0) | 2021.04.02 |
빅데이터분석기사 필기 - 분석 로드맵, 분석 방법론 (0) | 2021.03.30 |
빅데이터분석기사 필기 - 개인정보보호법, 제도 (0) | 2021.03.29 |
빅데이터분석기사 필기 - 빅데이터 플랫폼 (0) | 2021.03.26 |
TAGS.