빅데이터분석기사 필기 - 빅데이터 플랫폼

ⅰ빅데이터 분석 기획

빅데이터 플랫폼

▷ 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집 > 저장 > 처리 > 분석 > 시각화)을 규격화한 기술

▷ 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세

● 빅데이터 플랫폼 구성요소

구성요소	주요 기능
데이터 수집	- 원천 데이터의 정형 / 반정형 / 비정형 데이터 수집 - ETL, 크롤러 EAI 등
데이터 저장	- 정형 데이터, 반정형 데이터, 비정형 데이터 저장 - RDBMS, NoSQL 등
데이터 분석	- 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 - SNS 분석, 예측 분석 등
데이터 활용	- 데이터 가시화 및 BI, Open API 연계 - 히스토그램, 인포그래픽 등

● 빅데이터 플랫폼 데이터 형식

형식	특징
HTML	- HyperText Markup Language의 약자 - 웹 페이지를 만들 때 사용되는 문서 형식 - 텍스트, 태그, 스크립트로 구성
XML	- eXtensible Markup Language의 약자 - 데이터 표현을 위해 태그 사용 - 엘리먼트, 속성, 처리 명령, 엔티티, 주석, CDATE 섹션으로 구성
CSV	- Comma Separated Values의 약자 - 몇 가지 필드를 쉼표로 구분한 텍스트 데이터 및 텍스트 파일
JSON	- JavaScript Object Notation의 약자 - <키-값>으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷

● 빅데이터 플랫폼 구축 소프트웨어

소프트웨어	핵심	목적
R	빅데이터 분석	- 통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어 - 다양한 그래프 패키지들을 통하여 강력한 시각화 기능 제공
우지(Oozie)	워크플로우 관리	- 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템 - 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
플럼(Flume)	데이터 수집	- 이벤트(Event)와 에이전트(Agent)를 활용하여 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동
HBase	분산 데이터베이스	- 컬럼 기반 저장소로 HDFS와 인터페이스 제공
스쿱(Sqoop)	정형 데이터 수집	- 'SQL to Hadoop'의 약자 - 커넥터를 사용하여 관계형 데이터베이스 시스템(RDBMS)에서 하둡 파일 시스템(HDFS)으로 데이터를 수집하거나, 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기능 수행

● 분산 컴퓨팅 환경 소프트웨어 구성요소

구분	주요 특징
맵리듀스(Map Reduce)	- Key-Value 형태의 데이터 처리 - 맵(Map) > 셔플(Shuffle) > 리듀스(Reduce) 순서대로 데이터 처리
얀(YARN)	- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼 - 리소스 매니저(Master)와 노드 매니저(Slave)로 구성
아파치 스파크(Apache Spark)	- 하둡 기반 대규모 데이터 분산처리시스템 - 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터 처리 - 스칼라, 자바, 파이썬 R 등에 사용 가능
하둡 분산 파일 시스템(HDFS)	- Hadoop Distributed File System의 약자 - 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템 - 네임 노드(Master)와 데이터 노드(Slave)로 구성
아파치 하둡(Apache Hadoop)	- 분산 파일 시스템(HDFS)과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 에코시스템을 가짐 - 클라우드 플랫폼 위에서 클로스터를 구성해 데이터 분석

● 하둡 에코 시스템 수집, 저장, 처리 기술

구분	기술	설명
비정형 데이터 수집	척와(Chukwa)	- 분산된 각 서버에서 에이전트를 실행하고, 컬렉터(Collector)가 에이전트로부터 데이터를 받아 HDFS에 저장
	플럼(Flume)	- 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술
	스크라이브(Scribe)	- 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 - 최종 데이터는 HDFS 외에 다양한 저장소를 활용 가능
정형 데이터 수집	스쿱(Sqoop)	- 대용량 데이터 전송 솔루션
정형 데이터 수집	히호(Hiho)	- 스쿱(Sqoop)과 같은 대용량 데이터 전송 솔루션이며, 현재 깃허브에서 공개되어 있음 - 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC 인터페이스를 지원, 현재는 Oracle, MySQL의 데이터만 전송 지원
분산 데이터 저장	HDFS	- 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템 - 범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원
분산 데이터 처리	맵리듀스(Map Reduce)	- 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크 - 모든 데이터를 키-값(Key-Value) 쌍으로 구성, 데이터를 분류
분산 데이터베이스	HBase	- 컬럼 기반 저장소로 HDFS와 인터페이스 제공 - 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각각의 프롯스는 개인의 데이터를 비동기적으로 업데이트할 수 있음

● 하둡 에코시스템의 데이터 가공 및 분석, 관리를 위한 주요 기술

구분	기술	설명
데이터 가공	피그(Pig)	- 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공 - SQL과 유사하기만 할 뿐, 기존 SQL 지식을 활용하는 것이 어려움
데이터 가공	하이브(Hive)	- 하둡 기반의 DW 솔루션 - SQL과 매우 유사한 HiveQL이라는 쿼리 제공 - HiveQL은 내부적으로 맵리듀스로 변환되어 실행
데이터 마이닝	머하웃(Mahout)	- 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스
실시간 SQL 질의	임팔라(Impala)	- 하둡 기반의 실시간 SQL 질의 시스템 - 데이터 조회를 위한 인터페이스로 HiveQL을 사용 - 수초 내에 SQL 질의 결과를 확인할 수 있으며, HBase와 연동이 가능
워크플로우 관리	우지(Oozie)	- 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템 - 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버 - 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
분산 코디네이션	주키퍼(Zookeeper)	- 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스 제공 - 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리

저작자표시 동일조건

빅데이터 | 카테고리의 다른 글

빅데이터분석기사 필기 - 분석 로드맵, 분석 방법론 (0)	2021.03.30
빅데이터분석기사 필기 - 개인정보보호법, 제도 (0)	2021.03.29
빅데이터분석기사 필기 13일차 (0)	2021.03.25
빅데이터분석기사 필기 12일차 -2 (0)	2021.03.24
빅데이터분석기사 필기 12일차 -1 (0)	2021.03.24

TAGS.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

세모의 데이터 분석

세모의 데이터 분석

세모의 데이터 분석

빅데이터분석기사 필기 - 빅데이터 플랫폼

빅데이터 | 카테고리의 다른 글

Comments

카테고리

블로그메뉴

공지사항

최신글

최신댓글

글 보관함

링크

방문자수

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

빅데이터분석기사 필기 - 빅데이터 플랫폼

빅데이터 | 카테고리의 다른 글

Comments

카테고리

블로그메뉴

공지사항

최신글

태그 클라우드

최신댓글

글 보관함

링크

방문자수

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역