빅데이터분석기사 필기 2일차 -1

Part01 빅데이터 분석 기획

Chapter01 빅데이터의 이해

Section02 빅데이터 기술 및 제도

 

1) 빅데이터 플랫폼의 등장배경

  • 비즈니스 요구사항 변화
  • 데이터 규모와 처리 복잡도 증가
  • 데이터 구조의 변화와 신속성 요구
  • 데이터 분석 유연성 증대

 

2) 빅데이터 플랫폼의 기능

  • 컴퓨팅 부하 발생
  • 저장 부하 발생
  • 네트워크 부하 발생

 

3) 빅데이터 플랫폼의 구조

  • 소프트웨어 계층 - 빅데이터 애플리케이션을 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제
  • 플랫폼 계층 - 빅데이터 어플리케이션을 실행하기 위한 플랫폼 제공, 작업 스케줄링이나 데이터 및 자원 할당과 관리, 프로파일링 등을 수행
  • 인프라스트럭쳐 계층 - 자원 배치와 스토리지 관리, 노드 및 네트워크 관리 등을 통해 빅데이터 처리와 분석에 필요한 자원 제공

 

4) 빅데이터 처리과정

    - 데이터 생성 ▷ 수집 ▷ 저장 ▷ 처리 ▷ 분석 ▷ 시각화

 

 

5) 빅데이터 수집

  1.  크롤링 : 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술
  2. 로그 수집기 : 조직 내부에 있는 웹 서버나 시스템의 로그를 수집하는 소프트웨어
  3. 센서 네트워크 : 유비쿼터스 컴퓨팅 구현을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크
  4. RSS Reader / Open API : 데이터의 생산, 공유, 참여할 수 있는 환경인 웹 2.0을 구현하는 기술
  5. ETL 프로세스 : 데이터의 추출(Extract), 변환(Transform), 적재(Load)의 약어로, 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 데이터 웨어하우스에 적재하는 과정

ETL 프로세스

 

 

6) 빅데이터 저장

  1. NoSQL : 비관계형 데이터베이스로 SQL을 사용하지 않는 DBMS와 데이터 저장장치(Cloudata, Hbase, Cassandra, MongoDB)
  2. 공유 데이터 시스템
  3. 병렬 데이터베이스 관리 시스템
  4. 분산 파일 시스템
  5. 네트워크 저장 시스템

 

7) 빅데이터 처리

  1. 분산 시스템과 병렬 시스템
  2. 분산 병렬 컴퓨팅
  3. 하둡(Hadoop) : 분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임워크
  4. 아파치 스파크(Apache Spark) : 실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며 하둡보다 처리속도가 빠름
  5. 맵리듀스(MapReduce) : 구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병렬 및 분산 처리 지원

              → 맵리듀스 처리과정 : Input > Split > Map > Combine > Partition > Reduce

 

 

8) 빅데이터 분석

    - 탐구 요인 분석

    - 확인 요인 분석

 

 (1) 데이터 분석 방법

▶ 분류, 군집화, 기계학습, 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 리얼리티 마이닝, 소셜 네트워크 분석, 감성 분석

 

 

9) 인공지능의 정의

- 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직

 

 

 (1) 딥러닝의 특징

▶ 깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있음             

 

 

 (2) 기계학습의 종류

  • 지도학습 : 학습 데이터로부터 하나의 함수를 유추해내기 위한 방법
  • 비지도학습 : 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주
  • 준지도학습 : 목표 값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용하는 것
  • 강화학습 : 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법 

 

● 애노테이션

- 데이터상의 주석 작업으로 딥러닝과 같은 학습 알고리즘이 무엇을 학습하여야 하는지 알려주는 표식 작업

 

 

10) 인공지능의 기술동향

  1. 기계학습 프레임워크 보급 확대 -> 탠서플로우, 케라스로 사용 가능
  2. 생성적 적대 네트워크(GAN)
  3. 오토인코더
  4. 설명 가능한 인공지능(XAI)
  5. 기계학습 자동화(AutoML)

 

 

 

참고도서 : 이기적 빅데이터분석기사 필기

TAGS.

Comments