빅데이터분석기사 필기 8일차 -2
Part03 빅데이터 모델링
Chapter01 분석 모형 설계
Section02 분석 환경 구축
1) R
- 통계분석과 자료의 시각화를 위해 개발한 오픈 분석용 프로그래밍 언어
① 객체지향 언어 : 일반 데이터, 함수, 차트 등 모든 데이터가 객체 형태로 관리되어 효율적인 조작과 저장방법을 제공
② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속으로 처리되고 재사용 가능
③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터 프레임, 리스트 등 다양한 자료구조와 연산 기능을 제공
④ 최신패키지 제공 : 오픈소스 커뮤니티 CRAN 사이트를 통해 데이터 분석에 필요한 최신의 알고리즘과 방법론 제공
⑤ 시각화 : 데이터 분석과 표현을 위한 다양한 그래픽 도구 제공
▶ R의 장, 단점
장점 | - 지속적으로 업데이트되는 다양한 패키지 - 그래프 및 도표, 시각화 기능에 특화 |
단점 | - 대용량 메모리 처리가 어려우며 보안 기능이 취약 - 별도의 모듈 연동이 아니면 웹 브라우저에서 사용할 수 없음 |
2) 파이썬(Python)
- 오픈 분석용 프로그래밍 언어로, 플랫폼 독립적이며 인터프리터식, 객체지향적 대화형 언어
① 배우기 쉬운 대화 기능의 인터프리터 언어 : 간결하고 쉬운 문법으로 컴파일, 실행, 테스트가 용이
② 동적인 데이터타입데이터 타입 결정 지원 : 동적으로 데이터 타입을 결정하므로 데이터 타입에 무관하게 코드 작성이 가능
③ 플랫폼 독립적 언어 : 운영체제에 독립적으로 컴파일 없이 동작 실행
④ 내장 객체 자료형과 자동 메모리 관리 : 리스트, 사전, 튜플 등 유연한 내장 객체 자료형을 지원하며 메모리 자동할당 뒤 종료 시 자동 해지되는 메모리 청소 기능 제공
▶ 파이썬의 장, 단점
장점 | - 영어 문장 형식으로 구현된 빠른 개발 속도 - 재사용 가능한 모듈 제공 - C언어를 포함한 다른 언어 프로그램들과 연동성이 높음 |
단점 | - 컴파일 없이 인터프리터가 한 줄씩 실행하는 방식으로 실행속도가 느림 |
3) 데이터 분할
① 학습(training) 데이터 : 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터
② 평가(validation) 데이터 : 추정한 분석모델이 과대 / 과소적합인지 모형의 성능을 평가하기 위한 데이터
③ 검증용 테스트(test) 데이터 : 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터
★ 7 : 3 또는 8 : 2 비율로 진행되며 전체적인 훈련, 평가, 검증용 테스트 데이터 비율은 4 : 3: 3, 5 : 3: 2로 정의
(1) 과대적합과 과소적합
① 과대적합(과적합)
- 일반적으로 학습 데이터는 실제 데이터의 부분 집합이므로 학습 데이터에 최적화된 분석 모델이 만들어지게 되면 실제 데이터에서 오차가 발생할 확률이 큼
- 학습(훈련) 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 새로운 데이터에 대해서는 예측을 잘하지 못하는 것
② 과소적합
- 모형이 단순하여 데이터 내부의 패턴 또는 규칙을 잘 학습하지 못하는 것
③ 일반화
- 학습 데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도 검증용 테스트 데이터를 통해 정확하게 예측하는 모델
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 9일차 -2 (0) | 2021.03.20 |
---|---|
빅데이터분석기사 필기 9일차 -1 (0) | 2021.03.20 |
빅데이터분석기사 필기 8일차 -1 (0) | 2021.03.19 |
빅데이터분석기사 필기 7일차 -2 (0) | 2021.03.18 |
빅데이터분석기사 필기 7일차 -1 (0) | 2021.03.18 |