빅데이터분석기사 필기 8일차 -2

Part03 빅데이터 모델링

Chapter01 분석 모형 설계

Section02 분석 환경 구축

 

1) R

- 통계분석과 자료의 시각화를 위해 개발한 오픈 분석용 프로그래밍 언어

 

① 객체지향 언어 : 일반 데이터, 함수, 차트 등 모든 데이터가 객체 형태로 관리되어 효율적인 조작과 저장방법을 제공

② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속으로 처리되고 재사용 가능

③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터 프레임, 리스트 등 다양한 자료구조와 연산 기능을 제공

④ 최신패키지 제공 : 오픈소스 커뮤니티 CRAN 사이트를 통해 데이터 분석에 필요한 최신의 알고리즘과 방법론 제공

⑤ 시각화 : 데이터 분석과 표현을 위한 다양한 그래픽 도구 제공

 

▶ R의 장, 단점

장점 - 지속적으로 업데이트되는 다양한 패키지
- 그래프 및 도표, 시각화 기능에 특화
단점 - 대용량 메모리 처리가 어려우며 보안 기능이 취약
- 별도의 모듈 연동이 아니면 웹 브라우저에서 사용할 수 없음

 

 

2) 파이썬(Python)

- 오픈 분석용 프로그래밍 언어로, 플랫폼 독립적이며 인터프리터식, 객체지향적 대화형 언어

 

① 배우기 쉬운 대화 기능의 인터프리터 언어 : 간결하고 쉬운 문법으로 컴파일, 실행, 테스트가 용이

② 동적인 데이터타입데이터 타입 결정 지원 : 동적으로 데이터 타입을 결정하므로 데이터 타입에 무관하게 코드 작성이 가능

③ 플랫폼 독립적 언어 : 운영체제에 독립적으로 컴파일 없이 동작 실행

④ 내장 객체 자료형과 자동 메모리 관리 : 리스트, 사전, 튜플 등 유연한 내장 객체 자료형을 지원하며 메모리 자동할당                                                        뒤 종료 시 자동 해지되는 메모리 청소 기능 제공

 

▶ 파이썬의 장, 단점

장점 - 영어 문장 형식으로 구현된 빠른 개발 속도
- 재사용 가능한 모듈 제공
- C언어를 포함한 다른 언어 프로그램들과 연동성이 높음
단점 - 컴파일 없이 인터프리터가 한 줄씩 실행하는 방식으로 실행속도가 느림

 

 

3) 데이터 분할

 

① 학습(training) 데이터 : 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터

② 평가(validation) 데이터 : 추정한 분석모델이 과대 / 과소적합인지 모형의 성능을 평가하기 위한 데이터

③ 검증용 테스트(test) 데이터 : 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터

 

        ★ 7 : 3 또는 8 : 2 비율로 진행되며 전체적인 훈련, 평가, 검증용 테스트 데이터 비율은 4 : 3: 3, 5 : 3: 2로 정의

 

(1) 과대적합과 과소적합

 

① 과대적합(과적합)

  • 일반적으로 학습 데이터는 실제 데이터의 부분 집합이므로 학습 데이터에 최적화된 분석 모델이 만들어지게 되면 실제 데이터에서 오차가 발생할 확률이 큼
  • 학습(훈련) 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 새로운 데이터에 대해서는 예측을 잘하지 못하는 것

② 과소적합

  • 모형이 단순하여 데이터 내부의 패턴 또는 규칙을 잘 학습하지 못하는 것

③ 일반화

  • 학습 데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도 검증용 테스트 데이터를 통해 정확하게 예측하는 모델

 

 

참고 : 이기적 빅데이터분석기사 필기 교재

TAGS.

Comments