빅데이터분석기사 필기 9일차 -2
Part03 빅데이터 모델링
Chapter02 분석기법 적용
Section01 분석기법
1) 인공신경망(ANN)
- 인간의 두뇌 신경세포인 뉴런을 기본으로 한 기계학습 기법
범주형 변수 | 일정 빈도 이상의 값으로 비슷하고 범주가 일정한 구간이어야 함 |
연속형 변수 | 입력변수 값들의 범위가 큰 차이가 없어 표준화가 가능한 경우에 더 적합 |
(1) 인공신경망의 발전
① 다층 퍼셉트론이 가진 문제
- 사라지는 경사도 : 신경망 층수를 늘릴 때 데이터가 사라져 학습이 잘 되지 않는 현상
- 오버피팅 : 데이터가 많지 않은 경우 특정 학습 데이터에만 학습이 잘되어 신규 데이터에 대한 추론처리 성능이 낮아지는 문제
② 인공신경망의 원리
지도학습 | - 학습데이터로 입력벡터와 함께 기대되는 출력벡터, 즉 답을 제시 |
비지도학습 | - 학습 벡터에 목표가 없을 때, 학습 데이터의 관계를 추론하여 학습을 진행하는 방식 |
강화학습 | - 특정 환경 안에서 에이전트가 현재 상태를 인식하여 보상을 최대화는 방향으로 동작을 선택하는 방법 |
③ 학습
- 손실 함수 : 신경망이 출력한 값과 실제 값과의 오차에 대한 함수
- 평균제곱 오차(MSE) : 각 거리 차이를 제곱하여 합산한 후에 평균을 구함
- 교차 엔트로피 오차 : 분류 부문으로 t값이 원-핫 인코딩 벡터이며, 출력 값에 자연로그를 적용한 후 곱함
- 학습 알고리즘 : 미니배치 > 기울기 산출 > 매개변수 갱신
- 오차역전파 : 오차를 출력층에서 입력층으로 전달
- 활성 함수 : 입력 신호의 총합을 그대로 사용하지 않고 출력 신호로 변환하는 함수 ex) 시그모이드, 렐루
- 과적합 : 학습데이터는 실제 데이터 집합의 부분이므로 학습 시에는 오차가 감소하나 실제 적용 시에는 오차가 증가하는 경우
○ 시그모이드 함수 : 참에 가까워지면 0.5 ~ 1 사이의 값을 출력, 거짓이면 0 ~ 0.5 사이의 값으로 출력
○ Relu 함수 : 0보다 크면 입력값을 그대로 출력, 0 이하의 값만 0으로 출력
2) 딥러닝 모델 종류
① CNN(합성곱 신경망 모델)
- 인접하는 계층의 모든 뉴런과 결합된 완전 연결을 구현한 Affine 계층으로 사용하여 모든 입력 데이터들을 동등한 뉴런으로 처리하는 방식
② RNN
- 순서를 가진 데이터를 입력하여 단위 간 연결이 시퀀스를 따라 방향성 그래프를 형성하는 신경 네트워크 모델
③ LSTM
- RNN의 단점을 보완하기 위해 변형된 알고리즘으로 더 오랜 시간동안 데이터를 잘 기억함
④ 오토인코더(Autoencoder)
- 대표적 비지도 학습 모델로 다차원 데이터를 저차원으로 바꾸고 바꾼 저차원 데이터를 다시 고차원 데이터로 바꾸면서 특징점을 찾아내는 것
⑤ GAN
- 생성자 네트워크와 패턴의 진위 여부를 판별하는 판별자 네트워크로 구성되는데 두 네트워크가 서로의 목적을 달성하도록 학습을 반복함
3) 서포트벡터머신(SVM)
- 지도학습 기법으로 고차원 또는 무한 차원의 공간에서 초평면을 찾아 이를 이용하여 분류와 회귀를 수행
★ SVM은 여백 최대화로 일반화 능력의 극대화 추구
4) 연관성분석
- 둘 이상의 거래, 사건에 포함된 항목들의 관련성을 파악하는 탐색적 데이터 분석 기법
① 연관 규칙 순서
▷ 데이터 간 규칙 생성
▷ 어떤 규칙이 데이터 특성에 부합되는지 기준 설정
- 지지도(support) : 데이터 전체에서 해당 물건을 고객이 구입한 확률
- 신뢰도(confidence) : 어떤 데이터를 구매했을 때 다른 제품이 구매될 조건부 확률
- 향상도(lift) : 두 물건의 구입 여부가 독립인지 판단하는 개념
▷ 규칙의 효용성 평가
▷ 실제 규칙 생성
(1) Apriori 알고리즘
- 모든 항목집합에 대한 지지도를 계산하는 대신 최소 지지도 이상의 빈발항목집합만을 찾아내서 연관규칙을 계산하는 기법
5) 군집분석
- 비지도학습의 일종으로 주어진 각 개체들의 유사성을 분석해서 높은 대상끼리 일반화된 그룹으로 분류하는 기법
(1) 군집분석의 척도
① 유클리드 거리
② 맨하탄 거리
③ 민코우스키 거리
④ 마할라노비스 거리
⑤ 자카드 거리
(2) 군집분석의 종류
① 계층적 군집분석
- 계층적 병합 군집화
- 최단 연결법
- 최장 연결법
- 평균 연결법
- Ward 연결법
② 비계층적 군집분석
- K-Means 군집 분석
- 밀도 기반 클러스터링
- 확률 분포 기반 클러스터링
참고 : 이기적 빅데이터분석기사 필기 교재
'빅데이터' 카테고리의 다른 글
빅데이터분석기사 필기 10일차 -2 (0) | 2021.03.22 |
---|---|
빅데이터분석기사 필기 10일차 -1 (0) | 2021.03.22 |
빅데이터분석기사 필기 9일차 -1 (0) | 2021.03.20 |
빅데이터분석기사 필기 8일차 -2 (0) | 2021.03.19 |
빅데이터분석기사 필기 8일차 -1 (0) | 2021.03.19 |