Loading...
2021. 3. 24. 22:17

빅데이터분석기사 필기 12일차 -2

Part04 빅데이터 결과 해석 Chapter02 분석 결과 해석 및 활용 Section01 분석 결과 시각화 1) 데이터 시각화 정의 - 데이터의 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정과 기법 - 이미지와 도표 등으로 표현하여 정보를 명확하고 효과적으로 전달하는 것을 목적으로 함 ▶ 데이터 시각화 유사 개념 연관 개념 내용 정보 시각화 추상화된 데이터를 사람이 인지하기 쉽도록 시각화하여 표현하는 것 시각적 분석 상호작용이 가능한 시각적 인터페이스를 사용해 분석적 추론을 진행하는 과정 정보 디자인 정보를 효과적으로 전달하기 위한 수단 인포그래픽 복잡한 수치나 글로 표현되어 있는 정보와 지식을 한눈에 파악할 수 있도록 시각적으로 표현하는 것 ▶ 데이터의 유형 유형 특징 범주형..

2021. 3. 24. 21:50

빅데이터분석기사 필기 12일차 -1

Part04 빅데이터 결과 해석 Chapter02 분석 결과 해석 및 활용 Section01 분석결과 해석 1) 분석모형 해석 회귀 모델 : 잔차, 결정계수 등을 사용, 잔차에는 패턴이나 추세가 있어서는 안 됨 분류 모델 : 클래스 별로 속할 확률의 정확도를 살펴야 함 딥러닝 모델 : 분류문제인 경우 정확도나 오차율(상대오차, 평균 제곱근 편차) 사용 군집분석 모델 : 통계량을 요약하고 관측치의 공통점과 변동성 확인, 연속형 변수의 경우 평균 또는 중앙값 계산, 범주형 변수인 경우 범주별로 각 군집의 분포 사용 연관분석 모델 : 지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용하며 빈발집합을 고려하여 연관규칙을 생성하는 Apriori 알고리즘 사용 2) 비즈니스 기여도 평가 ① 빅데이터..

2021. 3. 23. 22:02

빅데이터분석기사 필기 11일차 -2

Part04 빅데이터 결과 해석 Chapter01 분석모형 평가 및 개선 Section02 분석모형 개선 1) 과대적합 방지 - 훈련 시에는 높은 성능이나, 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지 (1) 모델의 낮은 복잡도 - 훈련 데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동 탐색 ① 하이퍼파라미터 ② 드롭아웃 : 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법 (2) 가중치 감소 - 학습과정에서 큰 가중치에 대해서는 큰 페널티를 부과하여 가중치의 절댓값을 가능한 작게 만듦 ① L2 규제 : 손실 함수에 가중치에 대한 L2 노름의 제곱을 더한 페널티를 부여하여 가중치 값을 비용 함수 모델에 비해 작게 만들어 ..

2021. 3. 23. 21:44

빅데이터분석기사 필기 11일차 -1

Part04 빅데이터 결과 해석 Chapter01 분석모형 평가 및 개선 Section01 분석모형 평가 ▷ 오차행렬 실제정답 True False 분류결과 True True Positive False Positive False False Negative True Negative True Positive(TP) : 실제 True인 정답을 True라고 예측(정답) False Positive(FP) : 실제 False인 정답을 True라고 예측(오답) False Negative(FN) : 실제 True인 정답을 False라고 예측(오답) True Negative(TN) : 실제 False인 정답을 False라고 예측(정답) ① 정확도(Accuracy) : 실제 데이터와 예측 데이터를 비교하여 같은 지 판단 ②..

2021. 3. 22. 21:50

빅데이터분석기사 필기 10일차 -2

Part03 빅데이터 모델링 Chapter02 분석기법 적용 Section02 고급 분석기법 1) 비정형 데이터 분석 (1) 비정형 데이터 - 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적 형태 특징 수집 난이도 정형 데이터 내부 시스템인 경우가 대부분이라 수집이 쉬움 하 반정형 데이터 보통 API 형태로 제공되기 때문에 데이터 처리 기술이 요구됨 중 비정형 데이터 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움 상 ● 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 다양한 기법을 사용 (2) 데이터 마이닝 - 대규모로 저장된 데이터 ..

2021. 3. 20. 21:53

빅데이터분석기사 필기 9일차 -2

Part03 빅데이터 모델링 Chapter02 분석기법 적용 Section01 분석기법 1) 인공신경망(ANN) - 인간의 두뇌 신경세포인 뉴런을 기본으로 한 기계학습 기법 범주형 변수 일정 빈도 이상의 값으로 비슷하고 범주가 일정한 구간이어야 함 연속형 변수 입력변수 값들의 범위가 큰 차이가 없어 표준화가 가능한 경우에 더 적합 (1) 인공신경망의 발전 ① 다층 퍼셉트론이 가진 문제 사라지는 경사도 : 신경망 층수를 늘릴 때 데이터가 사라져 학습이 잘 되지 않는 현상 오버피팅 : 데이터가 많지 않은 경우 특정 학습 데이터에만 학습이 잘되어 신규 데이터에 대한 추론처리 성능이 낮아지는 문제 ② 인공신경망의 원리 지도학습 - 학습데이터로 입력벡터와 함께 기대되는 출력벡터, 즉 답을 제시 비지도학습 - 학습..

2021. 3. 20. 21:13

빅데이터분석기사 필기 9일차 -1

Part03 빅데이터 모델링 Chapter02 분석기법 적용 Section01 분석기법 1) 학습 유형에 따른 데이터 분석 모델 ① 지도학습 : 주어진 데이터에 대해 정답을 부여하고 동일한 정답이 나오도록 분류 또는 새로운 데이터의 정답을 예측하도록 학습 지도학습 - 분류 의사결정트리(분류), 랜덤 포레스트, 인공신경망(지도학습), 서포트 벡터 머신(SVM), 로지스틱 회귀분석 지도학습 - 회귀(예측) 선형회귀분석, 다중회귀분석, 의사결정트리(회귀) ② 비지도학습 : 정답 없이 컴퓨터 스스로 입력 데이터 패턴을 구분하도록 학습 ③ 준지도학습 : 효율적 학습을 위해 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용함으로써 주어진 데이터 특징을 표현하는 잠재변수를 찾게 하는 것 ④ 강화학습 ..

2021. 3. 19. 21:34

빅데이터분석기사 필기 8일차 -2

Part03 빅데이터 모델링 Chapter01 분석 모형 설계 Section02 분석 환경 구축 1) R - 통계분석과 자료의 시각화를 위해 개발한 오픈 분석용 프로그래밍 언어 ① 객체지향 언어 : 일반 데이터, 함수, 차트 등 모든 데이터가 객체 형태로 관리되어 효율적인 조작과 저장방법을 제공 ② 고속메모리 처리 : 모든 객체는 메모리로 로딩되어 고속으로 처리되고 재사용 가능 ③ 다양한 자료 구조 : 벡터, 배열, 행렬, 데이터 프레임, 리스트 등 다양한 자료구조와 연산 기능을 제공 ④ 최신패키지 제공 : 오픈소스 커뮤니티 CRAN 사이트를 통해 데이터 분석에 필요한 최신의 알고리즘과 방법론 제공 ⑤ 시각화 : 데이터 분석과 표현을 위한 다양한 그래픽 도구 제공 ▶ R의 장, 단점 장점 - 지속적으로 ..