Loading...

빅데이터분석기사 필기 13일차

Part04 빅데이터 결과 해석 Chapter02 분석 결과 해석 및 활용 Section03 분석 결과 활용 1) 빅데이터 분석 방법론 분석기획(Planning) : 분석하려는 비즈니스를 이해하고 분석 목표와 범위를 설정하는 단계 데이터 준비(Preparing) : 프로젝트에 필요한 데이터의 범위와 요건을 정의하고 기준에 맞도록 데이터를 수집, 가공, 준비하는 단계 데이터 분석(Analyzing) : 준비단계에서 확보된 데이터를 이용하여 다양한 분석작업 수행 시스템 구현(Developing) : 설계 및 구현, 시스템 테스트 및 운영 등의 작업 수행 평가 및 전개(Deploying) : 모델의 성능을 유지하고 주기적으로 개선하는 노력을 하기 위해 모델 발전계획 수립, 프로젝트의 성과를 정량적, 정성적으로..

2021. 3. 24. 22:17

빅데이터분석기사 필기 12일차 -2

Part04 빅데이터 결과 해석 Chapter02 분석 결과 해석 및 활용 Section01 분석 결과 시각화 1) 데이터 시각화 정의 - 데이터의 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정과 기법 - 이미지와 도표 등으로 표현하여 정보를 명확하고 효과적으로 전달하는 것을 목적으로 함 ▶ 데이터 시각화 유사 개념 연관 개념 내용 정보 시각화 추상화된 데이터를 사람이 인지하기 쉽도록 시각화하여 표현하는 것 시각적 분석 상호작용이 가능한 시각적 인터페이스를 사용해 분석적 추론을 진행하는 과정 정보 디자인 정보를 효과적으로 전달하기 위한 수단 인포그래픽 복잡한 수치나 글로 표현되어 있는 정보와 지식을 한눈에 파악할 수 있도록 시각적으로 표현하는 것 ▶ 데이터의 유형 유형 특징 범주형..

2021. 3. 24. 21:50

빅데이터분석기사 필기 12일차 -1

Part04 빅데이터 결과 해석 Chapter02 분석 결과 해석 및 활용 Section01 분석결과 해석 1) 분석모형 해석 회귀 모델 : 잔차, 결정계수 등을 사용, 잔차에는 패턴이나 추세가 있어서는 안 됨 분류 모델 : 클래스 별로 속할 확률의 정확도를 살펴야 함 딥러닝 모델 : 분류문제인 경우 정확도나 오차율(상대오차, 평균 제곱근 편차) 사용 군집분석 모델 : 통계량을 요약하고 관측치의 공통점과 변동성 확인, 연속형 변수의 경우 평균 또는 중앙값 계산, 범주형 변수인 경우 범주별로 각 군집의 분포 사용 연관분석 모델 : 지지도, 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용하며 빈발집합을 고려하여 연관규칙을 생성하는 Apriori 알고리즘 사용 2) 비즈니스 기여도 평가 ① 빅데이터..

2021. 3. 23. 22:02

빅데이터분석기사 필기 11일차 -2

Part04 빅데이터 결과 해석 Chapter01 분석모형 평가 및 개선 Section02 분석모형 개선 1) 과대적합 방지 - 훈련 시에는 높은 성능이나, 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지 (1) 모델의 낮은 복잡도 - 훈련 데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동 탐색 ① 하이퍼파라미터 ② 드롭아웃 : 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법 (2) 가중치 감소 - 학습과정에서 큰 가중치에 대해서는 큰 페널티를 부과하여 가중치의 절댓값을 가능한 작게 만듦 ① L2 규제 : 손실 함수에 가중치에 대한 L2 노름의 제곱을 더한 페널티를 부여하여 가중치 값을 비용 함수 모델에 비해 작게 만들어 ..

2021. 3. 23. 21:44

빅데이터분석기사 필기 11일차 -1

Part04 빅데이터 결과 해석 Chapter01 분석모형 평가 및 개선 Section01 분석모형 평가 ▷ 오차행렬 실제정답 True False 분류결과 True True Positive False Positive False False Negative True Negative True Positive(TP) : 실제 True인 정답을 True라고 예측(정답) False Positive(FP) : 실제 False인 정답을 True라고 예측(오답) False Negative(FN) : 실제 True인 정답을 False라고 예측(오답) True Negative(TN) : 실제 False인 정답을 False라고 예측(정답) ① 정확도(Accuracy) : 실제 데이터와 예측 데이터를 비교하여 같은 지 판단 ②..

2021. 3. 22. 21:50

빅데이터분석기사 필기 10일차 -2

Part03 빅데이터 모델링 Chapter02 분석기법 적용 Section02 고급 분석기법 1) 비정형 데이터 분석 (1) 비정형 데이터 - 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있음. 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터가 대표적 형태 특징 수집 난이도 정형 데이터 내부 시스템인 경우가 대부분이라 수집이 쉬움 하 반정형 데이터 보통 API 형태로 제공되기 때문에 데이터 처리 기술이 요구됨 중 비정형 데이터 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움 상 ● 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 다양한 기법을 사용 (2) 데이터 마이닝 - 대규모로 저장된 데이터 ..

2021. 3. 22. 21:31

빅데이터분석기사 필기 10일차 -1

Part03 빅데이터 모델링 Chapter02 분석기법 적용 Section02 고급 분석기법 1) 범주형 자료분석 - 변수들이 이산형 변수일 때 주로 사용하는 분석 ex) 두 제품 간의 선호도가 성별에 따라 연관이 있는지 여부 2) 자료의 분석 독립변수 종속변수 분석방법 예제 범주형 범주형 빈도분석, 카이제곱 검정, 로그선형모형 지역별 선호정당 연속형 범주형 로지스틱 회귀분석 소득에 따른 결혼의 선호도 범주형 연속형 T검정(2그룹), 분산분석(2그룹 이상) 지역별 가계수입의 차이 연속형 연속형 상관분석, 회귀분석 ① 빈도분석 : 질적자료를 대상으로 빈도와 비율을 계산할 때 쓰임 ② 카이제곱검정 : 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법 ③ T검정 : 독립변수가 범주형이고..

2021. 3. 20. 21:53

빅데이터분석기사 필기 9일차 -2

Part03 빅데이터 모델링 Chapter02 분석기법 적용 Section01 분석기법 1) 인공신경망(ANN) - 인간의 두뇌 신경세포인 뉴런을 기본으로 한 기계학습 기법 범주형 변수 일정 빈도 이상의 값으로 비슷하고 범주가 일정한 구간이어야 함 연속형 변수 입력변수 값들의 범위가 큰 차이가 없어 표준화가 가능한 경우에 더 적합 (1) 인공신경망의 발전 ① 다층 퍼셉트론이 가진 문제 사라지는 경사도 : 신경망 층수를 늘릴 때 데이터가 사라져 학습이 잘 되지 않는 현상 오버피팅 : 데이터가 많지 않은 경우 특정 학습 데이터에만 학습이 잘되어 신규 데이터에 대한 추론처리 성능이 낮아지는 문제 ② 인공신경망의 원리 지도학습 - 학습데이터로 입력벡터와 함께 기대되는 출력벡터, 즉 답을 제시 비지도학습 - 학습..