Loading...

빅데이터분석기사 필기 - 분석 모형 설계

● 통계기반 분석 모형 구분 설명 기술 통계 - 데이터 분석의 목적으로 수집된 데이터를 확률 통계적으로 정리 요약하는 기초적인 통계 상관 분석 - 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법 회귀 분석 - 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 - 단순 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선 - 다중 회귀 : 독립변수가 K개이며, 종속변수와의 관계가 선형(1차 함수) - 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 - 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선 - 로지스틱 회귀 : 종속변수가 범주형인 경우 적용 분산 분석 - 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 ..

빅데이터분석기사 필기 - 데이터 탐색

● 탐색적 데이터 분석의 4가지 주제 주제(특징) 내용 저항성 (Resistance) - 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질을 의미 잔차 해석 (Residual) - 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색 자료 재표현 (Re-expression) - 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것 현시성 (Graphic Representation) - 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미 ● 다차원 데이터 탐색 방법 데이터 조합 설명 범주형 - 범주형 - 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석 수치형 - 수치형 - 산점도와 기..

빅데이터분석기사 필기 - 데이터 전처리(2)

● 데이터 이상값 발생 원인 발생 원인 설명 데이터 입력 오류 - 데이터를 수집하는 과정에서 발생할 수 있는 에러 ex) 100을 입력해야 하는데, 1000을 입력하면 10배의 값으로 입력 측정 오류 - 데이터를 측정하는 과정에서 발생하는 에러 ex) 몸무게를 측정하는데, 9개의 체중계는 정상 작동, 1개는 비정상 작동을 한다고 가정할 때, 한 사용자가 비정상적으로 작동하는 체중계를 이용할 경우 에러 발생 실험 오류 - 실험조건이 동일하지 않은 경우 발생 ex) 100미터 달리기를 하는데, 한 선수가 '출발' 신호를 못 듣고 늦게 출발했다면 그 선수의 기록은 다른 선수들보다 늦을 것이고, 그의 경기 시간은 이상값이 될 수 있음 고의적인 이상값 - 자기 보고식 측정에서 나타나는 에러 - 정확하게 기입한 값..

빅데이터분석기사 필기 - 데이터 전처리(1)

● 데이터 오류 원인 원인 설명 오류 처리 방법 예 결측값(Missing Value) - 필수적인 데이터가 입력되지 않고 누락된 값 - 중심 경향값 넣기 - 분포기반 처리 노이즈(Noise) - 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 - 평균값, 중간값 대체 이상값(Outlier) - 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값 - 하한값 대체, 상한값 대체 ● 데이터 일관성 유지를 위한 정제 기법 기법 설명 사례 변환(Transform) - 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업 - 코드 변환, 형식 변환 파싱(Parsing) - 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업 - 주민 등록 번호를 생년월일, 성별로 분할 보강(Enh..

빅데이터분석기사 필기 - 데이터 수집 방식 및 기술

더보기 iii 데이터 수집 및 저장 계획 ● 정형 데이터 수집 방식 및 기술 수집 방식 및 기술 설명 ETL - Extract Transform Load의 약자 - 수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술 FTP - File Transfer Protocol의 약자 - 원격지 시스템 간에 파일을 공유하기 위한 서버 클라이언트 모델로 TCP / IP 기반으로 파일을 송 수신하는 응용계층 통신 프로토콜 ㅇ Active FTP ㅇ Passive FTP API - Application Programming Interface의 약자 - 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구 DBToDB - 데이터베이스 시스템 간 데이터를 동기화하거나..

빅데이터분석기사 필기 - 분석 로드맵, 분석 방법론

더보기 ii 데이터 분석 계획 분석 로드맵 - 단계별로 추진하고자 하는 목표를 명확히 정의하고, 선 후행 단계를 고려해 단계별 추진내용 정렬 ● 분석 로드맵 단계 단계 추진과제 추진목표 데이터 분석체계 도입 - 분석 기회 발굴 - 분석 과제 정의 - 로드맵 수립 - 비즈니스 약점이 무엇인지 식별 - 분석 과제를 정의하고 로드맵 수립 데이터 분석 유효성 검증 - 분석 알고리즘 설계 - 아키텍처 설계 - 분석 과제 파일럿 수행 - 분석 과제에 대한 파일럿 수행 - 유효성, 타당성을 검증 - 기술 실현 가능성을 검증 - 분석 알고리즘 및 아키텍처 설계 데이터 분석 확산 및 고도화 - 변화관리 - 시스템 구축 - 유관 시스템 고도화 - 검증된 분석 과제를 업무 프로세스에 내재화하기 위한 변화관리 실시 - 빅데이..

빅데이터분석기사 필기 - 개인정보보호법, 제도

더보기 i 빅데이터 분석 기획 개인정보보호 - 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동 ● 빅데이터 개인정보 가이드라인 구분 주요 내용 개인정보 비식별화 - 수집 시부터 개인 식별 정보에 대한 철저한 비식별화 조치 - 공개 정보 및 이용 내역 정보는 비식별화 조치를 취한 후 수집, 저장, 조합, 분석 및 제3자 제공 등 가능 개인정보 재식별 시 조치 - 개인정보 재식별 시, 즉시 파기 및 비식별화 조치 민감정보 처리 - 민감정보 및 통신비밀의 수집, 이용, 분석 등 처리 금지 투명성 확보 - 빅데이터 처리 사실, 목적 등의 공개를 통한 투명성 확보 수집정보의 보호조치 - 수집된 정보의 저장관리 시 기술적, 관리적 보호조치 ● 개인정보보호 관련 법령 관련 법규 주요 내용 개인정보 보..

빅데이터분석기사 필기 - 빅데이터 플랫폼

더보기 ⅰ빅데이터 분석 기획 빅데이터 플랫폼 ▷ 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집 > 저장 > 처리 > 분석 > 시각화)을 규격화한 기술 ▷ 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세 ● 빅데이터 플랫폼 구성요소 구성요소 주요 기능 데이터 수집 - 원천 데이터의 정형 / 반정형 / 비정형 데이터 수집 - ETL, 크롤러 EAI 등 데이터 저장 - 정형 데이터, 반정형 데이터, 비정형 데이터 저장 - RDBMS, NoSQL 등 데이터 분석 - 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 - SNS 분석, 예측 분석 등 데이터 활용 - 데이터 가시화 및 BI, Open API 연계 - 히스토그램, 인포그래픽 등 ● 빅데이터 플랫폼 데이터 형식..