빅데이터분석기사 필기 - 데이터 전처리(1)
● 데이터 오류 원인 원인 설명 오류 처리 방법 예 결측값(Missing Value) - 필수적인 데이터가 입력되지 않고 누락된 값 - 중심 경향값 넣기 - 분포기반 처리 노이즈(Noise) - 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 - 평균값, 중간값 대체 이상값(Outlier) - 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값 - 하한값 대체, 상한값 대체 ● 데이터 일관성 유지를 위한 정제 기법 기법 설명 사례 변환(Transform) - 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업 - 코드 변환, 형식 변환 파싱(Parsing) - 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업 - 주민 등록 번호를 생년월일, 성별로 분할 보강(Enh..