[데이터 전처리1] 데이터 정제(결측값, 이상값 처리)

데이터 전처리는 분석 목적과 방법에 적합한 데이터 형태로 처리하기 위해 불필요한 데이터를 분리, 제거하고 가공하는 과정입니다. 데이터 분석을 위한 필수 과정이며, (1) 데이터 정제(Cleaning), (2) 데이터 통합(Integration), (3) 데이터 축소(Reduction), (4) 데이터 변환(Transformation)으로 구성됩니다.

앞서 소개한 데이터 수집, 데이터 저장 과정을 거친 뒤, 분석에 필요한 데이터를 추출하고 통합하는 ‘데이터 전처리’ 과정을 거치게 됩니다.

1. 데이터 전처리

실제 분석에서도 데이터 수집 및 전처리 과정이 70~80% 차지할 정도로 중요한 과정입니다. 이 중 데이터 정제 과정을 거치치 않으면, 데이터 구성의 일관성이 없어져 분석 처리에 어려움이 있고, 결과의 신뢰도가 낮아지기 때문에 반드시 수행되어야 합니다.

데이터 정제는 크게 (1) 결측값(Missing Value), (2) 이상값(Outlier) 처리가 있습니다.

1) 데이터 정제 – 결측값 처리

결측값은 데이터가 누락된 값이며, 분석에 영향을 주기 때문에 반드시 처리해야 합니다. 실제 분석 시, NA, N/A, NULL 등 다양하게 표기됩니다.

결측 데이터는 크게 (1) 완전 무작위 결측, (2) 무작위 결측, (3) 비 무작위 결측이 있으며, 데이터 결측치가 어떤 유형인지를분석하고, 그 결과에 따라 결측치 처리 방법(단순 대치법, 다중 대치법)을 선택합니다.

완전 무작위 결측(MCAR, Missing Completely At Random) : 결측 데이터가 다른 변수와 연관이 없는 경우
무작위 결측(MAR, Missing At Random) : 결측 데이터가 특정 변수와 관련되어 발생되나, 결과에는 영향이 없는 경우
무 작위 결측(NMAR, Not Missing At Random) : 결측 데이터가 다른 변수와 관련이 있는 경우

(1-1) 결측값 처리방법 – 단순 대치법

완전 분석법 : 불완전 자료는 모두 무시하고 분석 진행, 효율성 상실, 통계적 추론의 타당성 문제가 발생 가능
평균 대치법 : 관측 또는 실험으로 얻어진 데이터의 평균, 중앙값, 최빈값으로 결측값을 대치
단순확률 대치법 : 평균 대치법에서 추정한 표준오차의 과소 추정을 보완하며, (1) Hot-Deck(현재 진행 중인 연구에서 비슷한 성향 응답 자료로 대체, (2) Cold-Deck(외부 출처에서 가져온 값으로 대체) 등의 방법이 있음

(1-2) 결측값 처리방법 – 다중 대치법

다중 대치법은 한 번이 아닌 n번 수행하여 n개의 새로운 가상 자료를 만들어 결측값을 대체하는 방법입니다. 복수로 시행되기 때문에 통계적 효율성 및 일치성 문제를 보완할 수 있으나, 추청량 표준오차의 과소추정, 계산의 난해성 문제도 가지고 있습니다.

[결측치 처리 방법 관련 참고 영상]

2) 데이터 정제 – 이상값 처리

이상값(이상치)은 거리, 밀도 측면에서 정상 범주에서 벗어난 값을 말합니다. 즉, 일반적인 다른 값과 멀리 떨어진 값입니다. 반드시 제거할 필요는 없으나, 결측값과 마찬가지로 이상값도 분석 결과에 영향(왜곡)을 주기 때문에 해당 분야의 전문가와 상의하여 판별하여 제거 여부를 결정해야 합니다.

이러한 이상값이 발생한 원인으로 (1) 의도치 않게 잘못된 입력, 측정, 실험으로 발생된 데이터, (2) 응답자의 고의적인 거짓으로 발생된 데이터, (3) 데이터 표본을 잘못 설정해서 발생한 데이터 등이 있습니다.

이상값을 탐지하기 위한 방법으로 아래와 같이 5가지를 소개하고자 합니다.

(2-1) 시각화

히스토그램(Histogram), 밀도차트(Density Chart), 상자그림(Box Plot), 산포도, 잔차도 등 데이터 시각화(visualization)를 통해 이상값 검출이 가능합니다.

(2-2) ESD

ESD(Extreme Studentized Deviation)를 통해 평균으로부터 3 표준편차 떨어진 값을 이상치로 판별합니다.

(2-3) 사분위수

Q1 – 1.5 * IQR < 정상데이터 < Q3 + 1.5 * IQR (IQR = Q3 – Q1)

(2-4) 기하평균

기하평균 – 2.5 표준편차 < 정상데이터 < 기하평균 + 2.5 표준편차

(2-5) 분석기법 활용

비지도 학습의 군집기법
마할라노비스 거리
LOF(Local Outlier Factor)
iForest(Isolation Forest)

[데이터 저장] 빅데이터 저장시스템 3(HDFS, GFS, NoSQL)