데이터 전처리 과정은 크게 (1) 데이터 정제(관련 포스팅 보기), (2) 분석 변수 처리(데이터 통합, 축소, 변환)로 구성됩니다. 이 중 분석 변수 처리를 위해서는 (1) 변수 선택, (2) 차원 축소, (3) 파생 변수 생성, (4) 변수 변환, (5) 불균형 데이터 처리가 고려되어야 합니다.
1. 데이터 전처리 – 분석 변수 처리
1) 변수 선택(Feature Selection)
변수는 Variable(통계학) 또는 Feature(머신러닝)로 불리며, 결과 또는 원인이 되는 변수인지에 따라 불리는 명칭이 각기 다릅니다.
- (원인/입력) : 독립변수, 변수, 속성, 예측변수, 설명변수, 관측치
- (결과/출력) : 종속변수, 라벨, 클래스, 목푯값, 결과변수, 반응변수
데이터를 분석하는 과정에서 변수가 많으면 좋겠지만, 필요 이상으로 변수, 데이터가 많아질 경우 훈련 시간도 오래 걸리고, 모델 정확도, 성능이 떨어질 수 있습니다. 변수 선택을 할 경우, 훈련 시간과 과대적합을 줄일 수 있으며, 모델의 정확도와 성능을 끌어 올리는데 도움이 될 수 있습니다.
변수 선택 기법은 크게 (1) 필터 기법, (2) 래퍼 기법, (3) 임베디드 기법으로 구성됩니다.
1-1) 필터 기법(Filter)
주로 래퍼 기법 전에 사용되며, 카이제곱 검정, 피셔 스코어, 상관계수 등 통계적 측정 방법을 사용합니다.
1-2) 래퍼 기법(Wrapper)
변수의 일부로 모델링 작업을 반복하면서, 가장 성능이 좋은 변수 조합을 찾아가는 기법입니다. 래퍼 기법에는 전진 선택법, 후진 제거법, 단계적 선택법이 있으며, 필터 기법보다 예측 정확도가 높습니다.
- 전진 선택법 : 영 모형(절편만 있는 모델)에서 시작하며, 종속변수와 단순상관계수의 절댓값이 가장 큰 변수를 차례로 추가하며, 한번 추가된 변수는 제거하지 않습니다.
- 후진 제거법 : 전체모델(모든 독립변수 포함)에서 시작하며, 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 제거하며, 한번 제거된 변수는 추가하지 않습니다.
- 단계적 선택법 : 전진 선택법과 후진 제거법을 보완한 방법입니다. 전체모델(모든 독립변수 포함)에서 시작하며, 종속변수와 단순상관계수의 절댓값이 가장 작은 변수를 제거하거나, 절댓값이 가장 큰 변수를 차례로 추가합니다.
1-3) 임베디드 기법(Embedded)
필터와 래퍼 기법의 장점을 결합한 것으로 모델의 학습, 생성 과정에서 최적의 변수를 선택합니다. 대표적으로 Ridge, Lasso, ElasticNet, 의사결정나무가 있습니다.
2) 차원 축소
변수의 수(차원)가 많아질수록 모델의 정확도가 떨어질 수 있으며(차원의 저주), 독립변수 간에 상관관계가 높을 경우에도 모델의 정확도와 신뢰성이 저하될 수 있습니다(다중 공선성). 차원 축소(Dimensionality Reduction)는 목적에 따라 변수의 양을 줄이는 통계 기법입니다.
- 차원의 저주(Curse of Dimensionality) : 학습데이터의 수가 차원의 수보다 적어져서 성능이 떨어지는 것으로 불필요한 샘플이 많아진다는 의미입니다. 이를 해결하기 위해서는 차원을 줄이거나 데이터 수를 늘리는 방법이 있습니다.
- 다중공선성(Multicollinearity) – 일부 설명변수가 다른 설명변수와 상관관계가 높을 때 발생하는데, 다중공선성이 높을 경우 회귀계수의 분산이 증가하여 모델이 불안정하고 해석하기가 어려울 수 있습니다. 이를 해결하기 위해서는 상관관계가 높은 설명변수를 제거하거나, 변수 선택 기법, 차원 축소 방법을 사용할 수 있습니다.
차원 축소의 방법에는 아래 방법들이 있으며, 각 기법 간의 차이점을 숙지해두면 좋습니다.
2-1) 주성분 분석(PCA)
분포된 데이터들의 특성을 대표할 수 있는 새로운 특징(주성분)을 찾는 것으로 변수들의 선형결합으로 이뤄져 있습니다. 변수들의 공분산 행렬 또는 상관행렬을 사용하며, 거리를 사용하기 때문에 척도의 영향을 받습니다.
주성분을 결정하는 기준은 (1) 누적 분산 비율이 70~90% 사이, (2) 고윳값(분산 크기)이 1보다 클 때 입니다.
2-2) 요인 분석(Factor Analysis)
변수들 간의 상관관계를 분석하고, 공통차원을 축약하는 기법입니다. 요인 분석에서는 독립변수, 종속변수 개념이 없으며, 주로 기술 통계에 의한 방법을 이용합니다.
2-3) 다차원 척도법(MDS)
다차원 척도법(Multi-Dimensional Scaling)은 객체 간의 근접성을 시각적으로 표현하는 기법입니다. 객체 간의 거리는 유클리드 거리와 유사도를 사용해 구하며, 적합정도(스트레스 값)가 0에 가까울수록 좋다고 해석할 수 있습니다.
이 외에도 차원 축소 방법에는 특이값 분해(SVD), 선형 판별 분석(LDA), 독립 성분 분석(ICA)가 있습니다.