Yarkoni, T., & Westfall, J. (2017). Choosing prediction over explanation in psychology: Lessons from machine learning. Perspectives on Psychological Science, 143(5), 1-23. https://doi.org/10.1177/1745691617693393

예측 오차를 최소화하기 위한 마지막 방법으로 제시된 것이 정규화(regularization)이다. 교차 검증은 모델이 과적합 되었다는 정보는 줄 수 있지만, 직접적으로 과적합을 방지하지는 못한다. 반면 정규화는 모델에 페널티를 줌으로써 과적합을 직접적으로 방지하는 방법이다.

정규화는 모델이 달성해야 하는 목적에 추가하여, 모델이 보다 간단한 솔루션을 만들어내도록 제약 조건을 다는 것을 말한다. 예를 들어, 최소자승법(ordinary least square)은 모형의 예측과 관측값 사이의 차이의 제곱합이 최소가 되는 계수(coefficient)를 찾는 방법인데, 여기에 정규화 항을 추가한다. 널리 사용되는 라소 회귀(lasso regression)의 경우에는 계수들의 절대값들의 합이라는 정규화 항이 목적 함수에 추가된다. 따라서 자승합이 최소가 되도록 할 뿐만 아니라, 동시에 절대값들의 합이 최소가 되는 계수를 찾아야 하는 것이다. 보통 이 두 가지 목적은 상충되는데, 앞서 언급했던 편향-분산 교환(bias-variance tradeoff)에 따라 라소 회귀는 의도적으로 편향된 계수를 만들어내어 분산을 줄인다.

왜 가장 대표적인 통계 방법인 최소자승 회귀에 정규화 항을 더해야 할까? 바로 정규화된 모델의 예측은 새로운 데이터에 더 잘 일반화될 수 있기 때문이다. 특히 예측변수의 개수가 (샘플 사이즈를 고려했을 때) 많은 경우(많은 심리학 및 사회과학 연구들이 해당되는)에는 최소자승법에 의한 모델은 훈련 데이터에 과적합되기 쉬운데, 훈련 데이터에만 있는 패턴이 많은 예측변수에 의해 우연히 탐지될 가능성이 상대적으로 높기 때문이다(편향은 낮고 분산은 큼). 따라서 정규화 항을 추가하여 의도적으로 편향을 높이는 것은, 모형에게 훈련 데이터 안의 작은 패턴은 무시하라고 시키는 것과 같고, 따라서 새로운 샘플들에 일반화할 수 있는 능력이 커지게 된다.

물론 정규화에도 단점이 없지 않다. 데이터가 많이 수집된 경우에는 정규화 항의 매개변수를 잘 조정해야만 일반화 성능을 높이는 결과를 얻을 수 있다. 매개변수 조정을 잘못하면 오히려 예측 오차가 더 커지는 경우도 있다. 따라서 무조건 정규화를 사용하는 것은 옳지 못하며, 기존의 최소자승법 같은 방법이 적절한 경우도 얼마든지 있다. 중요한 것은 필요한 경우에 정규화를 사용할 수 있을 정도로 그것에 대해 잘 이해하고 있어야 하는 것이다.