Yarkoni, T., & Westfall, J. (2017). Choosing prediction over explanation in psychology: Lessons from machine learning. Perspectives on Psychological Science, 143(5), 1-23. https://doi.org/10.1177/1745691617693393

Yarkoni & Westfall 의 논의는 오차(error)에 대한 논의로 이어진다. 즉, 오차라고 뭉뚱그려지는 것을 편향(bias)과 분산(variance)으로 나누어 생각해야 한다는 것이다. 사실 이 내용도 연구 방법론 시간에 다뤄지는 내용인데, 보통 타당성(validity)과 신뢰성(reliability)이라는 이름으로 소개된다. 화살이나 사격에 빗대어 많이 설명되는데, 여러 발을 쐈을 때 크게 다르지 않은 지점에 계속해서 명중시켰을 때 신뢰성이 높다고 하고, 과녁의 중앙에 잘 명중시켰을 때 타당성이 높다고 한다. 같은 논리로, 한 모형의 예측값들이 (실제값들로부터 멀리 떨어져) 특정한 값에 치우칠수록 그 모형은 편향되었다(biased)고 하고, 예측값들이 하나의 값에 몰려있지 않고 널리 퍼져 있으면 분산이 높다고 한다.

설명 중심의 모델링 접근에서는 편향을 오차와 거의 같은 의미로 받아들인다는 것이 저자들의 지적이다. 즉 (거의) 모든 대가를 치르더라도 반드시 줄여야만 하는 것으로 이해한다는 것이다. 반면, 머신 러닝 분야에서는 그만큼의 절대적인 의미를 가지지는 않고, 단지 오차의 한 종류 정도로 받아들여진다. 즉, 앞선 설명대로 모형이 특정한 방향으로 틀린 답(예측)을 지속적으로 생산하는 것을 편향이라 부른다. 여기에서 만약 최소자승법(least-square method)을 통해서 오차를 계산하게 되면, 편향과 분산 두 가지 요소가 뭉뚱그려져서 영향을 미치게 된다. 따라서 오차를 그냥 하나의 획일적인 수치로 바라보지 말고, 편향과 분산 두 가지 요소로 나누어 생각해야 한다(bias-variance decomposition)는 것이 저자들의 주장이다.

왜 그래야 할까? 저자들의 말을 그대로 옮겨보면 아래와 같다.

“One important reason is that a researcher typically has some control over the bias of a model and hence can indirectly influence the total error as well.”

즉, 연구자가 모형의 편향을 (어느정도) 결정할 수 있기 때문에, 그것을 통해 간접적으로라도 오차에 영향을 줄 수 있기 때문이라는 것이다. 극단적으로, 어떤 입력이 들어오더라도 똑같은 예측을 내놓는 모델은 분산은 매우 낮은 반면 (모형의 예측이 우연히 정답과 일치하지 않는 한) 편향은 높다. 이를 일반적으로 표현하면 편향-분산 교환(bias-variance tradeoff)이라고 할 수 있다. 왜냐하면 모형의 편향을 증가시켜 파라미터 공간의 특정 영역만을 탐색하게 하면, 파라미터 공간의 다른 영역을 탐색할 수 있는 모형의 능력을 감소시키는 것이기 때문이다. (여기에서 드는 의문은 편향과 분산이 동시에 높은 모형도 가능하지 않을까 하는 것이다. 최대한 저자의 입장에서 생각해보면, 설령 모델이 정답으로부터 멀리 편향되어 있다고 하더라도, 만약 모델의 분산이 크다면 정답에 가까운 예측이 있을 확률도 그만큼 커질 수 있다. 즉 분산이 커지면 편향(되어 있는 정도)이 작아진다고 볼 수 있는 것 같다.) 어쨌든, 편향된 모델을 잘 사용하면 전체 오차를 줄일 수 있다(“judicious use of a biased estimator will often reduce total prediction error”). 최근 심리학에서 유행하는 다차원 모델링(multilevel modeling)도 결국에는 이같은 편향된 모델을 잘 사용한 사례라고 저자들은 주장한다.

앞서 언급했듯이, 설명 중심의 접근에서는 편향을 줄이는 것을 우선시한다. 그러나, 편향-분산 교환에 따라, 편향을 줄이는 것은 모델의 분산이 커지는 것을 의미하고 따라서 예측 능력이 떨어지는 것을 뜻한다. 이는 단지 예측력의 문제가 아니라 이론의 유용성까지 떨어뜨리게 되는데, 이론의 예측이 지지되는지 여부가 수집된 데이터마다 달라지는 결과를 낳기 때문이다. 반면 머신러닝(예측 중심의 접근)에서는 최대한 정확한 예측을 산출하는 것(예측 오차를 최소화하는 것)을 우선시한다. 오차에서 편향과 분산이 차지하는 비중이 어떻든간에 그 합인 오차만 줄이면 된다(따라서 어떤 경우에는 설명 중심의 접근과 유사해지기도 한다).

예측 오차를 최소화하기 위해서는 적어도 세 가지가 필요하다는 것이 저자들의 주장이다. 첫째, 좋은 예측을 산출하는 모델이 될 수 있게 훈련시킬 수 있을 정도로 데이터셋의 크기가 충분히 커야 한다. 둘째, 모델의 성능을 객관적으로 측정하고 모델이 언제 어떻게 개선될 수 있는지 판단하기 위해서, 예측 오차를 정확히 추정할 수 있어야 한다. 셋째, 연구자가 모형을 편향시킬 수 있는 통제력이 있어야 하며, 그로 인해 옳은 값이 있을 것이라 예상되는 파라미터 공간으로 모형을 이동시킬 수 있어야 한다. 첫번째 방법은 빅데이터를 사용하는 것으로, 두 번째 방법은 교차 검증(cross-validation)으로, 세 번째 방법은 정규화(regularization)로 충족시킬 수 있다는 것이 저자들의 주장이다. 이 세 가지 각각에 대한 자세한 이야기가 다음으로 이어진다.