Yarkoni & Westfall (2017)(1)

Yarkoni, T., & Westfall, J. (2017). Choosing prediction over explanation in psychology: Lessons from machine learning. Perspectives on Psychological Science, 143(5), 1-23. https://doi.org/10.1177/1745691617693393

우연히 접해서 읽게 되었는데 너무 좋은 내용의 논문이라서, 좀 더 자세히 읽기 위해 요약하며 포스팅하기로 했다. 핵심적인 문제의식은 심리학(그리고 사회과학 일반)에서 설명(explanation)이 예측(prediction)에 비해 지나치게 강조되는 풍조를 비판하며, 심리학 연구에서 예측이 보다 중요한 역할을 담당하도록 하기 위해서는 무엇을 해야 하는지에 대해 제안하는 것이다. 논문이라는 장르의 특성상 말투가 선동적이거나 거창한 목표를 내세우거나 하지는 않는다. 그러나 내용에 있어서는 기존의 행태를 신랄하게 비판하는 매우 급진적인 내용의 논문이라고 생각한다. 개인적으로는, 처음 머신러닝을 배울 때 접하게 되는 회귀(regression)와 대학원 연구 방법론 시간에 배웠던 회귀분석이 같은 것 같으면서도 뭔가 다른 것 같다는 느낌을 받았던 적이 있다. 정확히 무엇이 어떻게 다른지를 명료하게 하지 못하고 넘어갔었는데, 이 논문은 그 질문에 대한 해답과도 같은 논문이라고 할 수 있다. 이후 몇 개의 포스팅을 통해 이 논문의 핵심 내용들을 요약해보고자 한다.

먼저 이 논문은 기존 심리학의 연구 목표나 수행 과정이 지나치게 설명에 치우쳐져 있다고 비판한다. 그리고 이를 머신 러닝의 주된 목표인 예측과 비교한다. 사실 이러한 설명과 예측의 자세한 비교 자체가 앞서 내가 가져왔던 의문의 뿌리에 맞닿아 있는 것이라고 할 수 있다. 왜냐하면, 기존 심리학(그리고 사회과학)에서는 설명과 예측 자체를 엄밀하게 구분하지 않기 때문이다. 논문에도 직접적으로 서술되어 있듯이, 설명을 잘 하는 모델은 예측도 잘 한다(또는 할 것이다)는 믿음이 심리학의 기저에 깔려있는 것이 사실이다.

“In practice, however, these two goals are rarely distinguished. The understanding seems to be that the two are so deeply intertwined that there would be little point in distinguishing them, except perhaps as a philosophical exercise. According to this understanding, explanation necessarily facilitates prediction; the model that best approximates the mental processes that produce an observed behavior is also the one that best predicts future behavior.” (Yarkoni & Westfall, 2017, p.1)

이러한 풍조 하에서, 심리학에서의 연구 수행은 예측보다는 설명에 중점을 두고 이루어져 왔다. 설명은 기저에 존재하는 인과 관계를 밝히는 것이고, 예측은 아직 관측되지 않은 행위나 현상을 미리 서술하는 것이다. 구체적인 연구 수행에 있어서, 둘 중 어느 쪽에 무게를 두는지에 따라 던져지는 질문, 데이터 분석 절차, 결과를 바라보는 시각 등이 달라지게 된다. 예를 들어, 설명 중심의 연구에서는 연구의 “성공” 여부가 “이론적으로 특별히 취급되는 회귀 계수의 크기(the size of a theoretically privileged regression coefficient)”나 “모델 적합도 지수(a model fit statistics)”를 통해 계량화되고 판정된다. 반면 예측 중심의 연구에서는 연구의 성공이, 관찰되지 않은 데이터(모델 피팅에 사용되지 않은, 샘플 밖의(out-of-sample) 데이터)와 그러한 데이터에 대한 모형의 예측 사이의 평균적인 차이에 의해 계량화되고 판정된다. 전자는 심리학에서 많이 사용되는 회귀 모형, 구조 방정식 모형 등이 해당되고, 후자는 머신러닝 모형들이 해당된다.

이러한 차이는 이미 Breiman (2001) 같은 문헌에서도 지적된 바 있다고 언급되고 있다. Breiman 은 통계적 모델링의 “두 문화”를 지적했다. 첫째는 “데이터 모델링 문화”로서, (연구에서 분석하는) 데이터가 특정한 데이터 생성 과정으로부터 생겨난 것이며 (연구의) 가장 중요한 목표는 이러한 과정의 매개변수(parameter)를 추정하는 것이라 보는 입장이다. 둘째는 “알고리즘적 모델링 문화”로서, 데이터는 (아직) 알려지지 않았을 뿐만 아니라 심지어 (앞으로도) 알수도 없는 과정으로부터 생겨난 것이며 가장 중요한 목표는 동일한 인풋에 대해 (분석하고자 하는 데이터와) 동일한 아웃풋을 산출하는 알고리즘을 찾아내는 것이라 보는 입장이다.

그렇기 때문에, 심리학(데이터 모델링 문화)에서는 모델을 구성하는 각 변수마다의 매개변수가 중요하다. 기본적으로 모델은 변수(variable)와 매개변수로 구성되어 있는데, 모델에 어떤 변수가 포함될지 여부는 이론적으로 결정된다. 따라서 관심사는 모델에 포함된 각 변수의 매개변수가 유의미한지, 그 효과가 강력한지 여부이며, 아울러 전체 모델이 데이터에 잘 부합하는지(적합한지) 여부도 중요한 관심사이다. 반면, 머신러닝에서는 알고리즘이 중요하다. 동일한 인풋을 넣어서 동일한 아웃풋이 나온다면, 두 알고리즘은 기본적으로 동일하다고 봐도 무방한 것이다(“두 알고리즘”이라는 것은 모델의 구성 요소 중 ‘변수’가 다른 경우도 해당되지만 ‘매개변수’가 다른 경우도 해당된다). 따라서 모델(=변수 + 매개변수)의 변수 자리에 특정한 데이터를 넣어서 매개변수값을 추정한 후, 그것이 다른 데이터의 경우에도 동일한지(동일한 아웃풋을 산출하는지)를 확인하는 과정이 중요하다.

어쨌든 이러한 두 가지 시각(혹은 문화, 접근법, 연구 수행 절차 등)의 차이를 이렇게 명료하게 정리해놓은 것만으로도 이 논문은 나에게 큰 도움이 되었다. 심리학(사회과학) 논문에서 사용되는 “회귀모형”자리에 머신러닝 모델을 통한 예측을 넣어서 대신하면 안될까 하는 의문을 가져왔고, 실제로 지금까지 내 연구들에서 그렇게 하고는 있다. 하지만 이렇게 잘 정리된 내용을 접하니, 그동안 흐릿했던 점들이 명료해지는 느낌이다. 이 내용 하나만으로도 이 논문을 읽은 가치가 충분하지만, 이후 좋은 내용들이 더 있다. 이어질 포스팅에서 차근차근 정리할 예정이다.

Breiman, L. (2001). Statistical modeling: The two cultures. Statistical Science, 16(3), 199-231. https://doi.org/10.1214/ss/1009213726