Yarkoni & Westfall (2017)(4)

Yarkoni, T., & Westfall, J. (2017). Choosing prediction over explanation in psychology: Lessons from machine learning. Perspectives on Psychological Science, 143(5), 1-23. https://doi.org/10.1177/1745691617693393

예측 오차를 최소화하기 위한 첫 번째 방법으로 제시된 것이 큰 규모의 데이터, 소위 빅데이터를 사용하는 것이다. 사전적인 의미는 테라바이트, 페타바이트 단위 크기의 데이터를 의미하지만, 빅데이터의 정확한 의미는 여전히 명료하지 않은 상태이다(개인적으로는 데이터의 규모보다는 unstructured 한 특성이 사회과학에서 좀 더 큰 의미를 갖지 않는가 생각하고 있다).

어찌됐든, 큰 규모의 데이터는 기본적으로 바람직한 것으로 받아들여질 수 있다. 왜냐하면, 큰 규모의 데이터 자체가 과적합을 자연스럽게 방지해 줄 수 있기 때문이다. 데이터의 규모가 클수록 샘플이 모집단을 대표할 수 있는 가능성도 커지고, 모집단에는 없지만 훈련 데이터에만 있는 패턴이 모형에 반영될 가능성은 작아진다. 복잡도가 높은 모델을 통해 훈련 데이터에 과적합될 가능성이 데이터 규모가 커짐에 따라 작아지는 것이다. 따라서 데이터의 규모가 강조되고, 심지어 “더 많은 데이터가 더 좋은 알고리즘보다 낫다”(more data beats better algorithms; e.g., Domingos, 2012)는 주장이 제기되기도 한다.

그런데 소위 빅데이터의 임팩트가 심리학에는 그다지 크지 않다는 것이 저자들의 이야기이다. 출간된 문헌들을 살펴보면, 샘플 사이즈(sample size)가 커질수록 이펙트 사이즈(effect size)는 줄어드는 경향을 보인다고 한다. 즉, 과거 작은 규모의 샘플을 통한 연구에서는 큰 이펙트 사이즈가 얻어졌던 반면, 최근 큰 규모의 샘플을 통한 연구들에서의 이펙트 사이즈는 매우 작다는 것이다(대표적인 두 가지 사례가 소개되고 있다).

이런 현상이 왜 일어나는 것일까? 고작 십몇년 동안에 인간의 심리 기제 자체가 변화했을 리는 없으니, 남은 가능성은 두 가지라고 저자들은 지적한다. 첫째는 작은 샘플을 사용한 연구들이 더 엄밀하게 수행된 반면 큰 샘플을 사용한 연구들은 허술하게 수행되었을 가능성이다. 그러나 이는 그럴듯하지 않은 시나리오이다. 남은 유일한 가능성은 작은 샘플을 사용한 연구들이 광범위하게 과적합 되었을 가능성이다. 애초에 존재하지 않았거나 매우 약했던 이펙트 사이즈가 작은 샘플을 사용한 연구들의 과적합 때문에 마치 큰 것처럼 광범위하게 보고되어 왔고, 큰 샘플을 사용하기 시작한 최근에 들어서야 그 실체가 비로소 드러나고 있는 것이다. 따라서, 우리가 재현 가능하고 신뢰할 수 있는 과학 행위를 진지하게 원한다면, 우리는 작은 샘플로부터 얻어진 큰 이펙트보다 큰 샘플로부터 얻어진 작은 이펙트를 선호해야 한다는 것이다(매우 과격한, 용감한, 그리고 멋진 주장이라 아래에 원문을 인용한다).

“… the reason effect sizes in many domains have shrunk is that they were never truly big to begin with, and it is only now that researchers are routinely collecting enormous datasets that we are finally in a position to appreciate that fact.
The obvious implication is that, if we’re serious about producing replicable, reliable science, we should generally favor small effects from large samples over large effects from small samples.” (p.11)

결국, 소위 ‘빅데이터 혁명’이라는 것으로부터 심리학(사회과학)이 뭔가를 얻지 못하고 있는 가장 큰 이유는 기존에 해왔던 연구 관행이 그대로 유지되고 있기 때문이라고 할 수 있다. 이것은 예전부터 내가 가지고 있던 생각과 100% 일치하는 것이다. 트위터 데이터가 사회과학 연구에 본격적으로 사용되기 시작한 것이 대략 2011-2년 사이였고, 2015-6년 정도에는 웬만한 연구자는 트위터, 페이스북 데이터를 가져다가 연구에 사용할 수 있을만큼 여러 기술과 도구들이 일반화되었다. 그러나 그 이후 연구들의 내용에 ‘혁명적인’ 변화가 있다고 보기는 어렵다. 오히려 새로운 기술과 도구들이 기존 관행을 강화시키데 이용되는 측면이 더 강한 것 같다. “빅데이터 별거 없어”라거나 “데이터 규모보다 이론적인 기여가 중요해”라는 식의 회의적인 코멘트들을 통해 드러나는 시각들이다.

그러나 아이러니한 것은 소위 기존 “이론”이라는 것들 역시 작은 규모의 샘플을 사용한 연구들을 통해 형성, 유지, 강화되어 왔다는 점이다. 따라서 이론적 지식(기여)이 중요하다는 (매우 타당한) 얘기가 결국에는 작은 규모의 샘플을 사용한 연구 관행이 옳다는 주장의 근거로 사용되는 어이없는 일이 벌어지고 있는 것이다. 결국 기존 “이론”에 집착하는 정도를 얼마나 느슨하게 할 수 있는지가 ‘빅데이터 혁명’으로부터 뭔가를 얻어낼 수 있는 출발점이 될 수 밖에 없다. 비록 수십년에 걸쳐 발전해온 역사가 있지만 심리학(사회과학)이 뭔가 큰 결함을 가지고 있었으며, 그 결함이 현재의 데이터 혁명으로 인해 보완됨으로써 (지금까지와는 다른 방향이지만) 심리학의 발전을 계속해서 도모할 수 있다는 주장을 받아들일 수 있을까? (솔직히 현재로서는 매우 회의적이다)

Domingos, P. (2012). A few useful things to know about machine learning. Communication of the ACM, 55(10), 78–87. doi:10.1145/2347736.2347755