Video features 공부: Schwenzow et al. (2021)(3)

Schwenzow et al. (2021)에 나온 video feature 를 소개하는 세 번째 포스팅이다. 오늘 소개할 feature 는 emotion 이다.

3. Emotions

4) Anger
5) Fear
6) Surprise

읽으면 읽을수록 이 논문은 feature 를 제시하는 방식이 엉망인 것 같다. 영상에 나온 얼굴과 얼굴에 표현된 감정으로부터 feature 를 추출하여 영상 분석에 이용하겠다는 취지는 잘 알겠고, 너무나도 당연한 것이며, 여러 선행 연구들에서 유사한 접근이 사용되어 왔다. 그러면 어떤 feature 를 어떻게 추출했는지를 잘 서술하면 되는 것이다. 그런데 feature 의 이름이 무엇인지, 어떻게 추출했는지에 대한 설명이 엉망진창이다. Emotion 이라고 이름 붙여진 subsection 에는 다음과 같이 서술되어 있다.

To retrieve facial emotions, we used a publicly available implementation from GitHub, which uses a relatively small artificial neural network consisting of five convolutional and three fully connected regular layers.

이게 전부일 뿐, 누구의 어떤 repository 인지, 어떤 알고리즘을 썼는지는 전혀 서술되어 있지 않다. 이렇게 썼는데도 논문이 심사를 통과했다는 점이 더 놀라울 뿐이다. 논문의 코드를 읽어봐도, 어딘가로부터 논문의 structure 와 weight 가 담긴 파일을 가져와서 사용할 뿐, 출처를 정확히 밝히지 않고 있다. OpenCV 의 Haar Cascade 알고리즘을 사용해 얼굴을 탐지하고, 탐지된 각 얼굴로부터 사전 훈련된 인공신경망 모델을 사용해 감정을 탐지하는 것 같다. structure 와 weight 의 파일 이름(facial_expression_model_structure.json, facial_expression_model_weights.h5)을 검색해보니, Serengil 이라는 사람의 GitHub가 나온다. 그런데 공교롭게도 이 사람은 deepface라는 모듈을 만든 사람이다. 이럴 거면, 원래 연구에서 그냥 deepface 를 사용하면 되는 것 아니었나 하는 생각도 든다. 어쨌든 feature 를 이렇게 서술하면 안된다. 정말루.

어쨌든 feature 자체는 anger, fear, surprise 를 추출해서 평균을 사용한 것 같다.

<참고문헌>

Schwenzow, J., Hartmann, J., Schikowsky, A., & Heitmann, M. (2021). Understanding videos at scale: How to extract insights for business research. Journal of Business Research, 123, 367-379. https://doi.org/10.1016/j.jbusres.2020.09.059