Photo feature 에 대한 부분은 대략 어느 정도 정리가 된 것 같다. 여러 논문들에서 사용되는 것들이 대략 몇 가지 소스에서 나온 것들로 추려질 수 있는 것 같다.

이어서 video feature 에 대한 내용을 공부하기 시작했다. 목적은 YouTube 나 TikTok 데이터 분석에 사용할 만한 feature 들을 추려내기 위한 것이다. 선행 연구들을 대략 추려놓았고, 그 중 첫 번째로 Schwenzow et al. (2021) 의 논문을 읽기 시작했다. 이후 몇 개의 포스팅을 통해서 이 논문에서 사용한 video feature 들을 살펴볼 예정이다.

그런데, 시작부터 이 논문은 참 사람을 귀찮게 했다. 코드를 제공하는 것도 좋고, 심지어 사용법 유튜브 동영상까지 올려놓았다. 그런데 구글 코랩에 코드를 올린 것 같지만, 그것은 일종의 페이크(?)였다. 코랩에 올려진 코드는 어딘가 다른 폴더로부터 실제 코드와 샘플 데이터를 다운로드 받는 기능만 하는 코드였고, 코랩 폴더에 저장된 실제 코드와 샘플 데이터를 별도로 다운로드 받아 저장해야 했다(참고로 나는 코랩을 잘 쓰지는 않는다). 저자들의 마음은 대략 이해가 간다. 아마도 코드를 제출하라는 논문 심사위원의 요구에 짜증이 났을 것이다. 그래도 기왕 제출할 거면 좀 읽기 좋게 해주지…

어쨌든 저장한 파일을 feature 별로 실행해보면서 점검해볼 예정이다. 각 feature 별로 코드를 링크하면 좋겠는데, 그럴 수가 없어서 아쉽다.

1. Faces

1) share of frames with faces
2) average number of faces

영상에 등장하는 사람 얼굴과 관련된 feature 들이다. 영상의 각 프레임마다 사람의 얼굴을 탐지하여, 전체 프레임 중 사람 얼굴이 등장하는 프레임의 비중과 평균 등장 얼굴수를 feature 로 사용하였다. 얼굴 탐지는 deepface 등 여러 라이브러리로 할 수 있겠지만, 이 논문에서는 MTCNN 을 사용하였다.

구체적인 구현과 관련하여, 논문의 코드에서는 모든 프레임을 분석하지는 않고 매 10개 프레임마다 하나씩만 사용하였다. 예제에만 그렇게 한 건지, 실제 연구에도 그렇게 한 것인지는 알 수 없다. 사실 이 문제에는 정답은 없는 것 같다. 말 그대로 전체 영상에 등장하는 얼굴의 개수나 비중이 관심사라면, 건너뛰지 않고 모든 프레임을 대상으로 분석을 하는 것이 맞을 것이다. 이는 주로 편집되지 않은 영상, 즉 CCTV 영상같은 경우에 걸맞을 것 같다. 이와 달리 편집된 영상, 즉 드라마, 영화 등의 경우에는 영상의 기본 단위인 샷(shot)으로 나누고 샷의 대표 프레임을 추출한 다음, 추출된 대표 프레임만을 대상으로 분석하는 것이 낫지 않을까 싶다. 효율성 측면에서도 그렇고, 영상의 기본 특징 측면에도 그렇다.


<참고문헌>

  • Schwenzow, J., Hartmann, J., Schikowsky, A., & Heitmann, M. (2021). Understanding videos at scale: How to extract insights for business research. Journal of Business Research, 123, 367-379. https://doi.org/10.1016/j.jbusres.2020.09.059