video feature 관련해서 다음으로 읽은 논문은 Li et al. (2019)이다. 일단 제목이 거창하다. 그런데, 결론부터 얘기하자면 제목만큼 그럴듯한 논문은 아니다. 기본적으로 이 논문은 (초록에 나와 있듯이) 비디오로부터 추출한 두 개의 feature (실제로는 세 개)에 대한 이야기이다.

1. Visual variation

주어진 비디오가 시각적 측면에서 얼마나 많이 혹은 적게 변화하는지에 관한 feature 이다. 사실 이 “변화”라는 것은 너무나도 많은 종류가 있기 때문에, 그냥 이렇게 visual variation 이라고만 적어 놓는 것은 적절하지 않은 것 같다. 정확히 무엇의 변화인지를 적어야 한다. RGB 히스토그램의 변화인지, 밝기의 변화인지, 하는 식으로 말이다.

일단 비디오의 프레임을 RGB 형식에서 grayscale 로 바꾼다. 그리고 [0, 255]로 되어 있는 화소값들을 [0, 1]로 normalize 한다. 마지막으로 이웃 프레임 사이의 각각의 화소들 사이의 차이를 구하는데, 차이 계산에는 Manhattan norm 을 쓴다. 즉,

\[d(x_{i}', y_{i}') = \vert x_{i}'- y_{i}'\vert\]

$x_{i}’$는 화소 $x_i$의 normalized grayscale 값이다. 이렇게 화소간 차이를 구한 후, 모든 값을 더한 것을 프레임 사이의 차이값으로 사용한다. 비디오를 구성하는 모든 프레임 사이의 차이를 계산하는 것은 너무 비용이 많이 드는 계산이기 때문에, 비디오를 같은 길이의 10개 구간으로 나누고 각 구간의 중간 프레임을 선택하여 분석에 사용한다. 그리고 이러한 10개 프레임 사이의 차이값을 평균낸 것을 visual variation 으로 정의한다.

2. Video content

2-1) human
2-2) instrument

비디오의 내용과 관련된 feature 이다. 먼저 비디오를 세 개의 구간으로 나누고, 각 구간의 중간 프레임을 선택한다(앞의 feature 에서는 10개 구간인데, 왜 여기에서는 세 개로 했는지는 모르겠다). 선택된 프레임을 이미지 인식 서비스인 Imagga에 업로드하여 콘텐츠를 분석한다. 그 결과를 통해 human 과 instrument 라는 두 개의 feature 를 추출한다. “Human is a dummy variable that is set to one when the video features human beings, and instruments is a dummy variable indicating whether the video contains any of the following instruments: guitar, wind instruments, piano, bass, or banjo.” 그냥 이렇게 binary variable 로만 쓰기에는 들인 노력이 조금 아깝다는 생각이 들긴 하지만, 어쨌든 그렇다고 한다.

3. Video duration

논문의 초록에서는 두 개의 feature 라고 적어놓고서는 실제로는 세 개를 쓴 것 같다(사실 이것저것 더 많이 적어놓긴 했는데, 복잡하게 적어놔서 뭔지 몰라서 생략했다). 비디오의 길이를 초 단위로 계산했다.

앞선 논문들에서도 그랬지만, 이 논문 역시 feature 의 서술이 매우 혼란스럽다. feature 의 이름, 의미, 측정 방법, 딱 세 가지만 간단하게 기술하면 되는데, 앞의 문헌 리뷰 파트에서 조금, 연구 방법 파트에서 조금, 결과 파트에서 조금, 이렇게 서술이 나뉘어져 있는 것 같다. 그러니 읽으면서도 대체 무슨 feature 를 어떻게 썼다는 것인지 이해하기가 쉽지 않다.


<참고문헌>

  • Li, X., Shi, M., & Wang, X. S. (2019). Video mining: Measuring visual information using automatic methods. International Journal of Research in Marketing, 36(2), 216-231. https://doi.org/10.1016/j.ijresmar.2019.02.004