Schwenzow et al. (2021)에 나온 video feature 를 소개하는 다섯 번째 포스팅이다. 오늘 소개할 feature 는 color 관련이다. 논문에는 그냥 color 라고만 나와 있는데, 이것은 앞선 포스팅에서 소개했던 color names 와 같은 것이다.

5. Color

8) Color

이 feature 는 지난번 Segalin et al. (2017)의 photo feature 를 살펴볼 때에도 나왔던 것이다 (그 때는 알고리즘을 이해 못하고 넘어갔었는데, 이번에 다시 만난 김에 코드를 다시 살펴봤다). 출처를 이 논문에서는 Joost et al. (2009)라고 적어놨지만, 이것은 first name 을 last name 으로 잘못 적은 것이다. 정확한 출처는 van de Weijer et al. (2009)이다. 1저자의 이름이 Joost van de Weijer 이다.

알고리즘의 기본적인 접근은 R, G, B 세 개의 숫자의 조합을 통해 표현되는 색깔을, 11개의 기본 색깔(Berlin, 1991) 명칭에 대응시키는 것이다. 그래서 11개의 기본 색깔에 대응되는 숫자 조합의 개수 및 비율을 구하여 주어진 사진의 색깔을 나타내게 된다. 그러려면, RGB를 통해 숫자로 표현되는 색깔의 경우의 수마다 어떤 이름의 색깔을 대응시킬 것인지가 결정되어 있어야 한다. 위에서 소개한 van de Weijer et al. (2009)는 바로 그 대응표를 만들어낸 논문이다. 단어 벡터와 문서 벡터를 통해 토픽을 도출하는 토픽 모델링 알고리즘을 사용하기 위해, RGB 값을 단어 벡터로 사용하고 사진을 문서 벡터로 사용하였다. 또한 토픽이 곧 11개의 색깔 이름이 되게 하였는데, 이것은 토픽 모델링에서의 토픽의 개수를 11개로 설정하였다는 것을 의미한다. 어쨌든 이런 과정을 거쳐 RGB값-색깔 대응표를 만들었다. RGB값은 각각 0-255까지 256개가 가능하고 따라서 $256^3$ 만큼의 경우의 수가 있다. 그러나 논문에서는 이것을 모두 사용하지 않고, 256을 8개의 구간으로 나눠 $32^3 = 32,768$개의 경우의 수만을 사용하였다. 이 결과는 저자의 홈페이지에 공유되어 있다.

다시 Schwenzow et al. (2021) 논문으로 돌아오면, 비디오의 각 프레임(사진)마다 화소(정확히는 8개의 구간으로 나눴기 때문에 패치?)의 RGB값-색깔 대응표에 따라서 대응하는 색깔을 판정한 뒤 모든 색깔의 비율을 구하면 된다. 그리고 이걸 비디오를 구성하는 모든 프레임에 대해 수행한 후 평균값을 구하면 비디오의 feature 가 된다. 논문의 코드에 잘 구현되어 있다.

그런데 van de Weijer et al. (2009)의 자료에는 32,768개의 경우의 수마다 RGB 각각의 값, 그리고 11개 색깔별로 해당될 확률이 모두 나와 있지만, 본 논문의 코드에는 가장 확률이 높은 색깔 하나의 인덱스(고유번호)만 나와 있다. 앞뒤의 몇 개만 살펴보니 순서는 그대로 유지된 것 같다. 또한 같은 feature 가 사용된 Segalin et al. (2017)과 Sharma and Peng (2023) 의 코드를 살펴보니, 얘네들은 또 다른 RGB값-색깔 대응표를 사용하는 것 같았다. 얘네들도 11개 색깔별로 해당될 확률이 모두 나와 있는 것이 아닌 가장 확률이 높은 색깔 하나의 인덱스(고유번호)만 나와 있는 표를 사용하는 건 같은데, 순서가 van de Weijer et al. (2009)의 것과 달랐다. 논문의 인용은 van de Weijer et al. (2009) 였지만 RGB값-색깔 대응표는 별도의 인용이 없어서 어디에서 온 것인지 알 수 없다. 이런 경우에는 원래 알고리즘 논문의 것을 그대로 유지해주는 것이 좋을 것 같다.

이외에도 Colorfulness, Saturation, Value, Resolution 이 feature 로 사용되었는데, 별다른 건 없다. Colorfulness는 널리 사용되는 Hasler and Süsstrunk (2003)의 알고리즘이 사용되었고, Saturation 과 Value 는 HSV 컬러 스페이스에서 해당되는 값들의 평균값을 구해 사용하였다. Resolution 은 영상의 해상도이다.


<참고문헌>

  • Berlin, B. (1991). Basic color terms: Their universality and evolution. Berkeley, CA: University of California Press.

  • Hasler, D., & Süsstrunk, S. (2003). Measuring colorfulness in natural images. In B. E. Rogowitz & T. N. Pappas (Eds.), Human vision and electronic imaging VIII (pp. 87-95). San Jose, CA: International Society for Optics and Photonics. https://doi.org/10.1117/12.477378

  • Schwenzow, J., Hartmann, J., Schikowsky, A., & Heitmann, M. (2021). Understanding videos at scale: How to extract insights for business research. Journal of Business Research, 123, 367-379. https://doi.org/10.1016/j.jbusres.2020.09.059

  • Segalin, C., Perina, A., Cristani, M., & Vinciarelli, A. (2017). The pictures we like are our image: Continuous mapping of favorite pictures into self-assessed and attributed personality traits. IEEE Transactions on Affective Computing, 8(2), 268-285. https://doi.org/10.1109/taffc.2016.2516994

  • Sharma, M., & Peng, Y. (2023). How visual aesthetics and calorie density predict food image popularity on Instagram: A computer vision analysis. Health Communication, 1-15. https://doi.org/10.1080/10410236.2023.2175635

  • van de Weijer, J., Schmid, C., Verbeek, J., & Larlus, D. (2009). Learning color names for real-world applications. IEEE Transactions on Image Processing, 18(7), 1512-1523. https://doi.org/10.1109/TIP.2009.2019809