[논문리뷰] Sound-guided Semantic Image Manipulation

Chaewon Kim
KLleon
Published in
16 min readAug 19, 2022

Introduction

이번에 소개드릴 논문은 CVPR 2022에 출판된 논문입니다.

본론으로 들어가기 전에 간략히 Image Manipulation 기술에 대해 소개하자면 Image Manipulation 기술은 영상 편집, 미디어 공유, 광고 등에서 유용하게 쓰이는 기술로, 영상 기반 Computer Vision 분야에서 널리 연구되어 왔습니다.

특히 Semantic Image Manipulation 기술의 목적은 source Image Identification사용자가 제공하는 Semantic Cues를 포함하는 Novel Image를 생성하는 것입니다.

그중에서도 본 논문은 영상(Source Image)과 소리(Mel-spectrogram) 정보를 활용하여, 영상의 Identification을 유지하면서 영상에 소리의 Semantic Information을 입히는 Image Manipulation 작업을 수행하는 내용을 담고 있습니다.

우선 본 논문에서 수행하는 작업의 결과물을 먼저 확인해 보겠습니다.

Figure 1. 입력으로 들어가는 Input Image와 Mel-spectrogram에 의해 재생성된 Manipulated Image.

이와 관련된 Semantic Image Manipulation 연구들을 살펴보고, 저자가 주장하는 ‘왜 소리(Audio) 정보를 써야 하는지’에 대해 알아봅시다.

Related Work

Text-guided Image Manipulation

Semantic Image Manipulation에 관한 다양한 연구가 시도되었는데, 영상 외의 부가적인 Prior 정보를 활용하는 방식은 Text 정보를 활용한 Text-guided Image Manipulation입니다.

그중에서도 대표적인 논문은 StyleCLIP[1]이 되겠습니다. StyleCLIP[1]은 pre-trained StyleGAN[2]의 Latent Space와 CLIP[3]의 Prior Knowledge를 활용하여, 주어지는 Image와 Text 정보에 따른 Image Manipulation을 수행합니다.

이미 잘 알려져 있듯이, StyleGAN[2]은 Latent Space W+를 통해 Disentanglement 문제를 해결하고 잠재 공간의 변화에 따른 의미 있는 Image 생성이 가능하게 합니다. 그리고 CLIP[3]은 Image와 Text 간 Embedding 관계를 Multi-Modal Self-Supervised 학습을 활용합니다.

StyleCLIP[1]은 StyleGAN[2]과 CLIP[3]을 접목시켜 user-provided Text Prompt에 따른 Source Image의 Text-driven Image Manipulation이 가능하게 합니다.

Figure 2. StyleCLIP[1] 결과물. (Top row: input images, Bottom row: manipulated results)

Necessity of Sound-guided Approach

본 논문에서 저자는 ‘왜 소리(Audio) 정보를 써야 하는지’를 중점적으로 기술하고 있습니다.

앞서 언급한 StyleCLIP[1]과 같은 Text-based Image Manipulation의 경우, 무한한 Variation을 갖는 Continuous and Dynamic한 소리의 Semantic 정보를 Discrete한 Text 정보로 표현하기에는 내재적인 한계가 있습니다.

그렇기 때문에 Scene의 다성적 정보를 제공하며, 다양한 Sound Sources와 복잡한 Blend of Audio Signal 정보를 활용하는 Sound-guided Image Manipulation이 필요하다는 것을 강조합니다.

Challenges of Sound-guided Approach

또한 저자는 Sound-guided Image Manipulation의 2가지 Challenges를 언급합니다.

  1. CLIP[3]의 학습에는 400 million의 Image-text pair data 활용이 가능했지만, 반대로 Sound-guided 방식의 학습을 위한 High Resolution의 audio-visual dataset이 현저히 부족하다.
  2. 소리로부터 적절한 Temporal context, tone, and theme를 추출하여 audio-visual의 잠재적 상관관계를 학습하는 것이 어렵다.

Main Contributions

저자는 본 논문을 통해 다음과 같은 3가지 contribution을 주장합니다.

  1. CLIP[3] embedding 공간을 audio 공간까지 확장.

Multi-modal contrastive loss를 통해 audio와 image-text representation이 잘 align 되어 있도록 CLIP의 공간을 확장하였습니다.

즉, 같은 의미를 담고 있는 audio, image, text (=positive triplet pair)는 embedding 공간 상에서 가깝게 위치하고, 다른 의미의 audio, image, text 끼리 멀리 위치하도록 학습했습니다.

2. 주어진 audio 만으로 semantic-level image manipulation을 가능.

Audio만으로도 Image manipulation을 가능하게 함으로써 dynamic하고 temporal 한 정보를 더 활용할 수 있는 모델을 제안한 것입니다.

3. Adaptive layer masking 을 통한 이미지 quality 개선.

sound-guided code optimization 을 하기 위해 layer마다 다른 weight을 곱해주어 audio의 의미를 더 잘 전달할 수 있도록 이미지의 quality를 개선하였습니다.

Method

Figure 3. Sound-guided Semantic Image Manipulation 모델

방법은 크게 두 단계로 나뉘어지고 각 단계는 아래와 같습니다.

(a) CLIP-based Contrastive Latent Representation Learning step

(b) Sound-guided Image Manipulation step

각 단계를 자세히 설명해 보겠습니다.

(a) CLIP-based Contrastive Latent Representation Learning step

Input audio (x_a), text(x_t), image(x_v) 각각 새로운 latent representation를 배우기 위해서는 audio encoder, text encoder, image encoder가 모두 필요합니다.

그러나 모든 encoder를 새로 학습할 필요는 없고, 저자들은 CLIP[3]에서 제공한 pre-trained text, image encoder 를 가져와서 사용했기 때문에 audio encoder만 학습하면 됩니다. 학습에는 positive triplet pair (a_i, t_i, v_i), 즉 audio representation a_i 와 쌍을 이루는 text, image의 representation (t_i, v_i) 이 multi-modal embedding 공간에서 가까워지고, negative pair는 멀어지도록 contrastive loss (Figure 4.)를 사용했습니다.

  • eq 3.은 모든 text와 audio (a_i, t_i) pair에 대한 InfoNCE loss (eq 1. + eq 2.) 입니다. 같은 방법으로 visual image 와 audio (a_i, v_i) pair에 대한 InfoNCE loss 도 구할 수 있습니다.
  • eq 4.는 robust 한 audio representation을 배우기 위한 self-supervised loss입니다. 같은 audio input의 다른 view는 가까워지고 다른 audio는 멀어지도록 contrastive loss를 사용하였고, 같은 audio의 다른 view를 만들기 위해 melspectrogram에 augmentation (SpecAugment) 을 사용했다고 합니다.
  • eq 5.는 최종 loss function입니다.
Figure 4. Loss for CLIP-based Contrastive Latent Representation Learning

(b) Sound-guided Image Manipulation step

본 논문에서는 StyleCLIP[1] 과 같은 방법으로 image manipulation 을 합니다.

Direct Latent Code Optimization : 주어진 source latent code (w_s : StyleGAN2[2]의 intermediate latent space에 존재하는 벡터) 와 audio driven latent code (w_a) 가 가까워지도록, direct optimization (eq 6.)을 수행합니다.

이때 저자들은 adaptive layer masking이라는 방법을 사용하여 원본 이미지와 너무 상이하게 달라지는 것을 방지합니다. StyleGAN[2]의 latent code는 layer 별로 다른 style을 담당하기 때문에, 학습 가능한 벡터 layer wise mask (g)를 latent code에 곱해줍니다. 이를 통해 latent code를 adaptively manipulate 함으로써 원본 이미지와 비슷하지만 semantic한 정보를 더 잘 표현할 수 있는 이미지를 생성할 수 있습니다.

Experiment

Implementation Details

Image와 text encoder는 pre-trained CLIP [1] 을 활용하고, audio encoder로는 ResNet50를 backbone으로 활용했는데, 최종 output dimension이 CLIP과 동일하게 나오게끔 512로 맞춰주었습니다. Generator로는 pre-trained StyleGAN2를 활용하였는데, StyleGAN2의 경우 resolution에 따라 W space latent code의 크기가 달라집니다. 따라서, 1024 x 1024 resolution의 경우 latent code shape은 18 x 512이고, 256 x 256 resolution의 경우 14 x 512입니다.

Qualitative Analysis

Sound-guided Image Manipulation

Sound-based style-transfer model들인 TraumerAICrossing you in Style과 비교하였습니다. 기존 방법들은 주어진 audio input의 semantic information을 capture하는데 실패하는 반면, 이 논문에서 제시하는 방법의 경우 비교적 성공적으로 주어진 image들을 잘 manipulate하는 결과를 보여줍니다.

Comparison of Text-guided Image Manipulation

Text-guided image manipulation model들인 TediGANStyleCLIP과 비교하였습니다. 이 저자들의 주장으로는, audio-guided method는 text-guided method와는 달리 여러 label을 동시에 반영할 수 있어서 더욱 자연스러운 manipulation이 가능하다고 합니다.

예를 들어, “baby crying”이라는 context가 제공될 때 TediGAN은 “crying”을 강조하는 반면 StyleCLIP은 “baby”에 초점을 맞춥니다. 반대로, 이 논문에서 제안하는 방법은 “baby”와 “crying”이 동시에 반영되는 결과를 볼 수 있습니다.

또한, 위의 그림에서 보이듯이, audio-guided는 text-guided보다 더 다양한 manipulation 결과를 보여주는 것을 볼 수 있습니다.

Multi-modal Image Manipulation

이 논문의 경우 CLIP과 audio encoder를 통하여 StyleGAN의 latent space representation을 얻는 논문이므로, 당연히 audio와 text를 활용한 multi-modal image manipulation이 가능합니다.

Effect of Adaptive Layer Masking

StyleGAN [2]은 각 layer에 해당하는 latent code가 가지는 style attribute들이 다르므로, adaptive하게 각 layer를 regularize할 필요가 있습니다.

이 논문에서 제시하는 adaptive layer masking은 semantic cue에 기반하여 latent code를 수정하여 direction을 변경합니다. 위의 그림에서 2번째 row에서 천둥과 번개가 보이지 않지만, layer masking이 적용된 3번째 row에서는 천둥과 번개가 보입니다.

Quantitative Analysis

Zero-shot Transfer

첫 번째로, Zero-shot transfer task에 대하여 supervised method로 훈련된 ResNet50과 비교한 결과가 위의 표에 나타나 있습니다. 저자들은 ResNet50보다 더 좋은 결과를 얻었다고 주장하지만, Quantitative comparison이 나와있는 표를 보시면 그렇진 않습니다. 두 번째로, Wav2clip과 AudioCLIP과의 비교를 보시면 Wav2lip보단 좋은 결과를 얻지만, AudioCLIP이 더 좋은 결과를 보입니다.

Semantic Accuracy of Manipulation

이 논문에서 제안한 audio-driven image manipulation 효과를 quantitative하게 분석한 부분입니다. Pre-trained audio encoder가 주어지면, 저자들은 8개의 semantic labels-giggling, sobbing, nose blowing, fire crackling, wind noise, underwater bubbling, explosion, and thunderstorm을 분류하도록 하는 linear classifer를 훈련하였습니다. 이에 대한 결과는 위에 차트와 같이 이 논문의 방식이 quantitative하게 좋다고 나옵니다.

Limitations & Conclusion

저자들은 text-driven image manipulation인 StyleCLIP에 비해서 sound-guided 모델이 가질 수 있는 장점을 많이 보여주었지만, 실제로 text-driven 보다 뛰어나다는 것을 증명하기 위해서는 더 다양한 sound에 대한 학습 및 실험이 있어야 합니다. 또한, pre-trained StyleGAN의 embedding space에서 벗어난 audio feature는 이미지의 색을 과도하게 바꿀 수 있다는 단점도 언급하고 있습니다. 여전히 사람의 특징을 설명하는 형용사와 같은 정적인 정보를 담고 있는 경우에는 sound 만으로 image manipulation을 하기에는 한계가 있습니다.

그럼에도 sound로 이미지를 성공적으로 semantically manipulate 한 첫 논문이라는 점에서 굉장히 흥미로웠습니다. Multimodal embedding space에서 sound 와 image의 연관성을 연구한 논문 중에 음성에 맞는 입모양 합성 연구는 활발히 진행되고 있지만, semantic 한 정보를 활용한 접근은 새로웠습니다.

같은 저자들은 이러한 연구를 image 가 아닌 video까지 확장시켜서 sound-guided semantic video generation [4] 논문을 ECCV 2022에 공개했습니다. Sound 가 연속적인 시간축에 따라 변화하는 input인 만큼, 연속적인 시간축의 video 에 적용하기 위해 recurrent module을 학습하고 video generation을 잘 할 수 있는 StyleGAN generator를 사용하여 semantic video manipulation을 수행한 논문입니다.

기존에 audio를 활용한 multimodal learning 연구는 저화질 및 적은 양의 데이터 셋의 한계로 고화질 이미지를 생성하기 힘들다는 문제를 공통적으로 가지고 있습니다. 이를 해결하기 위해 최근 논문들은 pretrained StyleGAN을 활용하는 방안을 사용하는데, 비슷한 접근으로 좋은 성능의 이미지나 비디오를 생성하는 다양한 multimodal 논문도 다음에 리뷰해서 찾아오도록 하겠습니다 🙂

[1] O. Patashnik et al., ‘StyleCLIP: Text-driven manipulation of style-han imagery’, ICCV 2021

[2] T. Karras et al., ‘A style-based generator architecture for generative adversarial networks’, CVPR 2019

[3] A. Radford et al., ‘Learning transferable visual models from natural language supervision’, ICML 2021

[4] S. Lee et al., ‘Sound-guided semantic video generation’, ECCV 2022

--

--