[논문 리뷰] FixNoise

Chaewon Kim
KLleon
Published in
7 min readDec 2, 2022

이번에 소개 드릴 논문은 CVPR 2022 Workshop인 AI4CC (AI for Content Creation)에 Best paper로 소개된 Fix the Noise: Disentangling Source Feature for Transfer learning of StyleGAN이라는 논문입니다.

paper link : https://arxiv.org/abs/2204.14079

github link : https://arxiv.org/abs/2204.14079

Figure 1 . FixNoise : StyleGAN에 내제된 noise 값의 조절 만으로 보존된 source domain 특징을 조절.

Introduction

Domain Translation은 하나의 도메인의 이미지를 다른 도메인의 해당하는 이미지로 변환하는 task입니다. Domain Translation에서 controllability는 유저가 원하는 특징을 설정할 수 있다는 부분에서 매우 중요합니다.

최근 여러 연구에서 StyleGAN2 [1] 와 같은 pre-trained unconditional generator를 사용하여 상당히 좋은 결과의 domain translation을 보여주었습니다. 이러한 approach는 source domain image를 source model의 latent space에 embedding 한 후, 이를 target model에 input으로 사용함으로써 domain translation을 수행한 것입니다. 이러한 접근 방식에서 유저는 target model의 freezing [2] 또는 swapping [3,4] 하는 layer의 개수를 다르게 설정하여 원본 기능의 보존 정도를 제어할 수 있습니다.

그러나, 기존의 방법들의 가장 큰 문제점은 하나의 모델을 통해 특징을 조절할 수 없다는 점입니다. 예를 들어, Freezing 기법을 사용하는 경우 freezing layer가 다른 여러 모델의 학습이 필요합니다. Swapping 기법을 사용하는 경우, source model과 target model의 결합이 필요하기 때문에 자연스러운 결과를 만들어낼 수 없습니다. 또한, 모델의 layer 개수는 정해져 있기 때문에 control step이 제한되며, discrete 하다는 단점이 있습니다.

이 논문에서는 기존의 방법들과 다른, 하나의 모델에서 다른 두 도메인 feature 사이의 continuous한 control이 가능하게 하는 FixNoise라는 방법을 제시합니다. Model의 hierarchy 구조에 집중한 기존 방법들과는 달리 model의 feature space에 방점을 두어 문제를 해결하였다는 것이 가장 큰 특징입니다.

Method

Which feature to preserve?

하나의 model에서 두 도메인 feature를 조절하기 위해서는, target model에서 source feature가 보존되어야 합니다. 따라서 이 논문에서는 어떤 feature space에서 보존을 진행해야 하는지 주목합니다.

그 결과 Transfer learning 중 가장 많이 바뀌고 [5] , target feature learning을 방해하지 않는 feature space인 intermediate feature space를 보존하는 feature matching loss term을 제시합니다.

Disentangled feature space using FixNoise

그러나 feature matching loss term을 그대로 적용한다면, optimal case에서 target model의 전체 feature space는 source model과 동일하게 됩니다.

이는 target distribution 학습을 방해할 수 있고, 학습이 잘 수행되더라도 target feature와 source feature가 entangle되어 있다면 두 feature 사이의 control이 불가능합니다. 본 논문에서는 특정 subspace에만 보존된다면 이와 같은 문제가 해결될 것이라고 가정했습니다.

이 논문에서 가장 흥미로운 부분은 StyleGAN의 noise input에 주목했다는 점입니다. StyleGAN2에서는 생성된 이미지에 stochastic variation을 생성하는 Gaussian noise가 각 convolution 후에 더해집니다. 이 Gaussian noise는 latent만으로 정의된 feature space를 확장시킨다고 저자들은 설명합니다.

역으로, 이를 통해 random하게 sampling된 각 noise에 해당하는 subspace들이 존재한다고 볼 수 있습니다. Source feature를 특정 subspace에만 보존하기 위해 feature matching loss를 적용할 때 노이즈를 고정하는 technique를 사용하고, 이를 FixNoise라고 칭하였습니다.

결과적으로, source feature는 고정된 noise에 해당하는 subspace에만 embedding되고 target feature는 전체 feature space에 자유롭게 학습이 됩니다. 이를 통해, 고정된 noise와 random sampling된 noise 사이의 interpolation로 보존된 source feature의 정도를 조절할 수 있게 됩니다.

밑의 영상은 noise interpolation을 통해 보존된 source feature를 control하는 예시입니다. 다양한 실제 서비스에 활용될 가능성이 높아 보이는데요. 더 다양하고 자세한 결과는 논문에 많이 첨부되어 있으니 논문을 참고해 주세요:)

[1] T. Karras et al., ‘Analyzing and improving the image quality of stylegan.’, CVPR 2020

[2] B. Lee, ‘Freeze g.’, https://github.com/bryandlee/FreezeG, 2020

[3] J. Pinkney et al., ‘Resolution dependent gan interpolation for controllabe image synthesis between domains.’, NeurIPS 2020 Workshop

[4] S. Kwong et al., ‘Unsupervised image-to-image translation via pre-trained stylegan2 noetwork.’, IEEE Transactions on Multimedia 2021

[5] Z. Wu et al., ‘Stylealign: Analysis and applications of aligned styleGAN models.’, ICLR 2022

--

--