Audio-Driven Talking Face

Chaewon Kim
KLleon
Published in
10 min readFeb 3, 2023

최근 audio-driven talking face 논문들에 대한 서베이

Audio-driven talking face 는 입력 오디오만으로 동기화된 입술 모양을 만들고 자연스럽게 움직이는 얼굴에 합성하는 task입니다. 최근 각광 받고 있는 기술들을 사용 목적과 방법에 따라 분류 해보았습니다.

  1. One-shot(원샷) 입모양 합성 2D 기술
  2. Pretrained StyleGAN을 활용하는 One-shot(원샷) 입모양 합성 2D 기술
  3. Neural-rendering을 이용한 3D 입모양 합성 기술
  4. NERF를 이용한 3D 입모양 합성 기술
  5. Diffusion model 을 이용한 입모양 합성 기술

1. One-shot(원샷) 입모양 합성 2D 기술

  • 단 한 장의 참조 이미지 만으로도 별도의 추가 학습 없이 입모양 생성 가능한 one-shot 입모양 합성 모델은 다양한 identity에 대하여 일반화가 가능한 매우 큰 장점이 있습니다.
  • Wav2Lip: 립싱크 판별기( Pre-trained Lip-Sync Expert )를 통해 싱크에 맞는 입모양을 생성하도록 학습하고 임의의 Single Source Identity에 대해서 오디오 입력( Melspectrogram )만 있으면 자동으로 입모양을 생성하는 모델이며, 지금까지도 다른 모델들에 비해 탁월한 Lip-Sync 성능을 보입니다.
Wav2Lip architecture
  • PC-AVS: 해당 모델 역시 Wav2Lip과 유사한 기능을 수행하지만 추가적으로 또 다른 Pose Source Video를 필요로하며 기존 Source Identity 보존이 어려운 단점이 있습니다.
PC-AVS architecture
  • Audio2Head: Single Source Identity에 추가적으로 머리 움직임( Head Motion Sequence )까지 예측하는 모델이지만, Lip-Sync 성능이 아쉽고 자연스러운 얼굴 움직임을 표현하지 못합니다.
Audio2Head architecture
  • 전반적으로 Lip Reading Datasets( LRW, LRS2 )에 의존적인 원샷 입모양 합성 모델들은 모두 저화질이라는 공통적인 단점을 지니고 있습니다.

2. Pretrained StyleGAN 활용하는 one-shot 입모양 합성 2D 기술

  • Pretrained StyleGAN을 활용한 입모양합성 모델들은 저화질의 데이터셋에 대한 의존도가 줄어서 고품질의 비디오를 출력할 수 있으며 StyleGAN 의 feature space를 최대한 활용하여 자연스러운 얼굴을 생성할 수 있는 장점을 가지고 있습니다.
  • StyleHeat: StyleHeat은 StyleGAN의 feature space에서 우수한 공간적 특성을 발견하고, 관찰을 바탕으로 고해상도(1024x1024) 비디오 생성, 유연한 얼굴 편집, 오디오 기반 모션 생성과 같은 여러 기능을 수행합니다. 처음으로 1024 까지 해상도를 높인 입모양합성 논문이며, 얼굴 왜곡을 보정하는 보정 네트워크와 domain loss 를 제안하여 우수한 품질의 얼굴 생김새를 만들어냅니다.
StyleHeat architecture
  • StyleTalker: Pretrained StyleGAN 과 인코더를 활용하여 주어진 오디오를 반영하는 latent 코드를 추정하고 동기화된 입술모양을 만드는 토킹 헤드 비디오를 출력합니다. 립싱크 판별기를 고도화하고, 아이덴티티를 유지한채 자연스러운 얼굴의 움직임과 입모양을 만들어냅니다.
StyleTalker architecture

3. Neural-rendering을 이용한 3D 입모양 합성 기술

  • Neural-rendering 모델을 활용하여 Background 정보 보존과 Driving Face의 Pose 및 Shape를 잘 표현하는 논문들을 볼 수 있습니다.
  • MemFace: 해당 논문에서의 Pipeline은 기존 하나의 음성 정보로 다양한 영상을 표현하는 One-to-many 방식의 모호성에 따른 Quality 성능 부족을 보완하기 위해, Two-Stage Framework를 제안합니다. 여기서 Audio-to-expression Model을 제안하여 High-level Semantics Shared Space를 포착하고 Neural-rendering Model을 통해 Pixel-level Details 합성에 기여합니다.
MemFace architecture
  • StableFace: 해당 논문은 High Quality Talking Face Video 생성을 위해 Lip Motion Jitter에 초점을 맞췄다. Gaussian Based Adaptive Smoothing Module을 통해 Motion Jitter 제거를 기여하였고, 학습하는 입력 영상에 Augmented Erosion을 적용하여 학습과 추론의 Mismatch를 줄였습니다. 또한, Audio-fused Transformer Module을 통해 Sequential Frames 간 의존성을 모델링하였습니다.
StableFace architecture

4. NERF를 이용한 3D 입모양 합성 기술

  • 최근 NeRF 기반 방법으로 얼굴의 3D 구조 정보를 잘 캡쳐해서 더 자연스러운 Talking Heads 비디오를 생성하는 논문들이 나오고 있습니다.
  • AD-NeRF: 오디오 입력( Wav )과 비디오 출력의 격차를 해소하기 위해 오디오 시그널 정보를 Conditional Implicit Function에 직접 입력하고, 동적 신경 방사 필드( Dynamic Neural Radiance Field )를 생성하여 볼륨 렌더링( Volume Rendering )을 통해 오디오 신호에 해당되는 High Quality Talking Heads Video를 최종 생성합니다.
AD-NeRF architecture
  • DFRF: 적은 훈련 데이터로 처음 본 Identity에 대해 빠르게 일반화 할 수 있는 방법을 제안하며, 기존 NeRF 기반 방법과 달리, 얼굴 Identity 정보를 사전에 학습하게 위해 2D 이미지에 대한 방사 필드( Radiance Field )를 적용합니다. 이는 유연하게 새로운 신원에 맞는 얼굴 방사 필드( Radiance Field )를 조정할 수 있게 만들며 수십초의 훈련 클립만 있으면, 40 Thousands Steps의 학습만으로 새로운 Identity의 High Quality Talking Heads Video를 합성 할 수 있습니다.
DFRF architecture

Diffusion model을 이용한 입모양 합성 기술

  • 최근 Diffusion 모델의 발전으로 인해 기존 GAN 생성모델보다 사실적이고 안정적인 데이터 합성 및 비디오 생성합니다.
  • Diffused Heads: 하나의 Identity Frame과 Audio Sequence를 필요로 하는 one-shot autoregressive diffusion 모델을 제시하며, Background 보존과 머리 움직임, 얼굴 표정, 눈 깜빡임까지 표현합니다.
Diffused Heads architecture
  • DiffTalk: 오디오 신호를 단일 구동 요인으로 사용하는 대신 Face Reference ImageFacial Landmark가 Talking Heads를 생성하기 위한 조건으로 추가됩니다. 이를 통해 Source Audio와 동기화되어 High Quality Video를 생성할 수 있으며 다양한 Identity에 대해서 자연스럽게 일반화될 수 있습니다.
DiffTalk architecture

References

  • Prajwal et al., ‘A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild’, ACM Multimedia 2020
  • Zhou et al., ‘Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation’, CVPR 2021
  • Wang et al., ‘Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion’, IJCAI 2021
  • Yin et al., ‘StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN’, ECCV 2022
  • Min et al., ‘StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation’, arXiv 2022
  • Guo et al., ‘AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis’, ICCV 2021
  • Shen, Shuai et al., ‘Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis’, ECCV 2022
  • Stypułkowski et al., ‘Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation’, arXiv 2023
  • Shen et al., ‘DiffTalk: Crafting Diffusion Models for Generalized Talking Head Synthesis’, arXiv 2023

--

--