[논문리뷰] SPACEx : Speech-driven Portrait Animation with Controllable Expression

Chaewon Kim

Published in

KLleon

6 min readApr 19, 2023

Introduction

SPACEx[1] 는 단 한장의 이미지와 주어진 오디오로 고화질의 립싱크 비디오를 만들어주는 audio-driven face animation 논문입니다. 생성된 비디오들은 결과적으로

오디오와의 높은 싱크로율
자연스러운 얼굴 표정 및 포즈
고화질의 비디오 (512 x 512)
감정의 강도와 종류를 편리하게 조절 가능한 기능

을 자랑합니다.

기존 one-shot audio driven 모델들과 비교해도 정성적으로 좋은 성능을 보여줍니다.

Wav2Lip[2] 은 화질이 96x96으로 매우 낮고 하관만 생성하다보니 얼굴의 포즈를 자유롭게 움직이게 할 수 없습니다. PC-AVS[3]는 얼굴의 움직임이 부자연스럽고 생성되는 얼굴의 identity 보존이 아쉽습니다. MakeItTalk[4]는 입모양과 음성의 싱크로율이 낮고 artifact를 자주 생성하는 것을 볼 수 있습니다.

Figure 1. 기존 one-shot audio driven talking face 모델들과의 성능 비교

Architecture

SPACEx 는 아래와 같은 multi-stage approach 로 최종 비디오를 생성합니다.

1) Speech2Landmarks : audio로 부터 얼굴의 landmark를 예측하는 단계입니다.

2) Landmarks2Latents : audio로부터 예측된, 또는 유저가 원하는 포즈 정보를 통해 landmark의 포즈를 변경해줄 수 있으며, 변경된 landmark를 latent keypoint space로 보내줍니다.

3) Video Synthesis : latent keypoint 로 입력 사진 한장을 warping 하여 최종적으로 512x512 크기의 비디오를 생성합니다.

Dataset Preprocessing

입력 이미지로부터 normalized 3DDFA 와 MTCNN facial landmark들을 추출합니다 .
입력 오디오로부터(30fps) 1024 샘플 FFT window 크기를 이용하여 40 MFCC 를 추출합니다.

Figure 3. 이미지로부터 normalized landmark 를 추출하는 전처리 과정

Speech2Landmark

landmark prediction

입력: 이미지로부터 정제된 normalized facial landmark 과 오디오 MFCC들
출력 : (LSTM 모듈을 통과하여) 각 frame마다 normalized facial landmark를 예측

pose generation

입력 : 오디오 MFCC들
출력 : (LSTM 모듈을 통과시켜) rotation, translation 정보를 출력합니다.

Landmarks2Latents

Latent keypoint generation

입력 : 전 단계에서 얻은 posed landmark.
출력 : posed landmark에 해당하는 latent face-vid2vid keypoint 를 예측합니다.

Video Synthesis

Generator : Pretrained face-vid2vid 를 사용함.

driving 비디오를 사용하여 단일 소스 이미지에 움직임을 부여하는 모델
encoder는 20개의 latent keypoint를 예측합니다.
decoder는 latent keypoint 로 부터 flow-based warping field를 예측하고 이미지에 적용합니다.

전 단계에서 예측된 20개의 latent keypoint로 부터 입력 이미지를 warping 하여 최종 512x512 화질의 비디오를 생성합니다

Experiments

데이터셋 : VoxCeleb2, RaVDESS, MEAD
Metric : 립싱크 성능 ( M-P, M-V, Sync), 생성 퀄리티 (F-P, F-V), user study

Table 1. Qauntitative Evaluation Results

Conclusion

본 논문은 현실감 있는 고해상도 비디오를 생성하는 음성 기반 얼굴 애니메이션 프레임워크인 SPACEx를 제안하고 있습니다.

저는 개인적으로 단일 모델 내에서 고해상도 비디오를 제작하면서 얼굴의 랜드마크, 감정, 포즈를 제어할 수 있는 기능을 지원하는 이 모델이 굉장히 매력적이라고 생각합니다.

고성능의 pretrained generator를 활용하여 고해상도 비디오를 만들면서, warping based model를 사용했기 때문에 얼굴의 identity 를 유지할 수 있는 점은 매우 큰 장점인 것 같습니다.

하지만 역시 오디오와 동기화된 입모양에 대한 학습이 다소 간단한 loss 로 이루어져 있어 싱크로율이 아직은 아쉬운 것 같습니다.

Refrerences

[1] Gururani et al., ‘SPACE : Speech-driven Portrait Animation with Controllable Expression’, 2022

[2] Prajwal et al., ‘A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild’, ACM Multimedia 2020

[3] Zhou et al., ‘Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation’, CVPR 2021

[4] Zhou et al., ‘MakeItTalk: Speaker-Aware Talking-Head Animation’, Siggraph Asia 2020