[기술 소개] 헤드 스왑 (1)

Hah Min Lew

Published in

KLleon

10 min readMay 30, 2023

눈코입을 넘어 전체 머리를 통으로 바꿔보자!

작성자 (Author): 류하민 (Hah Min Lew)

들어가며 (Introduction)

안녕하세요! 클레온 연구팀입니다 😀

앞으로 이 시리즈를 통해 클레온에서 새롭게 출시 준비 중인 신기한 기술 하나를 소개해드리고자 합니다.

바로 헤드 스왑 (Head Swapping)이라는 기술입니다.

본 시리즈가 저희 신기술을 포함한 관련 연구들의 이해에 도움이 되었으면 합니다.

이번 편에서는 기술의 관련 배경들에 대해서만 설명하겠습니다.

배경 설명 (Related works)

1. 헤드 스왑 (Head Swapping)

출처: Few-shot Head Swapping in the Wild (CVPR, 2022)

헤드 스왑이란 위의 그림처럼 목표하는 대상 (Target)의 머리를 원하는 대상 (Source)의 머리로 교체하는 기술입니다.

기존의 Deepfacelab이나 StylePoseGAN이 제한적으로 헤드 스왑의 가능성을 제시하기는 했지만 많은 자원을 필요로할 뿐만 아니라 결과물의 퀄리티 역시 매우 떨어진다는 단점이 있었습니다.

따라서 본격적으로 헤드 스왑 기술에 대한 연구가 진행되어 세계 최고 Computer Vision 학회 중 하나인 CVPR (Computer Vision and Pattern Recognition)에서 2022년도에 처음 게재된 바 있습니다.

하지만 단순하게 Source로부터 머리를 떼어내서 Target으로 붙여넣기를 한다면 자연스러운 결과물을 기대할 수는 없는데요.

그 이유는 다음과 같습니다.

Source의 머리 Pose 및 Facial Expression이 Target과 다르다. (Face Reenactment, Neural Talking Head Synthesis)
Source의 고유한 피부색과 Target의 피부색이 다르다. (Color Transfer)
Source와 Target의 머리 모양이 다르기 때문에 Target의 머리 부분을 없애고 Source의 머리를 붙여넣을 경우 헤드 스왑 이미지의 목과 배경 부분에 빈 틈이 발생한다. (Inpainting)

따라서 위와 같은 2 Stage 네트워크 구조를 통해 먼저 Source의 머리를 Target의 머리와 align시키고, Color Transfer와 Inpainting을 동시에 수행할 수 있는 네트워크를 설계하여 성공적인 헤드 스왑 결과를 얻을 수 있었습니다.

위의 결과를 비교해보면 기존 기술을 활용한 헤드 스왑 결과나 얼굴 변환 결과보다 더 자연스러우면서 Source의 Identity가 더 잘 보존된 것을 확인할 수 있습니다.

다시 정리하자면, 헤드 스왑을 하기 위해서는 일반적으로 먼저 얼굴 재연 (Face Reenactment 혹은 Neural Talking Head Synthesis)을 하고 Colorization과 Inpainting을 할 수 있는 네트워크를 통해 변환해야 합니다.

그렇다면 헤드 스왑과 얼굴 변환의 차이는 무엇이기에 헤드 스왑이 필요한 것일까요?

또 헤드 스왑을 위해 꼭 필요한 얼굴 재연이란 무엇일까요?

2. 얼굴 변환 (Face Swapping)

얼굴 변환이란 쉽게 말해 딥러닝 모델을 활용하여 Target의 얼굴에 Source의 이목구비 (눈코입)를 자연스럽게 녹여내는 기술입니다!

그렇기 때문에 전세계 대다수의 디지털 휴먼 기업들이 공통적으로 사용하고 있는 기술이죠.

관련 기술에 대한 논문과 Open source 코드가 매우 많기 때문에 기술에 대한 연구 개발 접근성이 쉽다는 장점이 있습니다.

하지만 다음과 같은 치명적인 단점들이 존재합니다.

대상 얼굴의 얼굴형을 바꿀 수 없다.
원하는 얼굴의 헤어 스타일을 반영하지 못한다.

그렇기 때문에 유저들은 내가 만든 디지털 휴먼이 내가 원하는 얼굴과 닮지 않았다고 느끼게 됩니다.

출처: MIT News, An optimized solution for face recognition, **Jennifer Michalowski**, https://news.mit.edu/2022/optimized-solution-face-recognition-0406

잘 생각해보면 사람은 얼굴형, 광대의 위치, 눈코입의 모양, 헤어 스타일 등 다양한 “머리 전체" 요소들을 복합적으로 고려하여 특정 사람을 인식합니다.

따라서 단순히 눈코입만 바꾸는 정도로는 만족할만한 디지털 휴먼을 만들 수 없습니다!

물론 이러한 이유들로 인해 얼굴형까지 바꾸려고 노력했던 연구자들의 다양한 시도가 있었지만, 여전히 얼굴 변환의 결과에서 대상 얼굴의 요소를 완벽히 없애는 것에는 어려움을 겪고 있습니다.

이러한 현상을 학계에서는 Identity leakage라고 합니다.

3. 얼굴 재연 (Face Reenactment, Neural Talking Head Synthesis)

해리포터를 보면 마법을 통해 신문 기사의 사진이 동영상처럼 움직여서 정보를 전달합니다.

이런 마법과 같은 일도 딥러닝 기술을 활용하면 가능합니다!

출처: First Order Motion Model for Image Animation (NeurIPS, 2019)

얼굴 재연이란 생성형 AI를 통해 Target (혹은 Driving)의 움직임을 다양한 방식으로 분석 혹은 예측하여 Source가 같은 움직임을 가질 수 있도록 하는 기술입니다.

추가로 최신 기술들의 동향을 살펴보면 Target 영상이 따로 없더라도, 음성으로부터 바로 자연스럽게 말하는 움직임을 형성하기도 하고, 눈동자만 움직이거나 (Gaze), 눈을 깜박거리게 한다거나 (Blinking), 표정을 바꿀 수도 있습니다 (Expression).

출처: Motion Representations for Articulated Animation (CVPR, 2021)

출처: A Method for Animating Children’s Drawings of the Human Figure (*ACM Transactions on Graphics, 2023)*

사실 비슷한 원리로 얼굴 말고도 전신을 움직이거나 캐릭터를 움직이고, 어린 아이들이 그린 자기만의 캐릭터를 움직이게도 할 수 있죠!

이 기술을 기반으로 헤드 스왑에서 필요한 Source를 Target의 머리 Pose 및 Expression에 정렬하는 과정을 수행할 수 있습니다.

다음 이야기 (Conclusion)

**클레온 보유 헤드 스왑 기술 결과: (a) 이미지 단위 헤드 스왑 결과, (b) 영상 단위 헤드 스왑 결과**

지금까지 헤드 스왑 기술을 이해하기 위해 필요한 기존 기술들의 배경을 간략히 소개해드렸습니다.

그렇다면, Source의 눈코입을 넘어 머리를 통으로 Target의 머리와 “자연스럽게" 교체하려면 구체적으로 어떠한 기술들이 필요할까요?

참고로 헤드 스왑 결과물이 궁금하신 분들을 위해 미리 저희 기술의 결과 일부를 간단하게 첨부했습니다.

더 자세한 내용이 궁금하신 분들은 클레온 헤드 스왑 다음 시리즈를 기대해주세요!

지금까지 긴 글 읽어주셔서 감사합니다 😀

출처 (References)

Shu, Changyong, et al. “Few-shot head swapping in the wild.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
Perov, Ivan, et al. “DeepFaceLab: Integrated, flexible and extensible face-swapping framework.” arXiv preprint arXiv:2005.05535 (2020).
Sarkar, Kripasindhu, et al. “Style and pose control for image synthesis of humans from a single monocular view.” arXiv preprint arXiv:2102.11263 (2021).
Wang, Yuhan, et al. “Hififace: 3d shape and semantic prior guided high fidelity face swapping.” arXiv preprint arXiv:2106.09965 (2021).
Kim, Jiseob, Jihoon Lee, and Byoung-Tak Zhang. “Smooth-swap: a simple enhancement for face-swapping with smoothness.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
Na, Sanghyeon. “MFIM: Megapixel Facial Identity Manipulation.” Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XIII. Cham: Springer Nature Switzerland, 2022.
Siarohin, Aliaksandr, et al. “First order motion model for image animation.” Advances in Neural Information Processing Systems 32 (2019).
Siarohin, Aliaksandr, et al. “Motion representations for articulated animation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
Smith, Harrison Jesse, et al. “A Method for Animating Children’s Drawings of the Human Figure.” ACM Transactions on Graphics.

[기술 소개] 헤드 스왑 (1)

들어가며 (Introduction)

배경 설명 (Related works)

다음 이야기 (Conclusion)

출처 (References)

Written by Hah Min Lew