[기술 소개]얼굴변환(2)
더빙 영상에 생명을 불어 넣는 ‘입모양 생성 기술’에 대해 알아보자!
Authors: Sungjoon Yoon, 이구행, Junhyeok Shin
들어가며
지난해 9월 넷플릭스의 오징어 게임이 전 세계적인 인기를 끌었습니다.
오징어 게임 공개 직후에 있던 할로윈데이에는 오징어 게임의 상징과도 같은 초록색 트레이닝복을 입거나 동그라미, 세모, 네모가 그려진 가면을 쓴 사람들이 거리에 넘쳐날 정도였는데요. 저도 네모 가면을 선물받아 재밌게 놀았던 기억이 있습니다.
오징어 게임이 선풍적인 인기를 끌던 가운데, 오바마 전 대통령의 연설문 작가인 Jon Lovett은 트위터에 글을 올렸습니다. “오징어 게임을 볼 때 자막 대신 더빙으로 본 사람이 많다더군요”
그리고나서 Jon Lovett은 트위터들을 대상으로 오징어 게임을 자막으로 보았는지, 더빙으로 보았는지 투표를 진행했습니다.
결과는 총 997명 중 18.1%인 180명만 더빙으로 오징어 게임을 봤다고 답변했습니다.
더빙이란 외국어로 제작된 영화, 드라마, 만화영화 등 영상 콘텐츠의 기존 음성을 제거하고, 성우가 영상에 맞는 다른 언어의 음성을 녹음하는 것을 말합니다.
자막을 읽기 위해서는 기본적인 독해 능력이 필요하기 때문에, 어린아이나 글을 읽는 것이 어려운 사람은 영화가 급박하게 진행되는 동안 자막을 같이 볼 여유가 없습니다.
이럴 땐 어쩔 수 없이 더빙 영상을 볼 수밖에 없죠. 어린이 대상의 영상 콘텐츠에 더빙 영상이 많은 이유입니다.
더빙을 하기 위해서는 자막 작업과 똑같이 우선 번역을 한 후, 이를 성우가 연기하고 녹음해서 다시 영상에 입히는 과정을 거쳐야 합니다.
이렇게 더 수고가 들어가고, 자막을 읽지 않아도 되어 영상에 더 집중할 수 있는데 왜 더빙 영상을 시청하는 사람이 자막 버전의 영상을 시청하는 사람보다 훨씬 더 적을까요?
더빙의 단점
사람들이 더빙 영상을 시청하지 않는 데는 크게 세 가지 이유가 있습니다.
첫 번째, 각 나라의 언어는 구조, 사용하는 단어나 숙어가 다르기 때문에 같은 의미라 하더라도 말의 길이가 다를 수 있습니다. 자막은 음성과 별개로 시각적으로 전달할 수 있지만, 더빙의 경우에는 원본 영상의 대사 길이에 맞춰 문장을 만들어야 하기 때문에 원작의 의미가 잘 전달되지 않기도 합니다.
두 번째, 연기한 배우와 더빙한 성우가 다른 사람이기 때문에 목소리 연기가 어색하게 느껴져 몰입을 방해할 수 있습니다.
세 번째, 배우가 대사를 말하는 입모양과 더빙한 음성에서 예상할 수 있는 입모양에 차이가 생기기 때문에 괴리감이 생긴다는 점이 있습니다.
오늘의 주제인 ‘입모양 생성 기술’을 이용하면 세 번째 문제를 해결할 수 있어 조금 더 자연스러운 더빙 영상을 만들 수 있습니다.
입모양 생성 기술 및 모델이란?
입모양 생성 기술은 sync가 맞지 않는 영상과 음성에 대해서, 영상 속 인물의 입모양이 음성에 맞도록 입모양을 생성하는 기술입니다. 최근에는 입모양 생성을 위해 딥러닝 모델을 많이 이용하고 있습니다.
입모양 생성을 위한 딥러닝 모델의 간략한 프로세스는 다음과 같습니다.
- 이미지와 음성을 각각의 독립된 encoder에 통과시켜 latent space로 feature embedding 합니다.
- embedding된 두 feature를 적절히 fuse 한 뒤 fuse된 feature를 decoding 하여 최종 음성에 맞는 이미지를 만듭니다.
이를 자세히 살펴보면 먼저 음성 신호를 읽어오는데, 시간 영역에서는 음성의 특징(발음, 음색 등)을 추출하고 분석하기 어렵기 때문에 주파수 영역으로 음성 신호를 변환해 줍니다. FFT(Fast Fourier Transform)를 이용하면 음성 신호를 빠르게 주파수 영역으로 바꿔 줄 수 있고, 각 주파수 성분을 이용해 신호 분석을 쉽게 할 수 있습니다.
하지만 FFT는 시간에 대한 정보가 없기 때문에, 시간축으로 구간을 짧게 나누어 FFT를 수행합니다. 그 후 magnitude 축으로 log 스케일을 취해서 spectrogram을 만들고, frequency 축으로 mel 스케일*을 적용해 최종적으로 mel-spectrogram을 만듭니다.
(*mel 스케일 : 사람은 저주파수 대역의 소리에 더 민감하기 때문에, 사람이 인지하는 차이를 고려하여 만든 눈금)
이렇게 만든 mel-spectrogram과 얼굴 이미지를 각각 audio encoder와 face encoder에 넣어 feature를 추출합니다.
audio encoder와 face encoder는 모두 여러 층의 convolution layer로 이루어져 있습니다.
음성에 맞는 입모양 영상을 만들기 위해서, 추출한 feature 정보들을 적절하게 fuse 하는 과정이 필요한데, 간단하게는 두 feature를 채널 축으로 concatenation 하는 방법이 있습니다.
이제 음성과 영상 정보가 모두 포함된 fuse 된 feature를 face decoder에 넣어 최종적으로 음성에 맞는 입모양을 가지는 이미지를 만들게 됩니다. 이때, face encoder 중간중간에 face decoder로 정보를 보낼 수 있는 skip connection을 두어 decoder가 원본 얼굴의 정보를 최대한 활용할 수 있도록 하기도 합니다. 이렇게 만들어진 얼굴을 정답 얼굴과 비교하여 모델을 학습합니다.
또한, 많은 경우 discriminator 모델을 이용해 생성된 얼굴이 합성된 얼굴인지 아닌지 판별하도록 하여 자연스러운 얼굴이 생성되도록 합니다.
다른 언어로 더빙 되어 영상 속 인물의 입모양과 음성이 맞지 않는 영상에 입모양 합성 모델을 적용하면 이렇게 sync가 맞는 영상을 얻을 수 있습니다.
확실히 입모양 생성 모델을 적용한 영상을 볼 때 덜 어색하면서도 몰입감 있는 시청이 가능한 것 같습니다.
그러나 여전히 성우가 외국어 음성을 녹음해야 하는 번거로움이 있으며, 성우의 목소리와 실제 배우의 음색 및 연기톤 간에 괴리가 있다는 단점이 있습니다.
이러한 단점을 보완하여 배우의 음색, 연기톤, 감정을 그대로 다른 언어의 음성으로 변환하고, 변환된 음성에 맞는 입모양 생성까지 더해지면 클레온의 ‘자동 영상 더빙 솔루션’인 Klling이 됩니다!
마무리하며
최근 광고 모델, 쇼호스트 등 디지털 휴먼들의 활동 영역이 점점 넓어지면서, 보다 더 실제 인간처럼 활동할 수 있는 디지털 휴먼에 관심이 쏠리고 있습니다.
앞서 설명한 입모양 생성 모델은 더욱 ‘실제 인간’ 같고 자연스러운 디지털 휴먼을 생성하기 위한 가장 중요한 기술 중 하나라고 볼 수 있습니다.
클레온에서 입모양 생성 기술을 활용해서 만든 디지털 휴먼을 보여드리며 이번 글을 마치겠습니다.
이 영상은 풍석문화재단과 함께 도슨트로 제작한 AI 베토벤의 영상입니다.
AI 베토벤은 1장의 베토벤 그림과 베토벤에게 어울리게 제작한 가상 목소리를 이용해 만들어졌습니다. 사용자가 질문을 입력하면 질문에 맞는 답변을 적절한 표정으로 말하고, 입모양도 그 답변에 맞추어 움직입니다.
영상을 보시면 다양한 각 언어에 맞춰 자연스러운 입모양을 생성하는 것을 확인할 수 있습니다.
이처럼 입모양 생성 기술은 원하는 인물의 입모양을 음성에 맞춰 생성할 수 있어 영화 제작사, 교육 자료, 기업 홍보 등 다양한 영상에 적용될 수 있습니다.
클레온에서 입모양 생성 기술에 다른 기술들을 결합해 Klling과 같은 ‘자동 더빙 솔루션’을 만든 것과 같이, 입모양 생성 기술은 확장성이 높아 무궁무진한 이용 가치를 가지고 있는 기술입니다.
어떤 기술과 결합하면 유용한 서비스를 만들 수 있을지 생각해 보는 것도 좋을 것 같네요!
이상 입모양 생성 기술에 대한 글을 마칩니다.
다음 글도 기대해 주세요! :)