AI 에이전트 제작기 1편
안녕하세요! 비트블루의 콘텐츠 디자이너 Mel입니다. 오늘은 비트블루에서 비개발자들이 모여 AI에이전트를 제작한 프로젝트에 대해 공유하려 합니다.
이 프로젝트는 비트블루의 오리지널 IP로 AI 에이전트를 만들면 좋겠다는 아이디어에서 시작되었습니다. 동시에, 급성장하는 AI 시장에 빠르게 합류하려는 전략적 목표도 있었습니다.
빠른 프로젝트 진행을 위해서 비개발자들이 어느 수준의 AI 에이전트를 만들 수 있을지 가늠하는게 필요했습니다. 우선 AI 에이전트를 만들기 위해 필요한 필수적인 기술 리서치를 진행했습니다. 요구되는 기술은 총 세 가지였는데요, 사고를 담당하는 AI 기술과 AI 에이전트의 외관을 구현하는 기술, 마지막으로 음성 생성 기술이 필요했습니다. 이렇게 필요한 요소들을 정리한 뒤, 다른 팀원들과 함께 AI 에이전트 제작 프로젝트를 본격적으로 시작하게 되었습니다.
AI 에이전트 개발 단계는 크게 3단계로 나눌 수 있었습니다.
1단계: 기본 아이덴티티 확립 (목소리, 외형, 설정 부여)
2단계: 실시간 스트리밍 시스템 구축
3단계: 인터랙티브 시스템 완성 및 송출
저는 1단계를 담당하게 되었고 AI 에이전트의 전반적인 외형 제작과 컨셉 부여 그리고 목소리 제작을 맡았습니다.
컨셉 & 외형
기존 있던 IP인 버튜버 버셀리를 질투하여 AI 버셀리가 직접 버튜버를 시작하게 되었다는 컨셉을 토대로 디자인했습니다. 기존의 버셀리의 컨셉을 변형시키고, 이미 있는 버셀리 모델을 조금 수정함으로써 제작 시간을 단축했죠.
외형 제작
3D 모델은 vroid 스튜디오를 이용해서 제작했습니다. 모델을 커스텀하면 자동으로 리깅이 적용되기 때문에 빠르게 제작할 수 있는 이점이 있었기 때문이죠. 파일 편집이 상업적으로 자유로운 것도 중요한 이유였습니다. 그리고 추후 AI 에이전트를 Unity에서 세팅할 것을 고려하여 Unity로 가져와서 3D 모델이 2D처럼 보일 수 있도록 툰쉐이더를 적용했습니다. 또한 머리카락에는 물리 시스템을 적용해서 자연스러운 움직임을 주고자 했습니다. 모션캡쳐 파일을 적용하여 모델의 모션도 잘 동작되는 걸 확인했습니다.
목소리
기존 버셀리가 녹화했었던 영상의 음성파일들을 코랩을 사용하여 음성을 학습시키고, 목소리 파일을 만들었습니다. 목소리 학습에는 diff-svc 모델이 사용되었는데요 diff-svc 모델은 딥러닝을 활용한 음성변환 모델로 자연스럽고 정밀한 음성변환을 제공하는 최신 SVC 모델입니다.
좋은 목소리 파일을 뽑아내기 위해서는 학습량이 많아야 합니다. 하지만 학습량을 늘리면 학습 시간이 늘어나는 단점이 있습니다. 그리고 학습 시간은 GPU 성능에 의존합니다. 그래서 구글의 GPU를 사용해 런타임 환경을 세팅해서 학습을 시키려고 했지만, GPU 사용량 제한이 있기 때문에 저희가 원하는 학습량을 처리하기에는 무리가 있었습니다. 결국 외부의 GPU를 사용하는 대신 로컬 GPU에 연결하는 방법으로 문제를 해결하고 고품질의 목소리 파일을 만들 수 있었습니다.
테스트를 위해 커버 곡 콘텐츠도 제작해 보았는데 꽤 자연스럽고 좋은 퀄리티의 결과물이 나왔습니다.
K-pop 뿐만 아니라 J-pop도 자연스럽게 소화할 수 있습니다.
이렇게 추출된 목소리 파일만 있다면 일본어 뿐만아니라 영어, 스페인어 등 다양한 언어로 커버 곡 제작이 가능합니다. 더 나아가서 AI 작곡 프로그램을 이용한다면 100% AI가 만들어낸 컨텐츠를 만들어낼 수 있겠죠?
외형과 목소리는 모두 준비되었으니 이제부터는 사고를 담당하는 AI를 AI 에이전트에게 심을 차례입니다. 2편에서는 마케터 Ashley가 더 흥미진진한 이야기를 들려줄 예정이니, 기대해 주세요!