AI에서 ‘멀티모달’이 무엇이고 왜 중요할까?

Dongmin Choi

Published in

렛서 팀 블로그

5 min readAug 3, 2023

안녕하세요. 렛서의 최동민입니다.

이번 아티클에서는, 최근 AI 분야에서 많은 주목을 받고 있는 ‘멀티모달(multi modal)’에 대해 간략하게 정리하여 공유드리고자 합니다.

멀티모달이란?

‘멀티 모달’을 정리하기 앞서, 우선 ‘모달(modal)’이 무엇인지 한번 살펴보도록 하겠습니다. 여기서 ‘모달’이란 ‘모달리티(modality)’에 해당하며 ‘어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식’라는 뜻을 가지고 있습니다.

https://inlpcenter.org/nlp-submodalities-courtney/

예시를 통해 조금 더 쉽게 이해하면 어떤걸 눈으로 보고 인지하는 것은 시각(visual), 피부로 대상과 접촉하여 느끼는 것은 촉각(kinesthetic), 그리고 소리를 귀로 듣고 받아들이는 것은 청각(auditory) 모달리티에 해당합니다. 즉, 어떤 대상을 받아들이는 일종의 소통 형태 혹은 프로토콜이라고 이해할 수 있습니다.

AI에서 모달리티는 데이터의 종류 및 형태를 나타내며 일반적으로 이미지(computer vision), 자연어(NLP), 음성 등의 도메인으로 구분되어 일컬어집니다. 그렇다면 AI에서 특히 멀티모달이 중요한 이유가 무엇일까요?

AI 분야에서 멀티모달이 중요한 이유

불과 몇년 전까지만 해도 AI는 하나의 모탈리티만 입력으로 하는 ‘유니 모달(unimodal’)을 위주로 발전되어 왔습니다. 그 이유는 아직 하나의 모달리티만 고려하더라도 충분한 성능을 달성하지 못했으며 서로 다른 모달리티를 하나의 모델로 효과적으로 처리할 수 있는 기술이 부족했기 때문입니다.

그러나 많은 AI 연구 끝에 하나의 모달리티에 대해서는 딥러닝 기술이 일정 수준에 도달하여 괄목할 만한 성능을 보여주었으며, 자연스럽게 멀티모달 쪽으로 연구자들의 관심이 쏠리기 시작했습니다. 멀티모달이 중요한 이유는 기존 모델을 이용하여 여러 입력을 처리하기 위해서는 각 모달리티에 해당하는 개별 모델을 독립적으로 사용한 뒤에 최종 결과를 종합하는 식으로 판단을 내려야 했기에 데이터 간의 상호작용이나 상관성을 충분히 고려하지 못했기 때문입니다. 즉, 멀티모달 AI는 단순히 개별 모델로 여러 입력을 처리할 수 있다는 유용성 뿐만 아니라 모달리티 간의 정보를 교환하고 충분히 활용하여 시너지 효과를 낼 수 있다는 장점이 있습니다.

주목할 만한 멀티모달 AI 기술

1. CLIP

출처: https://towardsdatascience.com/clip-the-most-influential-ai-model-from-openai-and-how-to-use-it-f8ee408958b1

텍스트와 이미지 입력을 동시에 고려하여 멀티모달 AI의 본격적인 시작을 알린 CLIP은 현재까지도 핵심 기술로 손꼽힐 만큼 중요한 방법론입니다. 해당 방법론을 간단하게 정리하면, 서로 다른 모달리티인 이미지와 텍스트에서 얻어낸 정보가 하나의 특징 공간(feature space)에 존재하도록 학습하여, 결국 이미지에서 추출한 정보와 텍스트에서 추출한 정보가 유사해지도록 만드는 것을 목표로 합니다.

CLIP을 이용하면 텍스트 입력 만으로도 주어진 정보에 해당하는 이미지 정보를 얻어내어 활용할 수 있으며, 반대로 이미지 입력에서 원하는 텍스트 정보를 추출할 수 있습니다.

2. ImageBind

https://github.com/facebookresearch/ImageBind

Meta에서 올해 발표하여 많은 주목을 받았던 ImageBind는 하나의 모델로 6개의 입력(이미지, 텍스트, 오디오, 깊이맵, thermal, IMU)을 처리할 수 있어서 많은 주목을 받았습니다. 해당 모델의 이름에서부터 알 수 있듯이 이미지를 핵심 모달리티로 설정하여 모달리티 간의 다리 역할로 활용하였습니다. 6개의 모달리티를 동시에 활용하는 것이 아니라, ‘이미지 — 텍스트’, ‘이미지 — 오디오’, ‘이미지 — IMU’와 같이 이미지와의 유사성을 높이는 방법으로 학습을 하다보면 결국 6개의 모달리티에서 얻은 특징이 하나의 공간에 모이게 된다는 것을 보여주었습니다.

3. Meta Transformer

https://kxgong.github.io/meta_transformer/

불과 한달 전(2023년 7월)에 공개된 Meta Transformer는 하나의 모델로 12개의 입력을 처리할 수 있으며 이렇게 얻어낸 정보를 무수히 많은 프로젝트에 적용할 수 있음을 보여주어 화제가 되었습니다. 해당 모델은 각 모달리티에 해당하는 데이터를 연속된 시퀀스 형태로 변환하는 Tokenizer (Data-to-sequence tokenizer)를 적절히 학습하면 하나의 모델로 처리할 수 있음을 보여주었습니다. 또한 ImageBind에 비해 훨씬 많은 수의 모달리티를 처리할 수 있음과 동시에 개별 modality에서 최고 성능(state-of-the-art)을 달성한 모델들과 비슷한 성능을 보여주었습니다.

이번 아티클에서는 AI에서 멀티모달이 무엇이며 왜 중요한지, 그리고 해당 분야를 선도하고 있는 기술들에 대해 간략하게 정리해보았습니다. 멀티모달 AI에 관심있으신 분들께 도움이 되었기를 바랍니다 :)