자연어에 이어 이미지도 이제 초거대 AI의 독점 시작?

Published in

렛서 팀 블로그

5 min readAug 3, 2023

안녕하세요, ‘렛서’의 AI 연구원 & 엔지니어 최동민입니다.

ChatGPT의 등장 이후로 대규모 언어 모델(Large Language Model, LLM)은 뜨거운 감자가 되어 AI 트렌드를 독점하기 시작했습니다. ChatGPT, LLaMa 등의 초거대 AI는 기존 모델들을 압도적으로 뛰어넘는 성능을 보였으며, 거의 모든 분야에 접목되어 다양한 서비스에 활용되고 있습니다. 대규모 언어 모델이 가져온 충격은 AI 연구자와 엔지니어에게만 국한되지 않고, 순식간에 대중들에게도 번져나가 이제 어딜가도 ChatGPT에 대한 이야기는 빠지지 않게 된 것 같습니다.

이와 달리 이미지와 비디오를 해석하고 영상 속 개별 물체를 분류하거나 인식하는 컴퓨터 비전 분야는 비교적 초거대 AI의 독점에서 자유로웠습니다. 이러한 상황에 대해 ‘렛서 3월 리포트’에서 저희 팀은 이미지 분석도 곧 대규모 비전 모델을 필두로 한 AI가 세부 분야에 활용되는 방식이 하나의 흐름으로 자리할 것이라 예상하였습니다. 그러던 중 이틀 전인 4월 5일, Meta AI에서 공개한 Segment Anything Model(SAM)을 보며 그 생각이 점차 현실로 다가오기 시작했다는 것을 깨달았습니다.

아래 링크를 통해 각종 데모를 직접 확인해보세요.

https://segment-anything.com/

프롬프트 기반의 객체 분할

프롬프트 엔지니어링은 대규모 언어 모델과 함께 많은 주목을 받고 있으며, 이로 인해 ‘프롬프트 엔지니어’라는 새로운 직업이 생겨나기까지 했습니다.

SAM은 대규모 언어 모델들이 사용자 프롬프트를 바탕으로 놀라운 자연어 처리 성능을 달성한 것에 영향을 받아, 이미지 인식 과정에서도 프롬프트를 적극적으로 활용하고자 시도한 AI입니다. (@심규현 님께서 이전 글에서 소개해주신 Interactive AI의 확장판 & 현 시점 끝판왕이라고 볼 수 있습니다.)

이와 같이 이미지와 함께 제공받은 사용자 입력을 추가로 활용하여 원하는 물체를 분할(segmentation)하는 작업을 promptable segmentation이라는 새로운 용어로 정의하였습니다.

SAM은 어떤 종류의 사용자의 입력을 받을 수 있을까요?

SAM은 무려 4종류(점, 박스, 대충 그린(rough) 마스크, 그리고 텍스트)의 사용자 입력을 받을 수 있으며, 이를 하나의 모델로 처리할 수 있다는 유연성이 있습니다. 위 그림 예시처럼, (1) 원하는 고양이 위에 점을 찍거나, (2) 주위를 둘러싸는 박스를 그리거나, (3) 해당 영역을 대충 간단히 그려주거나, (4) 특징을 나타내는 텍스트를 입력으로 제공하여 원하는 마스크를 얻을 수 있습니다.

SAM의 성능이 어느정도길래? 또 뭐가 다르길래?

SAM의 등장 이후로 각종 AI 커뮤니티는 SAM의 놀라운 성능에 대한 이야기로 시끌시끌합니다. 기존에 AI 모델이 객체 분할 작업은 굉장히 잘 해왔는데, SAM은 왜 이렇게 주목을 받고 있는 것일까요?

그 이유는 새로운 이미지 분포와 물체 종류에도 높은 분할 성능을 보이는 zero-shot generalization 능력 때문입니다. 기존의 객체 분할 모델은 학습 데이터에 매우 의존적이기 때문에 학습 과정에서 접하지 못한 형태의 이미지가 주어지면 성능이 확연히 떨어지게 됩니다. 하지만 SAM은 이와 상황에 견고(robust)하여 다양한 형태의 이미지가 주어져도 비교적 정확하게 물체를 구분해낼 수 있다는 장점이 있습니다.

아래는 300개 이상의 물체가 존재하는 이미지에 대한 SAM의 분할 결과입니다. 특히 500개 이상의 물체가 존재하는 마지막 열에 주목해보면, 놀라울 만큼 많은 양의 물체를 잘 구분해내고 있다는 것을 확인할 수 있습니다. 만일 사람이 직접 모든 물체에 대한 마스크를 그린다면 굉장한 시간과 노력이 필요할 것입니다.

위와 같이 SAM이 높은 성능을 달성할 수 있었던 비결은 프롬프트의 활용도 있지만 엄청나게 큰 데이터셋을 바탕으로 학습된 점도 있습니다. Meta가 SAM 학습에 사용한 데이터셋인 ‘SA-1B’는 약 1,100만개의 이미지에 대한 10억개 가량의 물체 마스크로 구성되어 있습니다.

SAM이 미칠 영향은?

그렇다면 SAM은 앞으로 우리에게 어떤 영향을 주게 될까요? SAM을 활용할 수 있는 분야는 무궁무진하겠지만, 저는 우선적으로 ‘학습 데이터 구축 과정의 간소화’가 떠오릅니다.

이미지 라벨링 중 특히 객체 분할(segmentation)을 위해 마스크를 그리는 과정은 개별 픽셀 마다의 물체 정보가 필요하기 때문에 굉장히 번거로우며 많은 시간을 요구합니다.

앞으로 학습 데이터 구축 과정에서 SAM을 이용하면, 사용자가 물체 하나하나를 직접 그릴 필요 없이 SAM이 분할한 결과를 바탕으로 원하는 물체를 선택만 하거나, 물체에 대한 간단한 설명을 텍스트로 입력하는 방식의 효율적인 라벨링이 가능해집니다.

즉, SAM을 통해 얻은 마스크를 초기 결과로 이용하여 학습 데이터 구축의 전반적인 비용을 줄임으로써 더욱 빠르게 원하는 AI 모델을 학습하여 활용할 수 있습니다.

또한 SAM은 텍스트 프롬프트도 처리할 수 있기 때문에 Stable Diffusion이나 ChatGPT와 같은 다양한 모델과 결합하여 활용될 가능성이 무궁무진합니다. 앞으로 어떤 창의적인 프로젝트들이 쏟아질지 기대되네요!

자연어에 이어 이미지도 이제 초거대 AI의 독점 시작?

프롬프트 기반의 객체 분할

SAM은 어떤 종류의 사용자의 입력을 받을 수 있을까요?

SAM의 성능이 어느정도길래? 또 뭐가 다르길래?

SAM이 미칠 영향은?

Written by Dongmin Choi