Visual ChatGPT와 LangChain 도입기

Corca

Published in

Corca

7 min readMar 15, 2023

Written by 이태호 (Tech Lead)

4일 전에 Microsoft에서 Visual ChatGPT를 발표했습니다.

해당 기술을 사용해서 사내 챗봇에 빠르게 도입해 본 경험을 공유합니다. 말로만 대답하던 챗봇이 구글 서치, 이미지 인식, 이미지 생성까지 되는 챗봇이 되었습니다!

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

ChatGPT is attracting a cross-field interest as it provides a language interface with remarkable conversational…

arxiv.org

GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing…

Visual ChatGPT connects ChatGPT and a series of Visual Foundation Models to enable sending and receiving images during…

github.com

Visual ChatGPT는 ChatGPT가 반환할 수 있는 output의 타입을 text에서 image로 확장시킬 수 있는 방법입니다. 더 이상 text만을 반환하는 것이 아닙니다. 필요하다면 직접 그림을 그려줄 수 있게 됩니다.

이미지 생성뿐만 아니라 이미지 수정 및 삭제도 가능합니다!

이런 것들은 당연하게도 ChatGPT가 하는 것이 아닙니다. 다만 ChatGPT에게 우리가 갖고 있는 도구들을 설명해 주면 적절한 도구를 선택할 수 있습니다.

적절한 도구 선택 방법

ChatGPT에게 도구를 주고 도구를 선택하게 하는 방법을 ‘LangChain’이라고 부릅니다.

“이순신의 출생년도를 구하고 거기에 제곱을 해줘” 라고 했을 때, 아무 도구 없이 정답을 바로 말할 수 있는 사람이 얼마나 될까요?

당연히 다음 프로세스를 거쳐 정답을 알아낼 것입니다.

1. 이순신의 출생년도를 구글에 물어본다.
2. 나온 숫자를 계산기에 넣어서 제곱한다.

여기서 사람의 능력은 각각의 프로세스를 할 수 있는 것이 아니라 적절한 도구에게 위임하는 것이 핵심 포인트입니다.

Visual ChatGPT도 마찬가지입니다. 고양이 이미지를 생성해달라고 했을 때는 이미지 생성 모델에게, 고양이 이미지를 수정해달라고 했을 때는 이미지 수정 모델에게 부탁하는 것입니다.

그렇기에 스스로 활용 가능한 도구들을 명확히 알고 있습니다.

해당 도구들은 Vision 분야에서 인정 받고 있는 모델들입니다. 해당 모델들을 Visual Foundation Model이라고 부릅니다.

사용 가능한 도구 알려주기

원하는 목적을 달성하기 위해 사용해야 하는 도구를 어떻게 사람에게 알려줄까요?

“구글에 검색하면 너가 모르는 정보들이 나와.”
“복잡한 연산은 계산기에 물어보면 나와.”

라고 알려줍니다.

ChatGPT도 마찬가지입니다. 프롬프트로 갖고 있는 도구와 해당 도구를 언제 사용해야 하는지를 알려주면, Visual ChatGPT는 적재적소에 알맞은 도구를 사용하게 되죠.

이미지 생성뿐만 아니라 아래처럼 검색도 가능합니다. 서래향은 ChatGPT가 만들어낸 가상의 음식점이 아닌 정말 실존하는 음식점입니다.

재귀적인 도구 사용

또한, 한 번에 하나의 도구를 사용하는 것이 아니라 재귀적으로 도구를 사용할 수 있습니다.

Olivia Wilde의 남자친구가 누구인지,

그의 나이는 얼마인지,

거기에 0.23승을 곱하면 얼마인지

재귀적으로 계산하여 위처럼 계산을 해줍니다. 실제로도 정확히 맞는 답이죠.

오르카봇 적용기

코르카에는 ‘오르카봇’이 있습니다. 기존에는 GPT-3 API에 붙어서 대답해 주던 챗봇이었죠.

사람들이 점심시간에 밥 먹을 곳이 필요할 때 항상 허구의 음식점만을 대답하던 오르카봇, 이미지를 전혀 이해하지 못하는 오르카봇.

이 오르카봇에게 새로운 기술을 통해 업그레이드해줘야겠다 결심했습니다.

개발은 다음 순서로 진행하였습니다.

1. Visual ChatGPT를 Fast API를 통해 사내 서버에 띄워두었습니다. (RTX 3090 2대 사용)
2. 오르카봇 백엔드에서 Visual ChatGPT에게 물어보는 서비스 로직을 구현했습니다.
3. 해당 서비스와 연결되어 있는 컨트롤러에 슬랙 멘션 이벤트 핸들러를 붙였습니다.

이제는 진짜 존재하는 음식점을 추천해주며, 이미지를 이해하여 대답해주고, 새로운 이미지를 만들거나 수정까지 해주는 오르카봇이 되었습니다!

프로틴 보충제를 물어보기도 하고, 다람쥐 이미지를 그리기도 하고, 삼성동 근처에서 먹을만한 스시집을 물어보기도 하죠.

오르카봇은 블로그에서도 몇 차례 소개 드렸는데요, 아래 글에서 확인하실 수 있습니다!

Hello 코르카, Hello 오르카봇

코르카 온보딩봇, 오르카봇을 소개합니다

medium.com

오르카봇 개발기: 개발자의 시선 (1편)

코르카 bob봇의 탄생과 변천사

medium.com

결론

1. 지금까지 text에만 제한적이던 ChatGPT가 LangChain과 Visual Foundation Model의 결합을 통해 image를 인식하고, 만들어줍니다!
2. LangChain을 통해 ChatGPT가 허구가 아닌 진실된 답변을 합니다. 모르면 구글링을 해서 알려줍니다!

앞으로는 이런 것들을 더 진행할 예정입니다.

최근에 나온 ToolFormer도 이런 도구 선택 방법에 대한 연구라고 합니다. 해당 논문을 읽어보고 오르카봇에 적용해보고 싶습니다.
gpt_index 라고 하는 기술이 있습니다. Database에 있는 내용들을 미리 인덱싱해서 저장해두고 그곳에서 정보를 찾아서 대답해 주는 거죠. Google Search를 내부 Database 안에서 할 수 있는 개념입니다. 이것 또한 적용해보고 싶습니다.
지금까지의 대화 내역을 저장할 때 단순히 텍스트로만 저장합니다. 하지만 사람이 대화 내용을 기억할 때 추상적인 내용들로 변환하여 저장하듯이 오르카봇도 그랬으면 좋겠습니다. 대화 내역을 더 정확하게, 동시에 더 작은 메모리로 기억할 수 있을 것입니다.

최신 기술로 업데이트 된 오르카봇을 다시 소개할 날을 기다려주세요!

우리가 살아가는 세상을 AI 기술로 변화시키는 팀 Corca는 고도화된 기술력과 기획력을 토대로 새로운 가치를 창출하고 있습니다.
Corca의 여정에 함께하실 분들은 corca.team 페이지를 확인해주세요!

Cruise with Corca!

우리가 살아가는 세상을 AI 기술로 변화시키는 팀, Corca

corca.team