LG의 오픈소스 AI, Exaone (엑사원 3.0) 정말 괜찮은가 — AI Network Arena 리서치

지난 7일, LG AI 연구원이 야심 차게 내놓은 “엑사원(EXAONE) 3.0”이 오픈소스로 공개되며 AI 업계의 큰 주목을 받고 있습니다.

AI 네트워크

Published in

AI Network_KR

12 min readSep 6, 2024

지난 7일, LG AI 연구원이 야심 차게 내놓은 “엑사원(EXAONE) 3.0”이 오픈소스로 공개되며 AI 업계의 큰 주목을 받고 있습니다.

한국어에 특화된 국산 AI LLM이 거의 없는 이 시점에서, 엑사원 3.0의 등장은 마치 LG가 한국 AI 생태계에 던진 거대한 도전장과도 같습니다.

하지만, LG의 이 야심 찬 AI 모델이 정말 기대에 부응할 만한 성능을 갖추고 있는걸까요? 아니면 그저 포장된 수치와 화려한 마케팅에 불과할까요?

현재 엑사원 3.0 LLM은 각종 언론에서 아래의 내용으로 극찬을 받고 있습니다.

이중 언어 능력: 한국어와 영어에 모두 능통하여 글로벌 및 로컬 용도로 사용 가능
특히, 한국어 성능 지표는 세계 최고 수준
고성능과 효율성 : 이전 모델보다 약 56% 빠르고, 72% 비용 절감
방대한 데이터 학습: 4,500만 건 이상의 논문 및 특허 데이터와 3.5억 장 이상의 이미지·텍스트 등의 전문 데이터를 활용하여 고품질의 학습
다양한 도메인 적응성: 다양한 산업에 적응할 수 있으며, 특정 비즈니스 요구에 맞춘 맞춤형 솔루션 제공

또한, LG AI연구원에서 발표한 EXAONE 기술 보고서에 의하면,

EXAONE 3.0 은 한국어와 영어 모두에서 동일 체급의 오픈 소스 모델에 비해 높은 성능을 보이고 있습니다.

특히, 한국어의 경우 엑사원 3.0 은 한국어에 특화된 언어 이해 능력을 평가하는 KoBEST 벤치마크에서 동급의 모든 오픈소스 모델을 앞서는 성능을 보였습니다. 또한, 평균 점수에서도 74.1점의 독보적인 1위를 차지했습니다.

하지만 화려한 수식어 뒤에 실제 성능은 어떨까요?

그간 AI 업계에서 쏟아졌던 수많은 ‘최고의 모델’이라는 주장들을 떠올리면, 이번에도 그저 또 하나의 과장된 홍보일 뿐일지, 혹은 진정한 경쟁력을 갖춘 모델인지 검증이 필요합니다.

이에 저희는, AI Network 거대한 GPU 자원과 생태계를 사용해 비슷한 체급의 다른 오픈소스 모델들과 정성적으로 성능 비교 및 검증을 해보았습니다.

먼저 GPT, Claude와 같은 Closed LLM이 아닌 오픈소스 LLM을 써야 하는 주된 이유는 크게 3가지가 있습니다.

자유로운 커스터마이징 및 최적화:
사용자가 자신의 필요에 맞게 자유롭게 수정하고 최적화할 수 있습니다. 특정 산업이나 비즈니스 요구에 맞춰 모델을 재학습시키거나 파인튜닝할 수 있어, 더 높은 성능을 발휘할 수 있습니다.
데이터 보안 및 프라이버시:
오픈소스 LLM은 로컬 환경에서 실행할 수 있어, 데이터를 외부 서버로 전송하지 않아도 됩니다. 이는 민감한 데이터를 다룰 때 보안과 프라이버시를 강화할 수 있는 큰 장점입니다.
독립성 및 온전한 데이터 소유권:
오픈소스 LLM을 사용하면 특정 벤더나 플랫폼에 종속되지 않고, 원하는 대로 모델을 배포하고 사용할 수 있는 제어권을 유지할 수 있습니다.

특히 기업의 기밀 문서, 소스코드, 혹은 개인 민감 정보가 담긴 데이터가 외부로 유출되면 기업의 핵심 경쟁 우위를 잃고, 법적 문제에 휘말리는 등 기업에 막대한 피해를 초래할 수 있습니다.

이러한 위험을 방지하기 위해 오픈소스 LLM을 로컬 환경에서 실행할 수 있다는 점은, 데이터 보안과 프라이버시 보호 측면에서 매우 큰 장점으로 작용합니다.

따라서 AI Network Arena 리서치팀은 다음 세 가지 기준에 따라 엑사원 3.0을 직접 사용해보고, 정성적 연구를 진행했습니다.

한국어, 한국의 정서 및 문화에 대한 이해도
기업 내부 문서를 참고한 문맥 이해 및 질문 답변 능력
코딩 보조 및 내부 생산성 향상을 위한 문제 해결능력

1. 한국어, 한국의 정서 및 문화에 대한 이해도

한국인들이 챗봇을 사용하기 위해서는 한국어를 얼마나 자연스럽게 구사하는가, 우리 정서와 문화에 대해서 얼마나 이해하고 있는지가 중요합니다. 외국인이랑 대화하는 것보다 한국인이랑 대화하는 게 훨씬 말도 잘 통하고 이해도 잘 되죠.

“점메추”

이에 엑사원과 비슷한 규모의 두 오픈소스 LLM 에게 **“점메추”**라고 물어봤습니다. “점심 메뉴를 추천”해 달라는 의미의 줄임말인데요,

Gemma 2.9B 나 Llama3.1 8B 모델은 이 줄임말의 의미를 전혀 파악하지 못하고 문맥에 벗어난 답변을 하는 반면에 EXAONE 3.0은 “점메추”라는 한국어 줄임말을 정확히 이해하고, 이에 맞는 적절한 점심 메뉴를 추천해주고 있습니다.

“군대가는 동생에게 편지를 적어주세요”

엑사원 3.0, Gemma 2 9B, Llama 3.1 8B 모델에게 “군대가는 동생에게 편지를 적어주세요”라고 물어봤습니다. 이러한 질문에 대해 EXAONE 3.0 은 공감하는 언어를 사용하며 한국인의 정서에 군대가 어떤 의미인지를 내포하는 말을 하고 있지만, 나머지 모델들은 “군대”라는 특수한 맥락을 잘 이해하지 못하거나 편지를 쓰는 대상을 헷갈리는 등 상대적으로 부족한 성능을 보였습니다.

이러한 예시들을 봤을 때, 엑사원은 한국의 문화, 줄임말, 정서 등을 가장 잘 이해하는 오픈소스 LLM이라고 볼 수 있습니다.

2. 기업 내부 문서를 참고한 문맥 이해 및 질문 답변 능력

기업 환경에서는 내부 기밀과 민감 정보의 보안이 매우 중요합니다. 이러한 정보가 외부로 유출되는 것을 방지하기 위해, 기업들은 자체 서버에서 실행할 수 있는 Local AI 모델을 선호합니다.

따라서 실제 기업 환경에서의 활용 가능성을 검증하기 위해, AI 모델이 기업 내부 문서를 얼마나 정확하게 이해하고 관련 질문에 적절히 답변할 수 있는지 평가해보았습니다.

“1990년 민법 개정에서 친족의 범위는 어떻게 변경되었나요?”

엑사원 3.0 과 Gemma 2.9B 모델에게 A4 2–3장 분량의 법률 관련 문서를 주고, “1990년 민법 개정에서 친족의 범위는 어떻게 변경되었나요?” 라고 자문을 구해보았습니다.

두 모델 모두 “부계, 모계 동일하게 8촌 이내의 혈족과 4촌 이내의 인척으로 변경되었다”는 정보를 주고 있으나, Gemma 2.9B 모델에 비해 EXAONE 3.0 이 더 구체적이고 자세한 정보를 제공하는 것을 확인할 수 있었습니다.

“보고서에서 언급된 네트워크 분석의 주요 목적은 무엇이며, 이를 통해 기업은 어떻게 마케팅 전략을 강화할 수 있습니까?”

엑사원 3.0과 Llama 3.1 9B 모델에게 기업의 데이터 기반 마케팅 관련 문서를 주고 해당 보고서에서 어떤 인사이트를 얻을 수 있는지 질문을 해 보았습니다. 두 모델 다 비슷하게 유용한 답변을 주었으나, EXAONE은 명확한 구조와 세부적인 설명을 통해 실질적인 마케팅 전략을 제시하는 데 강점을 보이는 반면, Llama 3.1 8B는 개념적인 설명에 더 치중하며, 상대적으로 간략한 내용을 제시하고 있는 것을 확인할 수 있었습니다.

해당 예시들을 통해, 엑사원은 기업 내부 문서를 업무에 활용할 경우, 훨씬 구체적이고 자세한 정보를 사용자에게 제공한다는 것을 알 수 있었습니다.

3. 코딩 보조 및 내부 생산성 향상을 위한 문제 해결능력

기업의 SW 코드는 독자적인 기술이자 중요한 자산입니다. 따라서 보안상의 이유로 이런 내부 코드는 GPT와 같은 외부 AI 서비스에 노출시키기 어려운데요, 이때 로컬에서 실행 가능한 AI 모델은 보안을 유지하면서도 내부 개발자들의 코딩 생산성을 높일 수 있어 유용합니다. 이러한 관점에서 코딩 관련 실제 대화 몇 가지를 비교해보겠습니다.

“해당 오류를 해결하는 방법을 알려주세요”

엑사원 3.0 과 Gemma 2.9B 모델에게 에러 코드를 주고 원인을 파악하게 했습니다.

EXAONE 3.0은 좀 더 구체적이고 실질적인 예외 처리 방법을 제시하며, 실제 코드 예시와 함께 사용자에게 개선 방법을 제공합니다. 반면, Llama3.1 8B는 일반적인 오류 원인 파악과 그 해결 방법에 대한 지침을 제공하지만 직접적인 수정 방법이나 예외 처리 방법에 대해서는 구체적인 안내를 하지 않는 것을 확인할 수 있었습니다.

“지속적인 통합(CI) 파이프라인에서 빌드 시간을 단축할 수 있는 방법을 간단히 설명해주세요”

엑사원 (EXAONE 3.0)은 CI 파이프라인 최적화에 대해 더 자세하고 실용적인 접근법을 제시합니다. 단계별로 구체적인 방법을 설명하여 실제 적용이 쉽도록 돕고 있죠. 반면 Gemma 2.9B는 큰 그림을 잘 보여줍니다. 구체적인 실행 방안보다는 큰 틀에서의 전략을 제공하는 데 중점을 두고 있습니다. 결국, 구체적이고 실용적인 해결책이 필요한 상황에서는 EXAONE 3.0이 더 효과적인 선택이라고 할 수 있습니다.

두 예시를 통해, 엑사원 3.0 이 다른 오픈소스 모델들에 비해 더 구체적이고 실무적인 대답들을 제공한다는 것을 알 수 있었습니다.

LLM Judge를 활용한 검증

저희는 엑사원 3.0 의 성능을 더 구체적으로 검증하기 위해 Gpt-4o를 활용하여 비슷한 규모 오픈소스 LLM인 EXAONE 3.0, Gemma 2 9B, Llama 3.1 8B 모델들의 답변을 총 5점으로 스코어링 하였습니다.

문서 기반 질문 8개와 코딩 기반 질문 8개, 총 16개의 질문에 대한 오픈소스 LLM 의 답변을 분석 해본 결과,

엑사원 3.0 이 5점 만점에 4.75로 가장 높은 평균점수를 기록한 것을 확인할 수 있었습니다.

문서기반 질문들과 코딩 기반 질문들 모두 엑사원 (EXAONE 3.0)이 높은 평균 점수를 기록하며, 동일 체급 타 오픈 소스 대비 높은 성능을 보여주었습니다.

결론

위 3가지 기준에 따라 직접 사용해보고 LLM Judge(GPT-4o)를 사용해 정성적으로 평가한 결과, LG EXAONE 3.0 모델은 한국어, 한국의 정서 및 문화에 대한 이해가 뛰어나고, 동일 규모의 오픈소스 모델과 비교했을 때 주어진 문제를 이해하고 해결하는 능력이 뛰어난 것으로 보였습니다.

따라서 현시점에서 한국어 오픈소스 LLM을 써야한다면,

“엑사원을 사용하지 않을 이유가 없다.”

라고 생각합니다.

더 나아가 Chat GPT, Claude 등 Closed sourced 모델과의 성능 비교 및 엑사원의 다양한 분야로의 확장성도 기대됩니다.

국산 LLM의 가능성을 보여주면서 AI 생태계의 발전을 위해 모델을 오픈소스로 공개한 LG AI reseach LLM 개발팀에게 박수를 보냅니다.

P.S. LG vs 삼성 어디가 더 좋아?

번외로 SNS에서 화제가 되었던 엑사원의 답변이 있습니다.

“LG vs 삼성 어디가 더 좋아?” 라는 답변에 “LG 전자가 더 좋다”라고 답했다는 것인데요

한 기업에 종속되어 만들어진 모델이다보니 특정 기업에 대한 편향(bias)가 있는 것이 아닌지에 대한 우려도 많아 이를 확인하기 위해 여러 방식으로 질문을 해보았습니다.

확인해 본 결과, LG OpenSource LLM이 화제가 되는 만큼 편향된 답변을 내뱉지는 않는 것으로 나타났습니다 😂

본 모델 리뷰는 AI Network의 혁신적인 Web3 AI 탈중앙화 GPU 클라우드 생태계를 기반으로 작성되었습니다.

https://gpu.ainetwork.ai/create-instance

AI Network GPU Cloud Service(링크)에서 엔비디아 A100 GPU를 전세계 최저가에 대여할 수 있습니다.

A100 GPU 40G → $0.99/h
A100 GPU 80G → $1.432/h
강력한 Web3 AI 생태계를 바탕으로 개발되고 있는 AI 네트워크는 GPU 자원이 필요한 개발자나 스타트업에 탈중앙화 DAO를 통해 가장 저렴한 가격으로 GPU를 제공하고 있습니다.

지금 바로 AI Network 생태계에 참여하여 미래의 AI를 함께 만들어가세요!

AI Network는 블록체인 기반의 탈중앙화된 AI 개발 생태계입니다. GPU 제공자는 공유 GPU에 대한 $AIN 토큰을 보상받을 수 있고, 개발자는 공유받은 GPU로 오픈소스 AI 프로젝트를 개발하고, 크리에이터는 AINFT로 AI 기반의 창작 활동을 펼칠 수 있습니다. AI Network 생태계 안에서 누구나 쉽게 AI를 개발하고 활용할 수 있는 AI를 위한 Web3 시대를 만들어 갑니다.

AI Network 홈페이지: https://www.ainetwork.ai

AI Network DAO Discord: https://discord.com/invite/aindao/

AI Network YouTube: https://www.youtube.com/@ainetwork_ai/

AI Network Facebook: https://www.facebook.com/ainetworkofficial

AI Network Twitter: https://twitter.com/ainetwork_kr

LG의 오픈소스 AI, Exaone (엑사원 3.0) 정말 괜찮은가 — AI Network Arena 리서치

지난 7일, LG AI 연구원이 야심 차게 내놓은 “엑사원(EXAONE) 3.0”이 오픈소스로 공개되며 AI 업계의 큰 주목을 받고 있습니다.

1. 한국어, 한국의 정서 및 문화에 대한 이해도

2. 기업 내부 문서를 참고한 문맥 이해 및 질문 답변 능력

3. 코딩 보조 및 내부 생산성 향상을 위한 문제 해결능력

LLM Judge를 활용한 검증

결론

P.S. LG vs 삼성 어디가 더 좋아?

Written by AI 네트워크