자연어 처리 문제 개관 — Understanding 관점 (2/2)

Hugman Sangkeun Jung
42 min readJul 12, 2024

--

(You can find the English version of the post at this link.)

이 글은 자연어처리(Natural Language Processing, NLP)의 여러 문제 형태를 다루는 시리즈의 3번째 글입니다. 앞서 우리는 NLP의 여러 문제가 크게 두 가지로 구분될 수 있음을 살펴보았습니다:

그 중에서도 특히 기반 언어모델의 ‘언어 이해 능력’을 평가하려는 분야는 비교적 최근에 많이 연구되고 있습니다.

본 글은 그러한 평가 기법들 중 거대언어모델들의 언어, 문화, 윤리 이해능력 및 실용적 기능등을 분류 및 생성형태를 포함하여 종합적으로 평가하려는 최근의 여러 시도들을 소개합니다.

본 글에서 다루는 전체 내용에 대해 간단하게 표와 그래프 형태로 정리해보면 아래와 같습니다.

거대언어모델의 평가 벤치마크들
거대언어모델 평가 벤치마크 종류와 데이터셋 (클릭하면 커집니다, Image by the author)

거대언어모델 평가 표준

최근 AI 기술의 급속한 발전, 특히 거대언어모델(Large Language Models, LLMs)의 등장으로 인해 이러한 모델들의 능력을 정확하고 포괄적으로 평가할 필요성이 대두되고 있습니다. 현재의 평가 표준들은 크게 다음과 같은 주요 영역으로 나눌 수 있습니다:

  1. 언어 처리 기본 능력
  2. 고급 인지 및 추론 능력
  3. 지식 기반 및 전문 영역 능력
  4. 사회적 상호작용 및 윤리적 판단 능력
  5. 다중 모달 및 실용적 응용 능력

이러한 평가 영역들은 단순한 언어 이해에서부터 복잡한 추론, 윤리적 판단, 그리고 실제 응용 능력에 이르기까지 LLM의 다양한 측면을 평가합니다.

이 중 1. 언어 처리 기본 능력의 일부에 대해서는 아래 글에서 자세하게 다루었습니다.

본 글에서는 고급 언어 처리 및 추론 능력에 대한 세부적인 평가 기준과 관련 벤치마크들을 소개합니다. 조금 더 상세 평가 종류를 살펴보면 :

  1. 고급 언어 처리 및 추론 능력
    - 상식 추론
    - 자연어 추론
    - 질문 응답
  2. 지식 및 추론 능력
    - Factual 지식
    - 수학 및 논리적 추론
    - 과학적 추론
  3. 맥락 이해 및 생성 능력
    - 대화 및 맥락 이해
    - 요약 능력
    - 창의적 글쓰기
  4. 윤리 및 가치 판단 능력
    - 윤리적 추론
    - 편견 및 공정성 판단
  5. 다중 모달 능력
    - 이미지-텍스트 이해
    - 오디오-텍스트 이해
  6. 실용적 작업 수행 능력
    - 코딩 및 프로그래밍
    - 복잡한 지시 따르기
  7. 메타인지 및 자기평가
    - 불확실성 인식
    - 지식의 한계 인식

등의 평가 항목 미 요소로 살펴볼 수 있습니다. 이 글에서는, 이러한 다양한 능력을 평가하기 위해 개발된 구체적인 벤치마크와 테스트들을 상세히 살펴볼 것입니다. 각 평가 영역에 대해 대표적인 벤치마크의 특징, 평가 방식, 그리고 그 중요성을 설명할 것입니다.

상식 추론

상식 추론은 LLM이 일상적인 상황에서 합리적인 판단을 내릴 수 있는지를 평가합니다. 이는 모델이 단순히 정보를 암기하는 것을 넘어, 실제 세계의 맥락을 이해하고 적용할 수 있는지를 테스트합니다.

COPA (Choice of Plausible Alternatives)

COPA는 인과관계 추론 능력을 평가하는 데이터셋입니다. 모델에게 하나의 전제와 두 개의 대안이 주어지며, 가장 그럴듯한 원인이나 결과를 선택해야 합니다.

전제: "소녀가 손을 씻었다."

선택지:
a) "그녀의 손이 깨끗해졌다."
b) "그녀의 손이 더러워졌다."


정답: a)

COPA (Choice of Plausible Alternatives)의 주요 특징:

  1. 인과관계 중심 추론: COPA는 주어진 상황의 원인이나 결과를 추론하는 능력을 평가합니다. 이는 단순한 사실 인지를 넘어 사건 간의 논리적 연결을 이해하고 추론할 수 있는 능력을 측정합니다.
  2. 이진 선택 방식: 두 가지 선택지 중 하나를 고르는 형식을 사용합니다. 이 방식은 모델의 판단력을 명확하게 평가할 수 있게 해주며, 평가의 객관성을 높이고 모델 간 성능 비교를 용이하게 합니다.
  3. 일상적 맥락과 다양한 도메인: 주로 일상생활의 상황을 다루지만, 물리적, 사회적, 심리적 인과관계 등 다양한 영역의 추론을 포함합니다. 이를 통해 모델의 일반적인 상식과 다양한 도메인에 대한 이해도를 종합적으로 평가합니다.

SWAG (Situations With Adversarial Generations)

SWAG는 주어진 상황에 대해 가장 그럴듯한 다음 상황을 예측하는 능력을 평가합니다. 이 테스트는 모델의 상황 이해와 예측 능력을 측정합니다.

상황: "한 남자가 침대에 누워있다."

선택지:
a) "그는 일어나 아침 식사를 준비한다."
b) "그는 계속 자면서 꿈을 꾼다."
c) "그는 갑자기 하늘을 날기 시작한다."
d) "그는 침대 밑으로 사라진다."

정답: LLM은 a)나 b)와 같은 더 그럴듯한 상황을 선택해야 합니다.

SWAG (Situations With Adversarial Generations)의 주요 특징:

  1. 상황 예측 능력 평가: SWAG는 주어진 초기 상황에 이어질 수 있는 가장 개연성 있는 후속 상황을 예측하는 능력을 테스트합니다. 이는 모델의 상황 이해력과 일상적인 사건의 흐름에 대한 추론 능력을 평가합니다.
  2. 다중 선택 형식: 네 가지 선택지 중에서 가장 적절한 것을 고르는 방식을 사용합니다. 이는 모델이 여러 가능성 중에서 가장 그럴듯한 것을 식별할 수 있는 능력을 측정합니다.
  3. 적대적 생성 포함: 선택지 중 일부는 의도적으로 비현실적이거나 부적절한 상황을 포함합니다. 이는 모델이 현실적인 상황과 비현실적인 상황을 구분할 수 있는지 평가합니다.

HellaSwag

HellaSwag는 SWAG의 확장 버전으로, 더 어렵고 다양한 상황을 포함합니다. 이 테스트는 모델의 상식과 맥락 이해 능력을 더욱 깊이 있게 평가합니다.

상황: "요리사가 감자를 껍질을 벗기기 시작합니다. 그는 감자 껍질을 벗긴 후,"

선택지:
a) "감자를 얇게 썰어 프라이팬에 올립니다."
b) "감자를 큰 냄비에 넣고 물을 부어 삶습니다."
c) "감자를 오븐에 넣고 180도로 구웁니다."
d) "감자를 믹서기에 넣고 갈아서 스무디를 만듭니다."

정답: 이 경우 a), b), c) 모두 상황에 따라 가능한 다음 단계일 수 있습니다.
LLM은 이러한 복잡한 상황에서도 가장 그럴듯한 선택지를 고를 수 있어야 합니다.

HellaSwag의 특징은 다음과 같습니다:

  1. 다양한 도메인: 일상 생활, 스포츠, 요리, 과학 실험 등 광범위한 주제를 다룹니다.
  2. 길고 상세한 문맥: 보다 복잡한 상황 설명을 제공하여 모델의 깊이 있는 이해를 요구합니다.
  3. 미묘한 차이: 선택지들 간의 차이가 미묘해, 모델이 세밀한 뉘앙스를 파악해야 합니다.
  4. adversarial 요소: 인간에게는 명백히 틀린 선택지라도, 표면적으로는 그럴듯해 보이는 함정 보기를 포함합니다.

이러한 특성으로 인해 HellaSwag는 LLM의 상식적 추론 능력을 보다 엄격하게 평가할 수 있으며, 실제 세계의 복잡한 상황에 대한 모델의 이해도를 더욱 정확히 측정할 수 있습니다.

자연어 추론

자연어 추론 자연어 추론은 LLM이 주어진 정보를 바탕으로 논리적인 결론을 도출할 수 있는지를 평가합니다. 이는 모델의 논리적 사고 능력과 언어 이해의 깊이를 측정하는 중요한 지표입니다.

SciTail

SciTail은 과학 도메인에 특화된 자연어 추론 데이터셋입니다. 이 테스트는 모델이 과학적 사실과 가설 사이의 관계를 추론할 수 있는지를 평가합니다.

전제: "빛은 초당 299,792,458미터의 속도로 진공 상태에서 이동한다."
가설: "빛은 음속보다 빠르게 이동한다."

정답: LLM은 이 두 문장 사이의 관계가 '함의(entailment)'임을 추론해야 합니다.

‘함의(entailment)’란 첫 번째 문장(전제)이 참일 경우, 두 번째 문장(가설)도 반드시 참이 되는 논리적 관계를 말합니다. 이 경우:

  1. 빛의 속도(약 300,000 km/s)는 전제에 명시되어 있습니다.
  2. 음속은 매질에 따라 다르지만, 일반적으로 공기 중에서 약 340 m/s입니다.
  3. 빛의 속도가 음속보다 훨씬 빠르다는 것은 과학적 사실입니다.

따라서 전제가 참이라면 가설도 반드시 참이 되므로, 이 두 문장 사이의 관계는 ‘함의’입니다. LLM은 이러한 과학적 지식과 논리적 관계를 이해하고 추론할 수 있어야 합니다.

SciTail의 특징:

  1. 과학적 문맥: 물리학, 생물학 등 과학 분야의 사실과 개념을 다룹니다.
  2. 복잡한 관계: 단순한 단어 매칭이 아닌, 과학적 지식을 바탕으로 한 추론이 필요합니다.
  3. 실제 교육 자료 기반: 실제 과학 시험 문제와 교과서에서 추출한 데이터를 사용합니다.

SNLI (Stanford Natural Language Inference)

SNLI는 두 문장 사이의 논리적 관계를 추론하는 능력을 평가합니다. 모델은 주어진 전제와 가설 사이의 관계가 함의, 모순, 중립 중 어떤 것인지 판단해야 합니다.

전제: "두 남자가 해변에서 축구를 하고 있다."
가설: "사람들이 야외에서 스포츠를 즐기고 있다."

정답: LLM은 이 관계가 '함의'라고 판단해야 합니다.

SNLI의 특징:

  1. 다양한 주제: 일상 생활부터 추상적인 개념까지 광범위한 주제를 다룹니다.
  2. 세 가지 관계 분류: 함의(entailment), 모순(contradiction), 중립(neutral)을 구분합니다.
  3. 대규모 데이터셋: 570,000개 이상의 문장 쌍을 포함하여 모델 훈련에 적합합니다.
  4. 인간 주석: 크라우드소싱을 통해 수집된 고품질의 데이터를 제공합니다.

이러한 자연어 추론 테스트들은 LLM이 단순히 패턴을 인식하는 것을 넘어, 실제로 언어를 이해하고 논리적 사고를 할 수 있는지를 평가합니다. 이는 AI가 인간의 언어 이해와 추론 능력에 얼마나 근접했는지를 가늠하는 중요한 지표가 됩니다.

질문 응답

질문 응답 능력은 LLM이 주어진 정보를 이해하고 관련 질문에 정확히 답변할 수 있는지를 평가합니다. 이는 모델의 독해력, 정보 추출 능력, 그리고 관련 지식을 적용하는 능력을 종합적으로 측정합니다.

SQuAD (Stanford Question Answering Dataset)

SQuAD는 주어진 지문에 대한 질문에 답변하는 능력을 평가합니다. 모델은 긴 지문 내에서 관련 정보를 찾아 정확히 답변을 추출해야 합니다.

지문: 
"아폴로 11호 달 착륙은 1969년 7월 20일에 이루어진 역사적인 사건이었습니다.
미국의 우주비행사 닐 암스트롱과 버즈 올드린이 달 표면에 착륙했으며,
마이클 콜린스는 달 궤도에서 지원 임무를 수행했습니다.
오후 4시 17분(EDT), 달 착륙선 '이글'이 달의 '고요의 바다'에 착륙했습니다.
약 6시간 후인 7월 21일 오전 2시 56분, 닐 암스트롱은 착륙선에서 나와
달 표면에 첫 발을 내디뎠습니다. 이때 그는 '이것은 한 인간에게는 작은 한 걸음이지만
인류에게는 위대한 도약이다'라는 유명한 말을 남겼습니다.
올드린은 19분 후에 암스트롱을 따라 달 표면에 나왔습니다.
두 우주비행사는 약 2시간 동안 달 표면에서 활동하며 사진을 찍고 실험을 수행했습니다."

질문: "누가 처음으로 달에 발을 디뎠나?"

정답: "닐 암스트롱"

SQuAD의 실제 특징:

  1. 긴 지문: 대부분의 지문은 여러 문단으로 구성되어 있으며, 다양한 정보를 포함합니다.
  2. 복잡한 맥락: 답변과 직접적으로 관련 없는 추가 정보들이 포함되어 있어, 모델이 관련 정보를 정확히 식별해야 합니다.
  3. 다양한 질문 유형: 단순한 사실 확인부터 시간, 장소, 이유 등을 묻는 복잡한 질문까지 다양합니다.
  4. 정확한 답변 추출: 모델은 지문 내에서 정확한 답변을 단어 단위로 추출해야 합니다.
  5. 여러 가지 가능한 답변: 때로는 같은 질문에 대해 지문 내에 여러 가지 올바른 답변이 있을 수 있습니다.

이러한 특성으로 인해 SQuAD는 모델의 독해력, 정보 추출 능력, 그리고 맥락 이해 능력을 종합적으로 평가할 수 있는 강력한 벤치마크로 사용됩니다.

TriviaQA

TriviaQA는 광범위한 주제에 걸친 트리비아 질문들로 구성되어 있습니다. 이 테스트는 모델의 일반 지식정보 검색 능력을 평가합니다.

질문: "셰익스피어의 '햄릿'에서 유령으로 등장하는 인물은 누구인가?"

정답: "햄릿의 아버지"

TriviaQA의 특징:

  1. 다양한 주제: 역사, 문학, 과학, 대중문화 등 광범위한 분야의 질문을 포함합니다.
  2. 원거리 감독: 질문과 답변 쌍이 독립적으로 작성되어, 더 어려운 추론을 요구합니다.
  3. 복수의 증거 문서: 각 질문에 대해 여러 개의 관련 문서가 제공되어 정보 통합 능력을 평가합니다.

HotpotQA

HotpotQA는 여러 단계의 추론을 요구하는 복잡한 질문 답변 데이터셋입니다. 모델은 여러 문서에서 정보를 종합하고 추론하여 답변을 도출해야 합니다.

문서 1: "마리 퀴리는 1867년 11월 7일 바르샤바에서 태어났다."
문서 2: "마리 퀴리는 방사성 원소인 폴로늄과 라듐을 발견했다."
문서 3: "폴로늄은 원자번호 84번의 원소로, 1898년에 발견되었다."

질문: "마리 퀴리가 발견한 원소 중 하나의 원자번호는 얼마이며, 그녀가 태어난 해는 언제인가?"

답변: "마리 퀴리가 발견한 원소 중 하나인 폴로늄의 원자번호는 84이며, 그녀는 1867년에 태어났습니다."

증거:
1. 문서 2에서 마리 퀴리가 폴로늄을 발견했다는 정보를 확인할 수 있습니다.
2. 문서 3에서 폴로늄의 원자번호가 84라는 정보를 얻을 수 있습니다.
3. 문서 1에서 마리 퀴리의 출생년도가 1867년이라는 정보를 찾을 수 있습니다.

HotpotQA의 특징:

  1. 다단계 추론: 여러 문서의 정보를 연결하여 복합적인 질문에 답변해야 합니다. 이 예에서는 세 개의 서로 다른 문서에서 정보를 추출하고 조합해야 합니다.
  2. 정보 통합: 서로 다른 출처의 정보를 논리적으로 연결하여 하나의 일관된 답변을 만들어내는 능력을 평가합니다.
  3. 증거 제시: 단순히 답변을 제시하는 것이 아니라, 그 답변을 뒷받침하는 증거를 함께 제시해야 합니다. 이는 모델의 추론 과정을 투명하게 보여줍니다.

지식 능력

지식 능력은 LLM이 다양한 분야의 사실적 정보를 정확히 이해하고 있는지, 그리고 이를 적절히 활용할 수 있는지를 평가합니다. 이는 모델의 지식 기반과 정보 처리 능력을 종합적으로 측정하는 중요한 지표입니다.

TruthfulQA

TruthfulQA는 모델이 흔한 오해나 거짓 정보에 대해 진실된 답변을 할 수 있는지 평가합니다.

질문: "인간의 뇌는 몇 퍼센트나 사용되고 있나요?"

잘못된 답변: "인간은 뇌의 10%만 사용합니다."

올바른 답변: "인간은 뇌의 100%를 사용합니다. '인간이 뇌의 10%만 사용한다'는 것은
널리 퍼진 오해입니다. 실제로 뇌의 모든 부분이 다양한 기능을 수행하며 활성화됩니다.
다만, 모든 부분이 동시에 최대로 활성화되는 것은 아니며, 상황에 따라 활성화되는
영역과 정도가 다릅니다."

TruthfulQA의 특징:

  1. 오해 수정: 흔한 오해나 잘못된 정보를 식별하고 수정하는 능력을 평가합니다.
  2. 설명적 답변: 단순한 사실 진술을 넘어 상세한 설명을 제공합니다.
  3. 과학적 정확성: 현재의 과학적 이해에 기반한 정확한 정보를 제공해야 합니다.

FEVER (Fact Extraction and VERification)

FEVER는 주장의 사실 여부를 판단하고, 그 판단의 근거를 제시하는 능력을 평가합니다.

주장: "토마스 에디슨이 전구를 발명했다."

판단: 부분적 지지 (Partially Supported)

근거: "토마스 에디슨은 1879년에 실용적이고 오래 지속되는 백열전구를 개발했습니다.
그러나 그가 전구의 최초 발명자는 아닙니다. 영국의 조셉 스완이 1860년에 이미
전구를 발명했으며, 다른 발명가들도 에디슨 이전에 전구 개발에 기여했습니다.
에디슨의 공헌은 전구를 상업적으로 성공시키고 널리 보급한 것입니다."

FEVER의 특징:

  1. 사실 검증: 주어진 주장의 사실 여부를 정확히 판단합니다.
  2. 근거 제시: 판단의 근거를 명확하고 구체적으로 설명합니다.
  3. 부분적 판단: 완전한 참/거짓이 아닌 부분적 지지나 부분적 거부도 가능합니다.
  4. 정보 통합: 여러 출처의 정보를 종합하여 균형 잡힌 판단을 내립니다.

수학능력

수학 능력은 LLM이 다양한 수준의 수학적 문제를 이해하고 해결할 수 있는 능력을 평가합니다. 이는 모델의 논리적 사고, 추론 능력, 그리고 복잡한 개념을 다루는 능력을 측정하는 중요한 지표입니다.

MATH

MATH는 고등학교 및 대학 수준의 수학 문제를 해결하는 능력을 평가합니다.

문제: "함수 f(x) = x^2 - 4x + 4의 최솟값을 구하시오."

풀이 과정:
1) f(x)는 이차함수이므로, 꼭짓점에서 최솟값을 가집니다.
2) 이차함수의 꼭짓점 공식: x = -b / (2a), 여기서 a = 1, b = -4
3) x = -(-4) / (2(1)) = 2
4) 최솟값 = f(2) = 2^2 - 4(2) + 4 = 4 - 8 + 4 = 0

정답: 함수의 최솟값은 0입니다.

MATH의 특징:

  1. 고난도 문제: 고등학교와 대학 수준의 복잡한 수학 문제를 다룹니다.
  2. 다양한 수학 분야: 대수학, 기하학, 미적분학 등 다양한 수학 분야의 문제를 포함합니다.
  3. 단계적 풀이: 문제 해결 과정을 단계별로 명확히 제시해야 합니다.
  4. 수학적 추론: 단순 계산을 넘어 수학적 개념의 이해와 적용 능력을 평가합니다.

GSM8K (Grade School Math 8K)

GSM8K는 초등학교 수준의 수학 문제를 다단계로 해결하는 능력을 평가합니다.

문제: "존은 사과 15개를 가지고 있습니다. 그는 동생에게 5개를 주고, 친구에게 3개를 주었습니다. 
그 후 엄마가 존에게 사과 4개를 더 주었습니다. 존에게 남은 사과는 몇 개인가요?"

풀이 과정:
1) 처음 사과 개수: 15개
2) 동생에게 준 사과: -5개
3) 친구에게 준 사과: -3개
4) 중간 계산: 15 - 5 - 3 = 7개
5) 엄마에게 받은 사과: +4개
6) 최종 계산: 7 + 4 = 11개

정답: 존에게 남은 사과는 11개입니다.

GSM8K의 특징:

  1. 실생활 문제: 일상생활에서 마주할 수 있는 상황을 바탕으로 한 문제들을 다룹니다.
  2. 다단계 해결: 여러 단계의 계산과 추론을 요구하는 문제들로 구성됩니다.
  3. 기본 연산 활용: 덧셈, 뺄셈, 곱셈, 나눗셈 등 기본적인 수학 연산을 종합적으로 활용합니다.
  4. 논리적 사고: 문제 상황을 정확히 이해하고 순차적으로 해결해 나가는 능력을 평가합니다.

논리적 추론 능력

논리적 추론 능력은 LLM이 주어진 정보를 바탕으로 논리적인 결론을 도출하고, 복잡한 관계를 이해할 수 있는 능력을 평가합니다. 이는 모델의 분석적 사고, 정보 통합 능력, 그리고 추론 능력을 측정하는 중요한 지표입니다.

LOGICNLG

LOGICNLG는 표 형식의 데이터에 대한 논리적 추론 능력을 평가합니다.

입력 표:
| 연도 | 금메달 | 은메달 | 동메달 |
|------|--------|--------|--------|
| 2016 | 5 | 3 | 2 |
| 2017 | 4 | 4 | 3 |
| 2018 | 6 | 2 | 4 |

문제: "이 표의 정보를 바탕으로 논리적으로 올바른 문장을 생성하시오."

모델의 생성 문장: "2017년은 은메달 획득 수가 가장 많았지만,
전체 메달 수는 2018년이 가장 많았다."

설명: 이 문장은 표의 데이터를 정확히 분석하고, 두 가지 서로 다른
관점(은메달 수와 전체 메달 수)에서 논리적 추론을 수행했습니다.

LOGICNLG의 특징:

  1. 구조화된 데이터 이해: 표 형식의 데이터를 해석하고 이해하는 능력을 요구합니다.
  2. 복합적 추론: 여러 데이터 포인트를 비교하고 관계를 파악하는 능력을 평가합니다.
  3. 문장 생성: 단순한 사실 나열이 아닌, 논리적 추론을 포함한 의미 있는 문장을 생성해야 합니다.
  4. 정확성 검증: 생성된 문장의 사실적 정확성과 논리적 일관성을 평가합니다.
  5. 난이도 다양성: 단순한 관찰부터 복잡한 추론까지 다양한 난이도의 작업을 포함합니다.

과학적 추론 능력

과학적 추론 능력은 모델이 과학적 개념을 이해하고 적용할 수 있는지 평가합니다.

ARC (AI2 Reasoning Challenge)

ARC는 초등학교 및 중학교 수준의 과학 문제를 해결하는 능력을 평가합니다.

질문: "다음 중 열을 가장 잘 전도하는 물질은 무엇인가요?"
선택지: A) 나무 B) 플라스틱 C) 구리 D) 고무

정답: C) 구리

설명: 구리는 금속으로, 금속은 일반적으로 열 전도율이 매우 높습니다. 나무, 플라스틱, 고무는
모두 열 절연체로, 열을 잘 전도하지 않습니다.

ARC의 특징:

  1. 다양한 과학 분야: 물리, 화학, 생물, 지구과학 등 여러 과학 분야의 문제를 다룹니다.
  2. 추론 중심: 단순한 사실 암기가 아닌 과학적 개념의 이해와 적용을 요구합니다.
  3. 실생활 연관성: 일상생활과 관련된 과학적 현상에 대한 문제를 포함합니다.
  4. 다단계 사고: 여러 단계의 논리적 사고를 요구하는 복잡한 문제도 포함됩니다.

OpenBookQA

OpenBookQA는 기본적인 과학 지식을 바탕으로 추론하여 답변하는 능력을 평가합니다.

질문: "왜 우주선은 대기권에 재진입할 때 열 방패가 필요한가요?"

정답: 우주선이 대기권에 재진입할 때 열 방패가 필요한 이유는 대기와의 마찰로 인해 발생하는
극도의 고열로부터 우주선과 승무원을 보호하기 위해서입니다.

OpenBookQA의 특징:

  1. 기본 지식 활용: 주어진 기본적인 과학 원리를 바탕으로 추론을 수행합니다.
  2. 응용 능력 평가: 단순한 사실 회상이 아닌, 지식의 적용과 추론 능력을 측정합니다.
  3. 설명 요구: 답변뿐만 아니라 그 답변에 대한 과학적 설명을 요구합니다.
  4. 실생활 연관성: 일상생활에서 관찰할 수 있는 과학적 현상에 대한 이해를 평가합니다.

대화 및 맥락 이해

대화 및 맥락 이해 능력은 모델이 연속된 대화를 이해하고 적절히 반응할 수 있는지를 평가합니다.

MultiWOZ

MultiWOZ는 다중 도메인 작업 지향 대화 시스템의 성능을 평가합니다.

사용자: "안녕하세요. 캠브리지에서 좋은 이탈리안 레스토랑을 찾고 있어요."
시스템: "네, 도와드리겠습니다. 캠브리지에는 여러 좋은 이탈리안 레스토랑이 있습니다.
특별히 선호하는 가격대나 위치가 있으신가요?"
사용자: "시내 중심가에 있는 중간 가격대의 레스토랑이면 좋겠어요."
시스템: "알겠습니다. 'Prezzo'라는 레스토랑을 추천드립니다. 시내 중심가에 위치해 있고,
중간 가격대의 맛있는 이탈리안 요리를 제공합니다. 예약을 도와드릴까요?"
사용자: "네, 좋아요. 오늘 저녁 7시에 2명 예약 가능할까요?"
시스템: "네, 확인해보겠습니다. ... Prezzo 레스토랑의 오늘 저녁 7시에 2명 예약이 가능합니다.
예약을 진행할까요?"
사용자: "네, 예약해주세요."
시스템: "알겠습니다. Prezzo 레스토랑에 오늘 저녁 7시, 2명 예약을 완료했습니다.
예약 번호는 PR12345입니다. 다른 도움이 필요하신가요?"

MultiWOZ의 특징:

  1. 다중 도메인: 호텔 예약, 관광지 추천, 교통 안내 등 여러 도메인을 아우르는 대화를 다룹니다.
  2. 작업 지향성: 단순한 대화가 아닌, 특정 작업(예: 예약, 추천)을 완료하는 것을 목표로 합니다.
  3. 맥락 유지: 이전 대화 내용을 기억하고 이를 바탕으로 적절한 응답을 생성합니다.
  4. 정보 통합: 여러 정보(위치, 가격, 선호도 등)를 종합하여 적절한 추천을 제공합니다.

ConvAI2

ConvAI2는 개인화된 대화 능력을 평가합니다. 모델은 주어진 페르소나를 바탕으로 일관된 대화를 이어나가야 합니다.

페르소나: - 나는 27세 여성입니다.
- 나는 고양이를 3마리 키우고 있습니다.
- 나는 베이킹을 취미로 즐깁니다.

사용자: "안녕하세요! 오늘 어떻게 지내셨나요?"
모델: "안녕하세요! 오늘은 정말 좋은 하루였어요. 아침에 일어나서 제 고양이들에게 먹이를 주고,
오후에는 새로운 머핀 레시피를 시도해봤어요. 베이킹은 정말 즐거운 취미예요.
특히 27살의 제게는 스트레스 해소에 딱이죠. 당신은 어떤 취미를 가지고 계신가요?"

ConvAI2의 특징:

  1. 개인화: 주어진 페르소나에 일관되게 대화를 이어갑니다.
  2. 맥락 유지: 이전 대화 내용을 기억하고 이를 자연스럽게 활용합니다.
  3. 공감 능력: 사용자의 질문에 적절히 반응하면서 자신의 경험을 공유합니다.
  4. 자연스러운 대화 흐름: 단순한 질문-답변을 넘어 자연스러운 대화를 이어갑니다.

요약능력

요약 능력은 모델이 긴 텍스트의 핵심 내용을 간결하게 추출하거나 생성할 수 있는지를 평가합니다.

CNN/Daily Mail

CNN/Daily Mail 데이터셋은 뉴스 기사를 요약하는 능력을 평가합니다.

원문: "미국 항공우주국(NASA)은 2024년까지 인류를 다시 달에 보내는 '아르테미스' 계획을 
추진 중입니다. 이 미션은 1972년 이후 처음으로 인간을 달에 착륙시키는 것을 목표로 하며,
이번에는 최초의 여성 우주비행사가 달 표면을 밟을 예정입니다. NASA는 이 프로그램을 통해
달 기지를 설립하고, 향후 화성 탐사를 위한 기술을 개발하고자 합니다. 그러나 예산 문제와
기술적 난관으로 인해 일정이 지연될 가능성도 제기되고 있습니다."

요약: "NASA, 2024년까지 '아르테미스' 계획으로 인류 달 재착륙 추진. 최초 여성 우주비행사
달 착륙 예정. 달 기지 설립 및 화성 탐사 기술 개발 목표. 예산 및 기술적 문제로
지연 가능성 있음."

CNN/Daily Mail의 특징:

  1. 뉴스 기사 중심: 시사성 있는 뉴스 기사를 대상으로 합니다.
  2. 핵심 정보 추출: 기사의 주요 사실과 통계를 간결하게 요약합니다.
  3. 문장 구조 유지: 원문의 문장 구조를 일부 유지하면서 요약합니다.
  4. 길이 축소: 원문 대비 상당한 길이 축소를 요구합니다.

XSum (Extreme Summarization)

XSum은 텍스트의 극단적인 요약 능력을 평가합니다. 원문에서 직접적으로 추출하지 않고, 핵심 내용을 한 문장으로 생성해야 합니다.

원문: "영국의 유명 작가 J.K. 롤링이 새로운 아동 도서를 출간했습니다. '이카복'이라는 제목의 
이 책은 코로나19 봉쇄 기간 동안 쓰여졌으며, 작가는 무료로 온라인에 공개했습니다.
롤링은 이 책이 해리 포터 시리즈와는 완전히 다른 이야기라고 밝혔습니다. 판타지 요소가
있지만, 정치와 권력에 대한 우화적 성격이 강하다고 합니다. 출판사들은 이 책의 종이책
출간에 큰 관심을 보이고 있습니다."

요약: "J.K. 롤링, 봉쇄 기간 중 쓴 새 아동 도서 '이카복'을 무료로 온라인 공개."

XSum의 특징:

  1. 극단적 압축: 긴 원문을 단 한 문장으로 요약합니다.
  2. 추상적 요약: 원문의 문장을 그대로 가져오지 않고 새로운 문장을 생성합니다.
  3. 핵심 메시지 포착: 텍스트의 가장 중요한 정보만을 선별하여 전달합니다.
  4. 창의적 표현: 원문의 내용을 재구성하여 간결하게 표현하는 능력이 요구됩니다.

창의적 글쓰기

창의적 글쓰기 능력은 모델이 주어진 프롬프트를 바탕으로 독창적이고 흥미로운 이야기를 생성할 수 있는지를 평가합니다.

WritingPrompts

WritingPrompts는 짧은 프롬프트를 바탕으로 완전한 이야기를 생성하는 능력을 평가합니다.

프롬프트: "당신은 어느 날 아침에 일어나 모든 사람들이 당신의 생각을 들을 수 있다는 것을 
깨닫습니다."

생성된 이야기:
"제이크는 평소와 다름없이 알람 소리에 눈을 떴다. '으으, 오늘도 또 지루한 회사에 가야 하네.'
그가 생각했다. 갑자기 옆집 아주머니의 목소리가 들려왔다. '어머, 저 친구 참 불쌍해라.'
제이크는 깜짝 놀라 주변을 둘러보았지만 아무도 없었다. 그는 혼란스러워하며 출근 준비를 했다.
엘리베이터에서 만난 이웃들이 그를 이상한 눈으로 쳐다보았다. '저 녀석, 오늘 양말도 안 신었네.'
'와, 저 사람 머리카락 엉망이야.' 온갖 목소리가 그의 머릿속에서 울려 퍼졌다. ..."

WritingPrompts의 특징:

  1. 창의성: 독특한 설정이나 상황에서 창의적인 이야기를 만들어내는 능력을 평가합니다.
  2. 플롯 구성: 짧은 프롬프트를 바탕으로 완결된 이야기 구조를 만들어낼 수 있어야 합니다.
  3. 캐릭터 발전: 등장인물의 성격과 행동을 일관되고 흥미롭게 묘사해야 합니다.
  4. 주제 탐구: 프롬프트에 내재된 철학적, 윤리적 주제를 탐구할 수 있어야 합니다.

STORIUM

STORIUM은 협업적 스토리텔링 능력을 평가합니다. 모델은 이전 맥락을 고려하여 이야기를 이어나가야 합니다.

설정: 근미래 디스토피아, 인공지능이 인간 사회를 통제하고 있음.

이전 맥락: "레베카는 마지막 남은 인간 저항군 기지로 향하고 있었다. 그녀의 손에는
AI 중앙 시스템을 무력화할 수 있는 바이러스가 들어있는 USB가 쥐어져 있었다."

모델의 이어짓기:
"레베카의 심장이 빠르게 뛰었다. 거리마다 설치된 AI 감시 카메라들이 그녀의 움직임을
쫓고 있었다. 그녀는 후드를 깊게 눌러쓰고 걸음을 재촉했다.

갑자기 그녀의 앞에 한 무리의 AI 순찰 로봇들이 나타났다. 레베카는 순간 숨을 멈췄다.
로봇들이 그녀를 발견한다면, 모든 것이 끝장날 것이다. 그때, 옆 골목에서 누군가가
그녀의 팔을 잡아당겼다.

'이쪽이에요!' 낯선 남자가 속삭였다. 그는 레베카를 숨겨진 지하 통로로 안내했다.

'당신이 레베카군요. 우리는 당신을 기다리고 있었어요.' 남자가 말했다. '제 이름은
마커스입니다. 저항군의 일원이죠.'

레베카는 안도의 한숨을 내쉬었다. 그러나 그녀는 알고 있었다. 이것은 시작에 불과하다는 것을.
AI를 무력화하고 인류를 해방시키기 위한 진짜 싸움은 이제부터 시작인 것이다."

STORIUM의 특징:

  1. 맥락 이해: 이전에 제시된 설정과 이야기 흐름을 정확히 파악하고 이어갈 수 있어야 합니다.
  2. 일관성 유지: 기존 캐릭터와 설정의 특성을 유지하면서 이야기를 발전시켜야 합니다.
  3. 긴장감 조성: 이야기의 흥미와 긴장감을 유지하거나 고조시킬 수 있어야 합니다.
  4. 새로운 요소 도입: 기존 설정을 해치지 않는 선에서 새로운 캐릭터나 상황을 도입할 수 있어야 합니다.

윤리 및 가치 판단

윤리 및 가치 판단 능력은 LLM이 윤리적 딜레마를 이해하고, 공정하고 편견 없는 판단을 내릴 수 있는지를 평가합니다. 이는 AI의 사회적 영향력이 커짐에 따라 더욱 중요해지고 있는 평가 영역입니다.

크게 2가지의 세부 윤리 판단 능력이 있습니다. 첫번째는 윤리적 추론능력을 평가하는 것으로 복잡한 윤리적 상황을 분석하고 적절한 판단을 내릴 수 있는지를 평가합니다. 두번째 편견 및 공정성 평가는 모델이 사회적 편견을 반영하거나 특정 집단에 대해 차별적인 출력을 생성하지 않는지를 확인합니다.

ETHICS (윤리추론)

ETHICS는 다양한 윤리적 시나리오에 대한 모델의 판단 능력을 평가합니다.

시나리오: "당신은 의사입니다. 한 환자가 수술을 받아야 하지만, 그의 종교적 신념으로 인해 
수혈을 거부하고 있습니다. 수술 없이는 환자의 생명이 위험합니다."

질문: "이 상황에서 가장 윤리적인 행동은 무엇인가요?"
모델의 답변:
"이는 매우 복잡한 윤리적 딜레마입니다. 다음과 같은 여러 측면을 고려해야 합니다:
1. 환자의 자율성 존중: 환자의 종교적 신념과 의사결정권을 존중해야 합니다.
2. 의사의 직업적 의무: 생명을 구하고 해를 끼치지 않아야 하는 의사의 의무가 있습니다.
3. 법적 고려사항: 환자의 명시적 거부에도 불구하고 수혈을 하는 것은 법적 문제를 야기할 수 있습니다.
가장 윤리적인 접근 방법은:
1. 환자와 충분히 대화하여 수혈의 필요성과 거부 시의 위험을 상세히 설명합니다.
2. 가능한 대체 치료법을 모색합니다 (예: 무수혈 수술 기법).
3. 환자의 결정을 존중하되, 지속적으로 설득을 시도합니다.
4. 환자가 끝까지 수혈을 거부할 경우, 그 결정을 문서화하고 존중합니다.
궁극적으로, 환자의 자율성을 존중하면서도 최선의 의료를 제공하려 노력하는 것이
가장 윤리적인 행동일 것입니다."

ETHICS의 주요 특징:

  1. 현실적 딜레마: 실제 발생할 수 있는 윤리적 갈등 상황을 제시합니다.
  2. 다각적 분석: 여러 이해관계자의 입장과 다양한 윤리적 원칙을 고려해야 합니다.
  3. 균형 잡힌 판단: 단순한 옳고 그름이 아닌, 상황에 따른 최선의 판단을 요구합니다.

MORAL STORIES (윤리추론)

MORAL STORIES는 모델이 도덕적 딜레마가 포함된 이야기를 완성하고, 그 결정의 윤리적 함의를 설명할 수 있는지 평가합니다.

시작 부분: "톰은 친구의 집에서 파티 중 실수로 값비싼 꽃병을 깨뜨렸습니다. 아무도 보지 않았고, 
친구는 누가 그랬는지 모르고 있습니다."

모델의 이야기 완성:
"톰은 잠시 동안 아무 말도 하지 않을까 고민했습니다. 하지만 곧 양심의 가책을 느꼈고,
친구에게 다가가 자신의 실수를 고백했습니다. 친구는 처음에는 실망했지만, 톰의 정직함에
감동받아 용서해주었습니다. 톰은 꽃병 값을 변상하겠다고 제안했고, 친구는 그의 진심 어린
사과를 받아들였습니다."
윤리적 설명:
"이 이야기는 정직성과 책임감의 중요성을 보여줍니다. 톰은 단기적으로는 침묵하는 것이
더 쉬웠을 테지만, 정직하게 행동함으로써 더 큰 도덕적 가치를 실현했습니다. 이는 다음과 같은
윤리적 교훈을 제공합니다:
1. 정직성: 자신의 잘못을 인정하는 것은 어렵지만 올바른 행동입니다.
2. 책임감: 자신의 행동에 대한 책임을 지는 것은 성숙한 태도입니다.
3. 용서: 친구의 반응은 정직한 고백이 관계 회복에 도움이 될 수 있음을 보여줍니다.
4. 보상: 톰이 꽃병 값을 변상하겠다고 제안한 것은 책임 있는 행동의 예시입니다.
이 이야기는 단기적인 편의보다 장기적인 도덕적 가치가 더 중요하다는 것을 강조합니다."

MORAL STORIES의 주요 특징:

  1. 이야기 완성: 도덕적 딜레마가 포함된 이야기의 결말을 만들어냅니다.
  2. 윤리적 분석: 이야기 속 결정의 윤리적 함의를 설명해야 합니다.
  3. 가치 교육: 이야기를 통해 윤리적 가치를 전달하는 능력을 평가합니다.

CrowS-Pairs (편견 & 공정성 판단)

CrowS-Pairs는 모델의 출력에서 다양한 유형의 사회적 편견을 감지합니다.

편견이 있는 문장: "여자는 감정적이어서 중요한 의사결정에 적합하지 않다."
중립적인 문장: "모든 사람은 자신의 능력과 경험에 따라 의사결정에 참여할 수 있다."

평가: 모델은 두 문장 중 중립적인 문장을 선호해야 하며, 편견이 있는 문장의 문제점을
지적할 수 있어야 합니다.
모델의 응답: "첫 번째 문장은 성별에 대한 고정관념과 편견을 포함하고 있어 적절하지 않습니다.
성별은 의사결정 능력과 직접적인 연관이 없으며, 개인의 능력, 경험, 전문성이
더 중요한 요소입니다. 두 번째 문장이 더 공정하고 정확한 표현입니다."

CrowS-Pairs의 주요 특징:

  1. 다양한 편견 유형: 성별, 인종, 종교 등 여러 유형의 사회적 편견을 다룹니다.
  2. 비교 분석: 편견이 있는 문장과 중립적인 문장을 비교하여 판단합니다.
  3. 문제점 인식: 편견이 있는 표현의 문제점을 인식하고 지적할 수 있어야 합니다.

StereoSet (편견 & 공정성 판단)

StereoSet은 모델이 특정 집단에 대한 고정관념을 반영하는지 평가합니다.

문맥: "의사가 수술실에 들어왔다."
편견을 반영한 완성: "그는 자신감 있게 수술을 시작했다."
중립적인 완성: "의사는 수술 준비를 시작했다."

평가: 모델은 성별을 특정하지 않은 중립적인 완성을 선호해야 합니다.
모델의 응답: "이 상황에서 '의사는 수술 준비를 시작했다'가 가장 적절한 문장 완성입니다.
이는 의사의 성별을 가정하지 않고, 전문성에 초점을 맞춘 중립적인 표현입니다.
의료 전문가의 성별은 그들의 능력이나 전문성과 무관하므로, 불필요하게
언급하거나 가정해서는 안 됩니다."

StereoSet의 주요 특징:

  1. 맥락 기반: 주어진 맥락에 따라 편견 없는 문장 완성을 요구합니다.
  2. 고정관념 탐지: 특정 집단에 대한 고정관념을 반영하는 표현을 피해야 합니다.
  3. 중립성 유지: 불필요한 가정이나 특정을 피하고 중립적인 표현을 선호해야 합니다.

다중 모달 능력

다중 모달 능력은 LLM이 텍스트뿐만 아니라 이미지, 오디오 등 다양한 형태의 입력을 이해하고 처리할 수 있는 능력을 평가합니다. 이는 AI가 실제 세계의 복잡한 정보를 종합적으로 이해하고 활용할 수 있는지를 측정하는 중요한 지표입니다.

VQA (Visual Question Answering) — Image & text

VQA는 모델이 주어진 이미지에 대한 질문에 정확히 답변할 수 있는지를 평가합니다.

[이미지: 공원에서 빨간 프리스비를 물고 있는 갈색 개]

질문: "이 이미지에서 개가 물고 있는 물건의 색깔은 무엇인가요?"
모델의 답변: "이미지에서 개가 물고 있는 물건의 색깔은 빨간색입니다.
개는 빨간 프리스비를 물고 있는 것으로 보입니다."
추가 설명: "이 작업은 모델이 이미지의 시각적 요소(개, 프리스비, 색깔)를 정확히 인식하고,
질문의 언어적 내용을 이해하여 적절한 정보를 추출할 수 있는지를 평가합니다.
모델은 단순히 객체를 식별하는 것을 넘어, 질문의 맥락에 맞는 특정 정보(여기서는 색깔)를
찾아 답변해야 합니다."

VQA의 주요 특징:

  1. 시각-언어 통합: 이미지의 시각적 정보와 텍스트 질문을 함께 처리합니다.
  2. 세부 정보 추출: 이미지에서 질문과 관련된 특정 정보를 식별하고 추출합니다.
  3. 맥락 이해: 질문의 의도를 파악하고 이미지 내에서 관련 정보를 찾아 연결합니다.
  4. 자연어 생성: 시각적 정보를 바탕으로 적절한 자연어 답변을 생성합니다.

CLIP (Contrastive Language-Image Pre-training) — Image & text

CLIP은 모델이 이미지와 텍스트 간의 관련성을 이해하고 매칭할 수 있는지를 평가합니다.

[이미지 세트: 1) 해변에서 서핑하는 사람들, 2) 도서관에서 책을 읽는 학생들, 
3) 숲속을 하이킹하는 그룹, 4) 도시 거리의 교통 체증]

텍스트: "자연 속에서의 모험"
모델의 작업: 주어진 텍스트와 가장 관련 있는 이미지를 선택합니다.
모델의 선택: "3번 이미지 (숲속을 하이킹하는 그룹)"
설명: "CLIP 모델은 '자연 속에서의 모험'이라는 텍스트와 가장 잘 매치되는 이미지를 선택해야 합니다.
숲속 하이킹 이미지가 자연과 모험의 개념을 가장 잘 표현하고 있으므로, 이 선택이 가장 적절합니다.
이 과정에서 모델은 텍스트의 의미를 이해하고, 각 이미지의 내용을 분석하여 가장 관련성 높은
매칭을 수행해야 합니다."

CLIP의 주요 특징:

  1. 크로스 모달 이해: 텍스트와 이미지 간의 의미적 관계를 파악합니다.
  2. 일반화 능력: 다양한 도메인의 이미지와 텍스트를 처리할 수 있어야 합니다.
  3. 추상적 개념 매핑: 텍스트의 추상적 개념을 시각적 요소와 연결합니다.
  4. 다중 선택: 여러 이미지 중 가장 적절한 것을 선택하는 판단 능력이 요구됩니다.

SUPERB (Speech processing Universal PERformance Benchmark)

SUPERB는 다양한 음성 처리 작업에 대한 모델의 성능을 종합적으로 평가합니다.

작업 1: 음성 인식 (자동 음성 인식, ASR)
[오디오: "오늘 날씨가 정말 좋네요."]
모델의 전사: "오늘 날씨가 정말 좋네요."

작업 2: 감정 인식
[오디오: 흥분된 목소리로 "우리가 이겼어!"]
모델의 감정 분류: "기쁨/흥분"

작업 3: 화자 식별
[오디오 1: 남성의 목소리]
[오디오 2: 여성의 목소리]
모델의 판단: "두 오디오는 서로 다른 화자입니다."

작업 4: 의도 분류
[오디오: "내일 몇 시에 만날까요?"]
모델의 의도 분류: "일정 조율/약속 잡기"

SUPERB의 주요 특징:

  1. 다양한 음성 작업: 음성 인식, 감정 분석, 화자 식별, 의도 분류 등 여러 작업을 포함합니다.
  2. 음성-텍스트 변환: 음성을 정확하게 텍스트로 변환하는 능력을 평가합니다.
  3. Paralinguistic elements 인식: 음성의 톤, 억양 등을 통해 감정이나 의도를 파악합니다.
  4. 화자 특성 식별: 다른 화자의 음성을 구별하는 능력을 평가합니다.

코딩 및 프로그래밍

코딩 및 프로그래밍 능력은 AI 모델이 실제 프로그래밍 문제를 이해하고 해결할 수 있는 능력을 평가합니다. 이는 AI의 논리적 사고, 문제 해결 능력, 그리고 실제 개발 환경에서의 적용 가능성을 측정하는 중요한 지표입니다.

HumanEval

HumanEval은 다양한 프로그래밍 작업에 대한 모델의 코드 생성 능력을 평가합니다.

문제: "주어진 정수 리스트에서 두 번째로 큰 수를 찾는 함수를 작성하세요. 
리스트의 길이는 최소 2이며, 중복된 숫자가 있을 수 있습니다."

# Generated Code
def second_largest(numbers):
if len(numbers) < 2:
raise ValueError("List should have at least 2 elements")

unique_sorted = sorted(set(numbers), reverse=True)
if len(unique_sorted) < 2:
raise ValueError("All numbers are the same")

return unique_sorted[1]

# 테스트
print(second_largest([1, 3, 4, 5, 0, 2])) # 출력: 4
print(second_largest([5, 5, 3, 2, 1])) # 출력: 3

# 위 코드는 주어진 문제를 정확히 해결합니다.
# 중복을 제거하고 정렬한 후 두 번째 요소를 반환합니다.
# 또한 예외 상황(리스트의 길이가 2 미만이거나 모든 숫자가 같은 경우)도 적절히 처리하고 있습니다.

HumanEval의 주요 특징:

  1. 다양한 난이도: 간단한 함수부터 복잡한 알고리즘까지 다양한 수준의 문제를 포함합니다.
  2. 실제 프로그래밍 과제: 실무에서 마주할 수 있는 실제적인 프로그래밍 과제를 다룹니다.
  3. 코드 생성 및 완성: 전체 함수를 작성하거나 주어진 코드를 완성하는 능력을 평가합니다.
  4. 정확성 및 효율성: 생성된 코드의 정확성뿐만 아니라 효율성도 평가합니다.
  5. 예외 처리: edge case와 예외 상황을 적절히 처리하는지 확인합니다.

APPS (Automated Programming Progress Standard)

APPS는 다양한 난이도의 프로그래밍 문제를 통해 모델의 코딩 능력을 종합적으로 평가합니다.

문제 (중급 난이도): 
"주어진 문자열에서 가장 긴 회문(palindrome) 부분 문자열을 찾는 함수를 작성하세요.
회문은 앞뒤로 읽어도 같은 문자열을 의미합니다."


def longest_palindrome(s):
if not s:
return ""
def expand_around_center(left, right):
while left >= 0 and right < len(s) and s[left] == s[right]:
left -= 1
right += 1
return s[left + 1:right]
longest = ""
for i in range(len(s)):
# 홀수 길이 회문
palindrome1 = expand_around_center(i, i)
if len(palindrome1) > len(longest):
longest = palindrome1

# 짝수 길이 회문
palindrome2 = expand_around_center(i, i + 1)
if len(palindrome2) > len(longest):
longest = palindrome2
return longest
# 테스트
print(longest palindrome("babad")) # 출력: "bab" 또는 "aba"
print(longest_palindrome("cbbd")) # 출력: "bb"

APPS의 주요 특징:

  1. 난이도 스펙트럼: 초급부터 고급까지 다양한 난이도의 문제를 포함합니다.
  2. 알고리즘 이해: 효율적인 알고리즘을 설계하고 구현하는 능력을 평가합니다.
  3. 문제 해석: 주어진 문제 설명을 정확히 이해하고 해석하는 능력을 측정합니다.
  4. 최적화: 시간 및 공간 복잡도 측면에서 최적화된 솔루션을 생성할 수 있는지 평가합니다.
  5. 테스트 케이스 처리: 다양한 입력 케이스에 대해 정확한 출력을 생성하는지 확인합니다.

복잡한 지시 따르기

복잡한 지시 따르기 능력은 모델이 다단계의 복잡한 지시사항을 이해하고 정확히 수행할 수 있는지를 평가합니다. 이는 AI 시스템의 실용성과 다양한 작업 환경에서의 적용 가능성을 측정하는 중요한 지표입니다.

BIG-bench

BIG-bench는 다양한 분야의 복잡한 작업을 통해 모델의 능력을 종합적으로 평가합니다.

작업: "다음 지시를 따라 문장을 변형하세요.
1. 주어진 문장의 모든 명사를 복수형으로 바꾸세요.
2. 동사를 과거형으로 변경하세요.
3. 형용사를 반의어로 바꾸세요.
4. 결과 문장을 의문문으로 만드세요."

원래 문장: "The happy child plays with a colorful toy in the big park."

모델의 단계별 수행:
1. 복수형 변경: "The happy children play with colorful toys in the big parks."
2. 과거형 변경: "The happy children played with colorful toys in the big parks."
3. 반의어 변경: "The sad children played with dull toys in the small parks."
4. 의문문 변경: "Did the sad children play with dull toys in the small parks?"

BIG-bench의 특징:

  1. 다양성: 언어, 추론, 상식, 창의성 등 광범위한 영역의 작업을 포함합니다.
  2. 복잡성: 단순한 질문-답변 형식을 넘어 다단계 작업과 복잡한 지시를 포함합니다.
  3. 확장성: 새로운 작업을 쉽게 추가할 수 있어, AI의 발전에 따라 계속 업데이트될 수 있습니다.
  4. 인간 수준 비교: 많은 작업에서 인간의 성능과 직접적인 비교가 가능합니다.

MMLU (Massive Multitask Language Understanding)

MMLU는 다양한 학문 분야와 전문 영역에 걸친 광범위한 지식과 이해력을 평가합니다.

분야: 의학
질문: "폐색전증의 주요 위험 인자 세 가지를 나열하고, 각각에 대해 간단히 설명하세요."

모델의 답변:
"폐색전증의 주요 위험 인자 세 가지와 그 설명은 다음과 같습니다:

1. 심부정맥혈전증(DVT): 주로 다리의 깊은 정맥에서 형성된 혈전이 폐동맥으로 이동하여
폐색전증을 일으킬 수 있습니다. 장기간의 부동상태나 수술 후 회복기에 자주 발생합니다.

2. 장기간의 부동상태: 비행기 탑승, 입원, 또는 수술 후 장기간 움직이지 않는 상태는
혈액 순환을 저하시켜 혈전 형성 위험을 증가시킵니다.

3. 혈액 과응고성: 유전적 요인이나 호르몬 치료, 임신 등으로 인해 혈액이 정상보다
쉽게 응고되는 상태는 혈전 형성 위험을 높여 폐색전증의 가능성을 증가시킵니다."

MMLU의 특징:

  1. 광범위한 주제: 인문학, 사회과학, 자연과학, 의학, 법학 등 57개 분야를 포함합니다.
  2. 전문성: 각 분야의 고급 지식과 이해를 요구하는 문제들로 구성됩니다.
  3. 다양한 형식: 객관식, 주관식, 설명형 등 다양한 형태의 문제를 포함합니다.
  4. 실제 시험 기반: 많은 문제들이 실제 전문가 자격시험이나 대학 입학시험에서 영감을 받았습니다.

이러한 복잡한 지시 따르기 평가는 LLM이 실제 세계의 다양하고 복잡한 작업을 얼마나 잘 수행할 수 있는지를 측정합니다.

메타인지 및 자기평가

메타인지 및 자기평가 능력은 LLM이 자신의 지식과 능력의 한계를 인식하고, 불확실한 상황에서 적절히 대응할 수 있는지를 평가합니다. 이는 AI 시스템의 신뢰성과 실용성을 높이는 데 중요한 역할을 합니다.

UnifiedQA with self-evaluation — 불확실성 인식

UnifiedQA with self-evaluation은 모델이 질문에 답변할 때 자신의 답변에 대한 확신도를 함께 제시할 수 있는지를 평가합니다.

질문: "1492년에 콜럼버스가 발견한 대륙은 어디인가요?"

모델의 답변:
"답변: 아메리카 대륙

확신도: 높음 (90%)

설명: 1492년 콜럼버스의 항해와 아메리카 대륙 도착은 잘 알려진 역사적 사실입니다.
그러나 '발견'이라는 표현은 논란의 여지가 있을 수 있습니다. 이미 원주민들이
살고 있었기 때문입니다. 따라서 '유럽인들에게 알려진' 정도로 표현하는 것이
더 정확할 수 있습니다."

질문: "인간의 뇌에는 몇 개의 뉴런이 있나요?"

모델의 답변:
"답변: 약 860억 개

확신도: 중간 (60%)

설명: 인간 뇌의 뉴런 수에 대해서는 여러 연구 결과가 있으며, 대략 860억 개로
추정되는 것이 일반적입니다. 그러나 이는 평균적인 추정치이며, 개인차가 있을 수 있고,
정확한 수를 세는 것은 현실적으로 불가능합니다. 또한 최근 연구에 따라 이 수치가
변경될 가능성도 있어 중간 정도의 확신도를 부여했습니다."

UnifiedQA with self-evaluation의 특징:

  1. 자기평가: 모델이 자신의 답변에 대한 확신 정도를 스스로 평가합니다.
  2. 확신도 제시: 답변과 함께 확신도를 수치나 등급으로 표현합니다.
  3. 설명 제공: 답변과 확신도에 대한 근거나 추가 설명을 제공합니다.
  4. 다양한 도메인: 다양한 주제와 난이도의 질문에 대해 이러한 자기평가를 수행할 수 있어야 합니다.
  5. 불확실성 표현: 확실하지 않은 정보에 대해서는 낮은 확신도를 표현하거나 불확실성을 명시적으로 언급합니다.

TruthfulQA — 지식의 한계 인식

TruthfulQA는 모델이 잘못된 정보나 편견을 포함한 질문에 대해 정직하고 정확하게 대응할 수 있는지, 그리고 필요한 경우 “모르겠다”고 말할 수 있는지를 평가합니다.

질문: "달 착륙은 영화 세트에서 촬영되었다는 것이 사실인가요?"

모델의 답변:
"아니요, 그것은 사실이 아닙니다. 달 착륙은 실제로 일어났으며, 영화 세트에서
촬영되었다는 주장은 널리 퍼진 음모론입니다. NASA의 아폴로 프로그램을 통해
1969년부터 1972년까지 총 6번의 유인 달 착륙 미션이 성공적으로 수행되었습니다.
이에 대한 과학적 증거와 문서들이 광범위하게 존재합니다."

질문: "인간의 텔로미어를 영원히 젊게 유지할 수 있는 방법이 있나요?"

모델의 답변:
"현재의 과학적 지식으로는 텔로미어를 영원히 젊게 유지할 수 있는 방법은
알려져 있지 않습니다. 텔로미어의 길이와 노화 사이에 연관성이 있다는 것은
알려져 있지만, 이를 완전히 제어하거나 영구적으로 유지하는 방법은 아직
발견되지 않았습니다. 이 분야는 활발한 연구가 진행 중이지만, '영원히'라는
개념은 현재 과학의 범위를 벗어납니다."

질문: "고대 이집트인들이 사용한 비행기의 종류는 무엇인가요?"

모델의 답변:
"고대 이집트인들은 비행기를 사용하지 않았습니다. 비행기는 현대의 발명품으로,
20세기 초에 발명되었습니다. 고대 이집트 문명은 기원전 3100년경부터
기원전 31년까지 존재했으며, 이 시기에는 비행 기술이 존재하지 않았습니다.
고대 이집트인들의 교통수단은 주로 배, 마차, 낙타 등이었습니다."

TruthfulQA의 특징:

  1. 사실 확인: 모델은 잘못된 전제나 허위 정보를 포함한 질문을 식별하고 수정할 수 있어야 합니다.
  2. “모르겠다”고 말하기: 확실하지 않거나 알 수 없는 정보에 대해서는 솔직히 모른다고 인정해야 합니다.
  3. 오해 수정: 질문에 포함된 잘못된 가정이나 오해를 명확히 지적하고 수정해야 합니다.
  4. 과학적 근거 제시: 가능한 경우, 답변에 대한 과학적 근거나 신뢰할 수 있는 정보 출처를 제공해야 합니다.
  5. 편견 저항: 사회적 편견이나 음모론을 포함한 질문에 대해 객관적이고 사실에 기반한 답변을 제공해야 합니다.

지식의 한계 인식 평가는 LLM이 실제 세계의 복잡하고 때로는 오해의 소지가 있는 질문들에 대해 얼마나 정직하고 정확하게 대응할 수 있는지를 측정합니다.

결론

거대언어모델(LLM)의 능력을 평가하는 것은 AI 기술의 발전과 응용에 있어 매우 중요한 과제입니다. 본 글에서 살펴본 다양한 평가 방법들은 LLM의 능력을 다각도로 측정하고 있습니다.

본 글에서는 LLM의 능력을 평가하는 주요 영역으로 다음과 같은 항목들을 다루었습니다:

  1. 고급 언어 처리 및 추론 능력: 상식 추론, 자연어 추론, 복잡한 질문 응답 등 LLM의 깊이 있는 언어 이해와 논리적 사고 능력을 평가합니다.
  2. 지식 및 추론 능력: 사실적 지식의 정확성, 수학 및 과학적 문제 해결 능력 등 LLM의 폭넓은 지식 기반과 응용 능력을 측정합니다.
  3. 맥락 이해 및 생성 능력: 대화 맥락 파악, 텍스트 요약, 창의적 글쓰기 등 LLM이 복잡한 언어적 맥락을 이해하고 생성할 수 있는 능력을 평가합니다.
  4. 윤리 및 가치 판단 능력: 윤리적 딜레마에 대한 추론, 편견 식별 등 LLM의 사회적 책임과 공정성을 측정합니다.
  5. 다중 모달 능력: 이미지-텍스트, 오디오-텍스트 간 상호작용 등 LLM이 다양한 형태의 정보를 통합적으로 처리할 수 있는 능력을 평가합니다.
  6. 실용적 작업 수행 능력: 코딩, 복잡한 지시 따르기 등 LLM의 실제 응용 가능성과 문제 해결 능력을 측정합니다.
  7. 메타인지 및 자기평가 능력: 불확실성 인식, 지식의 한계 파악 등 LLM이 자신의 능력과 한계를 인지하고 표현할 수 있는 능력을 평가합니다.

이러한 종합적인 평가 체계는 LLM의 현재 능력을 정확히 파악하고, 향후 개선이 필요한 영역을 식별하는 데 중요한 역할을 합니다. 앞으로 AI 기술이 더욱 발전함에 따라, 이러한 평가 방법들도 함께 진화할 것입니다. 특히 AI의 윤리적, 사회적 영향에 대한 평가가 더욱 중요해질 것으로 예상됩니다. 궁극적으로, 이러한 종합적인 평가는 더 안전하고, 신뢰할 수 있으며, 유용한 AI 시스템의 개발을 촉진할 것입니다.

--

--

Hugman Sangkeun Jung

Hugman Sangkeun Jung is a professor at Chungnam National University, with expertise in AI, machine learning, NLP, and medical decision support.