자연어 처리 문제 개관 — Understanding 관점 (1/2)

Hugman Sangkeun Jung
8 min readMay 10, 2024

--

(You can find the English version of the post at this link.)

자연어 처리(Natural Language Processing, NLP)는 인공지능(AI) 분야에서 가장 빠르게 발전하고 있는 분야 중 하나입니다. 최근에는 특히 두 가지 유형의 문제가 많이 연구되고 있습니다. 이 두 문제 유형은 NLP 연구의 방향과 목표를 명확히 보여 주며, 각각 실용적인 측면과 이론적인 측면에서 중요한 의미를 갖습니다. 이 글은 2개 유형을 각각 설명하는 시리즈 중 두번째에 해당합니다. ‘응용’관점에서 살펴본 자연어처리 개관은 다음 링크에서 살펴볼 수 있습니다.

자연어처리의 문제들 중 두 번째 유형은 기계의 ‘언어 이해/해석/추론’ 능력을 파악하는 평가로, AI 모델이 얼마나 언어와 문화를 잘 이해하고 있는지를 측정하는 것을 목적으로 합니다. 예를 들어, entailment, 의미론적 유사성 판단, 문맥적 의미 분석, 다중 선택형 질문 등이 이에 해당합니다. 이러한 평가를 통해 얻은 결과는 해당 언어모델이 다양한 문제를 해결하기 위한 기반모델(Backbone Model)로서의 잠재력을 평가하는 데 사용될 수 있습니다.

Image by the Author using ChatGPT

역대로 몇 가지의 언어 이해 능력을 중심으로 하는 벤치마크 데이터셋들이 존재해 왔고, 각각은 뚜렷한 목표를 가지고 설계되었습니다. 다음은 대표적인 벤치마크들입니다.

  • GLUE (General Language Understanding Evaluation): 다양한 NLP 작업을 포함하여 종합적인 언어 이해 능력을 평가합니다. 작업에는 자연어 추론, 감성 분석, 문장 유사성 평가 등이 포함됩니다.
  • SuperGLUE: GLUE의 후속으로, 더 어려운 NLP 작업들을 포함하여 언어 모델의 이해 능력을 깊게 평가합니다. 예를 들어, 더 복잡한 추론을 요구하는 질문 응답과 더 세밀한 감성 분석 등이 이에 속합니다.

최근에는 초대형 언어 모델(LLM)가 두각됨에 따라 LLM에 특화된 평가용 벤치마크들이 소개되기도 하였습니다.

  • BIG-bench: Google에서 발표한 이 벤치마크는 초대형 언어 모델의 능력을 평가하기 위해 설계되었으며, 창의성, 상식, 및 언어 추론 등 다양한 측면을 테스트합니다.
  • Hugging Face’s Model-Eval: Hugging Face에서 제공하는 이 플랫폼은 다양한 언어 모델을 위한 포괄적인 평가 도구를 제공하며, 모델의 언어 이해 능력, 번역 능력, 그리고 특정 테스크 성능을 측정합니다.
  • Dynabench: Facebook AI Research에서 개발한 이 도구는 모델을 동적으로 평가하여 모델이 어떻게 학습하고, 어디에서 오류를 범하는지를 파악할 수 있게 합니다.

이 글에서는 GLUE와 SuperGLUE에서 다루는 자연어처리 문제의 유형, 모델링, 평가방법등을 알아보겠습니다. 거대언어모델을 위한 문제유형등은 다음 시리즈에서 다시 다루도록 하겠습니다.

GLUE (General Language Understanding Evaluation)

GLUE 벤치마크에는 다음과 같은 다양한 NLP 작업이 포함됩니다.

  • CoLA (Corpus of Linguistic Acceptability): 문장이 언어학적으로 받아들일 수 있는지 판단합니다.
  • SST-2 (Stanford Sentiment Treebank): 문장의 감성을 긍정적 혹은 부정적으로 분류합니다.
  • MRPC (Microsoft Research Paraphrase Corpus): 두 문장이 서로 paraphrase 관계인지 판단합니다.
  • STS-B (Semantic Textual Similarity Benchmark): 두 문장 사이의 의미적 유사도를 점수화합니다.
  • QQP (Quora Question Pairs): 두 질문이 의미적으로 동일한지 평가합니다.
  • MNLI (Multi-Genre Natural Language Inference): 주어진 전제에 대해 가설이 참인지 거짓인지, 혹은 무관한지 판단합니다.
  • QNLI (Question Natural Language Inference): 질문과 주어진 문단으로부터 답이 유도될 수 있는지 판단합니다.
  • RTE (Recognizing Textual Entailment): 짧은 텍스트 쌍에서 한 텍스트가 다른 텍스트의 내용을 함축하는지 판단합니다.
  • WNLI (Winograd Schema Challenge): 문장 내의 대명사 해석을 올바르게 이해하는지 평가합니다.

GLUE 의 각 문제들을 테이블로 정리하면 아래와 같습니다.

GLUE Tasks

SuperGLUE

SuperGLUE 벤치마크는 GLUE보다 더 어려운 작업으로 구성되어 있으며, 각 작업은 다음과 같습니다.

  • BoolQ (Boolean Questions): 자연어로 된 질문에 대해 ‘예’ 또는 ‘아니오’로 답합니다.
  • CB (CommitmentBank): 텍스트 내의 문장이 주어진 명제를 함축하는지 판단합니다.
  • COPA (Choice of Plausible Alternatives): 주어진 문장에 대해 원인 또는 결과를 선택합니다.
  • MultiRC (Multi-Sentence Reading Comprehension): 여러 문장으로 이루어진 텍스트에서 질문에 대한 답을 찾습니다.
  • ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset): 주어진 뉴스 기사와 질문에서 빈칸을 채우는 작업입니다.
  • WiC (Words in Context): 같은 단어가 다른 문맥에서 다른 의미를 가지는지 판단합니다.
  • WSC (Winograd Schema Challenge): Winograd Schema 문제를 통해 모델의 상식적 추론 능력을 평가합니다.

SuperGLEU의 각 문제들을 테이블로 정리하면 아래와 같습니다.

SuperGLUE Tasks

문제 모델링

위 GLUE와 SuperGLUE의 문제 유형을 잘 살펴보면, 거의 모든 문제가 N개의 토큰을 입력으로 받아, 1개의 숫자 혹은 클래스 라벨을 출력하는 문제라는 것을 알 수 있습니다. 다양한 형태의 텍스트가 입력이 될 수는 있으나, 출력은 간단한 형태로 제한되는 특징을 보여주는 것이죠.

따라서 GLUE나 SuperGLUE의 모든 문제는 N21 문제로 모델링이 가능하며, 이러한 유형의 문제에 특화된 모델을 사용하는 것이 효과적이라는 것을 미루어 짐작할 수 있습니다. 그렇기 때문에 GLUE나 SuperGLUE 형태의 문제는 생성형 모델이 아닌 BERT같은 트랜스포머 인코더 계열 모델들이 적합하며 실제로 매우 잘 작동됩니다.

예를 위해, GLUE / SuperGLUE 의 대표적인 문제를 모델링 해보겠습니다. 각 문제들은 크게 한 문장만을 입력으로 사용하는 문제와 두 문장을 입력으로 사용하는 문제로 구분해볼 수 있습니다. 각각 구현해보죠.

입력이 한 문장만 들어오는 경우

CoLA (Corpus of Linguistic Acceptability) 같은 태스크가 한개의 문장에 대한 하나의 출력을 내놓는 작업입니다. 이 작업에서는 모델이 주어진 문장이 언어학적으로 받아들일 수 있는지를 판단해야 합니다. 이는 문장의 문법적 정확성만을 평가하는 단순하지만 중요한 작업입니다. 이러한 형태의 문제는 위의 테이블에서 추가 확인하시기 바랍니다.

CoLA — N21 Problem Modeling with Transformer

입력이 두 문장 들어오는 경우

두 문장을 입력으로 사용하는 경우는 MRPC (Microsoft Research Paraphrase Corpus)작업이 좋은 예입니다. 이 작업에서는 두 문장이 서로 다른 표현을 사용하여 동일한 의미를 나타내는지, 즉 서로 paraphrase 관계인지를 판단합니다. 이는 문장 간의 의미적 관계를 이해하는 능력을 평가하는 데 중요합니다. 이러한 형태의 문제는 위의 테이블에서 추가 확인하시기 바랍니다.

MRPC — N21 Problem Modeling with Transformer

결론

이 글에서 우리는 최근 많이 다루어지고 있는 자연어처리 문제들 중 기반 언어모델의 언어이해능력 평가를 위해 만들어진 문제를 살펴보았습니다. 특히, 주요 벤치마크 데이터셋인 GLUE와 SuperGLUE를 자세하게 살펴보았습니다. 이 데이터셋들은 언어 모델의 능력을 평가하는 과정에서 다양한 NLP 문제들이 복잡한 어플리케이션으로 발전할 수 있는 잠재력을 확인하기 위해 주로 활용됩니다. 또한 GLUE와 SuperGLUE는 대부분 N21 문제로 모델링 될 수 있다는 것도 확인했습니다. 이는 문제의 모델링과 구현을 매우 단순화할 수 있음을 의미합니다.

--

--

Hugman Sangkeun Jung

Hugman Sangkeun Jung is a professor at Chungnam National University, with expertise in AI, machine learning, NLP, and medical decision support.