예제의 택스트까지 학습해 정오답예측 정확도 높인 모델 ‘EERNN’

Riiid Teamblog
Riiid Teamblog KR
Published in
8 min readJul 16, 2021

By 김민삼

김민삼님은 Riiid의 AI Research Scientist로 KT(정오답예측), SP(점수예측), RS(문제추천) 등 다양한 AIEd 연구를 담당하고 있습니다

이전의 BKT (Bayesian Knowledge Tracing), DKT (Deep Knowledge Tracing)에 사용된 모델들의 경우 학습자가 과거에 풀었던 문제들의 ID와 정오답 여부만을 정보로 받아 훈련을 했었습니다. 문제들의 ID는 대개 One-hot Vector로 표현되며 정오답 여부는 Boolean으로 표현되죠.

하지만 여기서 잘 생각해보면, 현재 연구되고 있는 딥러닝의 자연어처리 기술들이 DKT에서 잘 활용되어지고 있지않다는 점이 분명해집니다. 최근의 외국어 번역 인공지능이나, 동영상 자동 태그 인공지능을 보면 인공지능 모델들이 자연어의 의미에 대해 이해하고 있는 정도가 빠른 속도로 발전하고 있다는 걸 알 수 있습니다. 이번에 소개드리는 논문은 이렇게 자연어 텍스트를 KT에 활용하는 첫 적용사례들 중 하나입니다. 보다 구체적으로, 학습자들이 마주하는 예제들의 자연어 텍스트 정보까지 모델에 공급해 훈련할 경우 더 학습자 성과에 대해 보다 정확한 예측이 가능할지에 대한 연구라고 할 수 있겠습니다.

예를 들자면, 위의 학생 $s_1$이 문제 $e_1, e_2, e_3, e_4$를 각각 맞추고, 틀리고, 맞추고, 맞추었다는 가정 하에 $e_5$를 풀었다면, 정답 확률을 어떻게 될까요? 만약 자연어 텍스트를 공급받지 못한 인공지능 모델의 관점에서 본다면 이대로 여러 명의 학생들 $s_1, s_2, …, s_n$이 여러 문제들 $e_1, e_2, …, e_m$들에 대한 과거 데이터를 기반으로 문제들 사이의 상관관계를 기반으로 아직 학생이 실제로 풀지 않은 문제에 대한 정답 확률을 추산하겠죠. 하지만 학생들을 가르치는 실제 교사라면 각각의 문제에 대해서 훨씬 더 많은 정보를 알고 있습니다.

실제 문제가 무엇을 묻는 지에 대한 자연어 표현을 인공지능 모델이 이해할 수 있다면 굳이 많은 양의 학생이 과거에 풀었던 많은 양의 기록을 보지 않더라도 $e_5$는 $e_1, e_3$와 상관관계가 높다는 걸 유추해 낼 수 있겠죠. 특히나 $e_1, e_5$같은 경우 문제 형식이 거의 같다고 볼 수 있으니, 실제 교사라면 $e_1$문제를 맞춘 $s_1$학생이 $e_5$역시 맞출 확률이 높다고 보겠죠.

이번에 소개드리는 2018년도 AAAI 논문 Exercise-Enhanced Sequential Modeling for Student Performance Prediction은 EERNN (Exercise-Enhanced Recurrent Neural Network) 모델에서 문제의 자연어 텍스트를 모델에 임베딩 해주어 이런 패턴을 학습하고자 했습니다. 저자들은 Word2Vec이라는 유명한 자연어 모델링 기반 단어 임베딩을 사용해서 예제의 단어 하나하나를 연속공간에 투영시키고, 투영된 단어 리스트를 Bi-directional LSTM이라는 회귀 신경망 모델에 공급해 예제 문제의 벡터 표현을 연산합니다. 밑의 Figure 4는 $w_i$의 예제 내 단어들이 Bi-directional LSTM으로 공급되고 문제 $e_i$가 어떻게 하나의 벡터 $x_i$로 변환되는지 시각화합니다.

모델 내에서 문제의 표현 방식 ($x_i$) 이 정해졌으니 학생이 이 문제를 어떻게 소화하고 학습하는지에 대한 패턴을 모델이 어떻게 표현하는지 아래 도식을 통해 확인해 보겠습니다.

이 논문에선 저자들이 EERNN 이라는 모델을 소개하는데, 두 가지의 형태를 시험합니다. 첫째는 위 그림 왼쪽의 (a)EERNN-M (M for Markov) 이며 둘째는 오른쪽의 (b) EERNN-A (A for Attention) 모델입니다. 이름에서 알 수 있듯이 왼쪽의 모델은 전 문제를 풀 때까지의 학생을 표현하는 Latent Variable $h_T$와 새로 맞닥뜨리는 문제 $x_{T+1}$의 정보만이 직접적으로 모델의 타겟 산출물을 정하는 반면, 오른쪽의 모델은 Attention Layer를 활용해 문제 $x_{T+1}$이 이전의 어떤 문제들과 얼마나 상관관계가 있는지를 확인해 학생의 표현식 $h_t$의 가중치 평균값을 계산합니다. 이 가중치 평균값 $h_{att}$이 새 문제 Embedding인 $x_{T+1}$과 연결된 뒤 일반적으로 비선형처리를 구현하는 Feedforward neural network롤 지나 정답 확률인 0과 1 사이의 예측값이 도출됩니다.

이제 저자들의 모델들이 어떤 실험적 검증을 거치는 지에 대해 살펴보도록 하죠. 우선 데이터셋은 저자들이 속한 회사의 사내 Private Dataset 을 쓴다는 점이 아쉽긴 하지만 제안된 모델들이 다양한 모델들과 비교되었다는 점은 논문 연구 내용의 강점이라고 생각합니다. 실험은 사내에서 수집한 고등학생들의 수학 문제 데이터를 사용하며, 테스트된 KT 모델들은 아래와 같습니다.

  1. BKT: Bayesian KT 는 학생의 지식상태 Boolean 변수들을 HMM을 기반으로 모델링합니다.
  2. IRT: BKT에 문제를 운 좋게 찍어서 맞추거나 익숙한 개념의 문제에 대해 실수로 틀리는 확률을 추가적으로 모델링합니다.
  3. PMF: Collaborative Filtering과 비슷한 방식으로 학생의 개념 이해에 대한 Latent Vector를 연산해 문제와의 내적을 통해 모델링합니다.
  4. DKT: RNN/LSTM을 사용하여 확률을 예측합니다.
  5. LSTM + (M/A): LSTM을 사용하여 확률을 예측합니다. 4와 가장 상이한 점은 인풋 데이터 인코딩 방식입니다. 6과 상이한 점은 예시의 텍스트 내용을 모델이 이해하지 않고 문제를 관련 개념만을 표시한 few-hot vector로 받아들인다는 점입니다. (M/A)는 어텐션 레이어의 사용여부를 나타낸다고 볼 수 있습니다.
  6. EERNN + (M/A): 저자들이 제안한 모델로써, 문제의 텍스트와 학생의 결과를 LSTM으로 인코딩하고 새로 맞닥뜨리는 문제의 임베딩을 학생의 상태벡터에 연결하여 정답확률을 산출합니다.

우선 Score Prediction 과 Knowledge Tracing 의 결과는 다음과 같습니다.

결과로부터 알 수 있는 몇 가지 경향성은 아래와 같습니다.

  • EERNN모델의 성능이 기타 모델들에 비해 유의미하게 우수합니다.
  • Attention은 EERNN과 LSTM모델 둘 다에게 유용합니다.

따라서 논문에서 추가적으로 연구한 부분은 바로 Attention 메커니즘이 구체적으로 어떻게 EERNN 모델에게 도움이 되는지에 관한 내용이었습니다. 저자들이 주목한 부분은 바로 모델에게 주어진 학생 교육 데이터의 길이였습니다. 상식적으로 모델에게 더 긴, 더 많은 시간의 교육 데이터/히스토리를 제공했을 때, 다음 번 풀 문제에 대한 정답 확률 예측이 쉬울 것 같다는 가정을 사용했겠죠. 아래의 그래프는 EERNNA와 EERNNM이 다른 길이의 시퀀스 인풋에 대해 어떻게 기능하는지를 표현한 그래프입니다.

쉽게 알 수 있는 것은, 시퀀스 길이가 20을 넘어가면 EERNNA 모델은 추가적인 정보에 대해 성능 향상이 눈에 띄지 않는 반면, EERNNM 모델의 경우 성능 향상이 꾸준히 이루어진다는 점입니다. Attention 레이어가 저자들의 의도대로 잘 작동하는 듯합니다. LSTM 모델에 대해서도 Attention 레이어에 대한 같은 분석이 진행되었으면 더 좋았겠다는 아쉬움이 듭니다. 아래는 사례를 통한 Attention 레이어의 작동 메커니즘인데요, 예측해야하는 문제와 실제로 비슷한 내용의 문제에 Attention 값이 높게 설정되어 있음을 보여줍니다.

사실 모델에 들어가는 인풋 자체가 다른 걸 감안하면 비교 모델들의 성능을 압도한 사실이 어느 정도 당연한 결과라고 할 수도 있겠지만, 예제의 자연어 텍스트 내용을 KT성능 향상에 유의미한 도움을 가져다준 최초의 성공적인 결과 중 하나임에 의미가 있으며, Attention Layer가 어떻게 KT에 설명 가능하고 직관적인 도움을 주는지 연구한 논문이었습니다.

Reference

Su, Y., Liu, Q., Liu, Q., Huang, Z., Yin, Y., Chen, E., Ding, C., Wei, S. and Hu, G., 2018, April. Exercise-enhanced sequential modeling for student performance prediction. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No.1).

--

--

Riiid Teamblog
Riiid Teamblog KR

교육 현장에서 실제 학습 효과를 입증하고 그 영향력을 확대하고 있는 뤼이드의 AI 기술 연구, 엔지니어링, 이를 가장 효율적으로 비즈니스화 하는 AIOps 및 개발 문화 등에 대한 실질적인 이야기를 나눕니다.