뤼이드 NLP 연구원의 INTERSPEECH 2023 참가 및 포스터 발표 후기

Seungtaek Choi
Riiid Teamblog KR
Published in
12 min readSep 11, 2023

안녕하세요, 뤼이드에서 “교육용 멀티모달 AI 연구”를 하는 R.content 팀 리드 최승택입니다.

저희 팀에서는 다양한 연구를 진행하고 있는데, 그 중 “말하기 및 쓰기 언어 진단 (Spoken and Written Language Assessment)” 기술의 연구 성과를 이번 INTERSPEECH 2023 학회에서 발표하게 되어 그 후기를 공유하고자 본 포스팅을 작성하게 되었습니다.

INTERSPEECH 2023 학회

INTERSPEECH 학회 정보

‘INTERSPEECH 2023’은 벌써 24주년을 맞이한 세계적인 음성 언어 처리 학회로, 올해에는 8월 20일부터 4일간 아일랜드 더블린에서 개최되었습니다. INTERSPEECH 학회에서는 전통적인 음성 신호 처리나 음성 분석, 음성 인터페이스를 비롯해서 이제는 대중들에게도 익숙한 음성 인식이나 음성 합성, 대화 시스템(챗봇) 등 현재 산업계에서 중요하게 연구하는 주제까지 다양하게 다루고 있습니다. 학술 발표뿐만 아니라 기술 전시나 네트워킹 기회 등을 제공하기 때문에, 학계와 산업 분야의 모든 전문가가 함께 모여 즐겁게 지식을 공유하는 협력의 장이기도 합니다.

더블린 리피강 옆에 있는 학회장소 (더블린 컨벤션 센터)

INTERSPEECH 2023 참가자와 학회 분위기

INTERSPEECH 2023 학회는 메인 홀에서 여러 주제의 포스터 발표 세션이 열리는 동시에 다른 홀에서 구두 발표 세션이 병렬적으로 진행됩니다. 사진에서 볼 수 있듯이 음성 분야의 연구자들이 예상보다 많이 참여했고, 다들 본인들의 연구 성과와 도메인에 대한 전문 지식을 공유하며 다른 연구자들로부터 배우고자 하는 마음가짐이 강하게 느껴졌습니다.

학회 메인 홀 입구, 키노트 세션과 포스터 세션

최근 AI에 대한 관심도가 높아지고 있기도 하고 음성 분야는 음성 인식(Speech-to-Text; STT)부터 인공지능 스피커까지 전통적으로도 AI와 관련이 깊었던 만큼 이번 INTERSPEECH 2023 학회에 구글, 아마존, 메타 등 다양한 글로벌 기업의 참여도 눈에 띄었습니다. 보통 학회에 참가하면 이렇게 기업 부스에서 본인들의 연구 성과를 자랑하는 자료집을 주기도 하고 방문객들에게 굿즈를 선물로 주기도 합니다.

Meta AI의 굿즈 수첩과 네덜란드에서 열리는 INTERSPEECH 2025의 굿즈 튤립펜

첫날 저녁에는 웰컴 리셉션(Welcome Reception)이 열렸습니다. 학회 측에서 간단한 한 입 거리들과 함께 와인, 맥주 등을 제공하는데 참석자들이 한껏 들뜬 기분으로 삼삼오오 모여서 얘기하는 모습을 볼 수 있었습니다. 더블린에는 세계적으로 가장 유명한 맥주 회사인 기네스가 있어서인지 이번 학회에서 데이터포스라는 기업이 기네스 생맥주를 제공하는 부스를 열기도 했습니다. 다들 더블린에서 기네스의 명성을 알기 때문인지 어떤 세션에서도 보지 못했던 인파가 몰려들기도 했습니다.

데이터포스에서 제공한 기네스 생맥과 기네스에 몰린 인파

학회 첫날 뤼이드의 포스터 발표

Addressing Cold-start Problem for End-to-end Automatic Speech Scoring

이번에 뤼이드에서 발표한 논문의 제목은 Addressing Cold-start Problem for End-to-end Automatic Speech Scoring으로, 뤼이드의 토익 스피킹 채점 서비스에서 가장 중요한 역할을 하고 있는 토익 스피킹 점수 예측 AI 연구 프로젝트의 결과입니다. (자세한 연구 내용은 저의 개인 블로그에 정리되어 있으니 관심 있으신 분들은 한번 보시는 것을 추천드리며, 이번 글에서는 학회에 관한 얘기를 중점적으로 해보겠습니다.)

첨부한 사진은 포스터 발표를 위해 설치해 두고 기다릴 때 찍었던 사진인데, 뤼이드에서는 저 혼자 학회에 참가한 터라 액티브하게 해외 연구자들과 소통하고 있는 사진은 찍을 수가 없어서 아쉬운 마음입니다. 그리고 실제로 뤼이드의 포스터를 구경하고 간 참가자는 셀 수 없을 정도지만, 그중 20명 정도와 긴밀한 대화를 나누었습니다. 가장 많이 받은 질문 top-3를 뽑자면 아래와 같았습니다.

  1. 문제 정의 (”cold-start problem이 무엇입니까?”)
  2. 모델 활용 (”어떤 모델이 가장 좋았습니까?”)
  3. 데이터 수집 (”어떤 데이터가 얼마나 되나요?”)

연구자에 따라 데이터 공개 여부나 더 디테일한 모델 구조를 질문한 경우도 있었고, 우리 연구의 결과 분석에 추가로 각 모델의 특성에 따른 인사이트를 피드백으로 준 경우도 있었습니다. 이러한 연구자들의 관심과 질문을 통해 다시 한번 문제 해결을 위해 관심 가져야 할 것은 역시 모델과 데이터라는 점을 재확인할 수 있었고, 뤼이드가 확보하고 있는 AI 기술력과 그 데이터를 선보임과 동시에 학계 수준에서의 피드백을 받을 수 있어서 좋은 경험이었습니다.

학회 탐방 및 교류하며 얻은 인사이트

학회에 참가한 가장 큰 목표였던 발표 세션이 끝나고, 열심히 행사장을 돌아다니면서 음성 분야의 지식을 흡수했습니다. 다양한 분야가 있었지만, 교육 회사에서 멀티모달 인공지능을 연구하고 있는 팀의 일원으로서 가장 관심이 갔던 영역은 크게 1) 발화 진단 & 발음 진단, 2) 음성 모델 & 언어 모델, 그리고 3) 데이터 부족 & 자기 지도 학습이었습니다.

첫째, 발화 진단 & 발음 진단 (Speech Assessment & Pronunciation Assessment)

저희 논문도 이 영역에 속할 것 같은데, 아무래도 음성 분야인 만큼 발음 문제를 굉장히 중요하게 다루고 있다는 인상을 받았습니다. 다양한 각도에서 발음을 진단하고자 하는 시도들이 있었는데, 영어 원어민과 ESL 간의 차이를 고려하는 연구부터 시작해서 음소/단어/문장 수준에서의 정보를 활용해 발음을 진단하거나 어린아이들의 특성을 고려해야 한다는 연구도 있었습니다. 다른 태스크의 정보를 함께 활용하거나, 음성진단 데이터의 불균형을 objective engineering 관점에서 접근한 논문도 있습니다. 교육이라는 특성상 뤼이드는 완전하지 못 한 입력 데이터를 항상 가정하게 되는데, 이런 상황에서도 활용할 수 있는 중요한 인사이트를 많이 얻을 수 있었습니다.

둘째, 음성 모델 & 언어 모델 (Acoustic Model & Language Model)

최근 AI 분야에서는 좋은 모델 하나를 가져와서 씹고 뜯고 맛보고 즐기는 것이 대세입니다. 음성 학회인 INTERSPEECH 2023도 마찬가지로 Speech Model 혹은 Acoustic Model에 대한 연구가 많이 진행되고 있었습니다. 다양한 분석 연구들이 있었는데, 그중 흥미롭게 봤던 연구 중 하나가 바로 음성 모델의 representation에도 문법적인 정보가 담겨있음을 실험적으로 증명한 논문이었습니다. 음성 모델은 보통 파동 형태의 데이터를 받아들이기 때문에 언어적 특성을 반영하지 못하고 있다고 생각할 수 있는데, 이 논문에서 마치 NLP 분야의 BERT 같은 언어 모델들처럼 음성 모델에도 문법적인 정보가 담겨있음을 보인 것입니다. 뤼이드에서도 학생의 발화를 통해 발음뿐만 아니라 내용이나 문법적인 영역까지도 진단할 수 있는 AI를 연구하고 있었는데, 좋은 음성 모델을 잘 활용하는 것만으로도 문법적인 부분까지 함께 진단할 수 있다는 점에서 반갑기 그지없는 논문이었습니다.

ChatGPT를 INTERSPEECH의 관심사에서 분석한 논문들도 있었습니다. 음성 분야의 언어 연구에서 중요한 문제 중 하나는 음성을 텍스트로 바꾸는 과정(Automatic Speech Recognition; ASR)에서 오류가 추가될 수 있다는 점입니다. 보통 이런 오류 때문에 언어 모델이 사용자의 실제 발화를 잘못 이해하게 되는 경우가 생기게 됩니다. 이 논문에서는 거대 언어 모델인 ChatGPT가 ASR 오류를 스스로 어느 정도 교정해서 알아들을 수 있다는 점을 실험적으로 보였습니다. 쉽게 얘기하자면 ChatGPT가 ASR 오류가 있는 텍스트를 “알잘딱깔센” 한다는 뜻입니다. 이 외에도 언어 모델을 음성 모델과 함께 활용하거나, 인공지능 스피커에 주로 들어가는 의도 감지 (intent detection) 모듈에 관한 연구도 있었습니다.

최근 유명한 Open LLM Leaderboard처럼 음성 모델들을 평가하기 위한 벤치마크 논의도 활발했습니다. 지금의 벤치마크 시스템이 효과적이지 않다는 논문도 있었고, 자기 지도 방식으로 학습된 음성 모델들의 언어학적 지식을 평가하기 위해 새로운 벤치마크 시스템을 제안한 논문도 있었습니다. 구글에서 다양한 음성 모델들의 파인튜닝 성능을 학습 없이 측정하고 비교할 수 있는 방법론을 제시하기도 했습니다. 와중에 INTERSPEECH 학회의 논문들은 코드를 함께 공개하지 않는다는 반성적인 연구도 눈에 띄었습니다. NLP 분야도 GLUE를 비롯해 다양한 벤치마크가 제안되면서 급격하게 커뮤니티가 성장하기 시작했는데, 음성 언어학 분야에서도 이런 움직임들이 점점 늘어가는 것 같다고 느껴졌습니다.

셋째, 데이터 부족 & 자기 지도 학습 (Low Resource & Self-Supervised Learning)

데이터가 넘쳐나는 시대라고 하지만, 역설적으로 모든 AI 연구자는 데이터 부족 문제를 겪고 있을 것입니다. 고품질의 데이터가 부족한 환경에서는 자기 지도 학습 방식을 통해 모델의 성능을 올리는 것이 필수적입니다. 이번 학회에서도 비슷한 시도를 통해 다양한 태스크에서 성능을 올리는 방법을 제시한 논문이 꽤 많이 보였습니다.

데이터가 부족한 상황에서 잘 학습된 모델을 가져와 성능을 올리는 전이 학습(transfer learning) 방법론부터 자기 지도 학습(self-supervised learning)을 통한 사전 학습(pre-training) 방법론까지 다양한 방법론들이 논의되었습니다. 자연어 처리 분야에서 이미 연구가 진행된 방법론들도 음성 언어 처리 분야에서 그들만의 특성을 가지고 새롭게 연구되고 있었고, 다른 분야에는 없었던 새로운 모델 학습 방법론이 제시되기도 했습니다.

교육 분야에서도 항상 데이터 부족이 문제가 됩니다. 이번 INTERSPEECH 2023 학회를 통해 산업과 학계에서 겪고 있는 데이터 부족 문제와 이를 해결하기 위한 간단하면서도 효과적인 방법들을 배워올 수 있었습니다.

마치며

이번 INTERSPEECH 2023 학회 참가를 통해 아래와 같이 많은 점을 보고 느낄 수 있었습니다.

첫째, 음성 분야의 AI에 대해서 많이 배울 수 있었습니다. 제가 조금 더 음성 분야에 전문성이 있었다면 더 많은 것들을 보고 더 많은 것들을 느낄 수 있지 않았을까 하는 아쉬움이 남지만 당장 현업에 적용할 수 있는 기술들을 배우기도 했고 장기적으로 회사가 나아가야 할 방향에 대해서도 고민할 좋은 기회였습니다.

둘째, 다시 한번 데이터가 중요하다는 점을 느낄 수 있었습니다. NLP에서 특히 그랬다고 생각하는데, AI 분야에서는 데이터(혹은 벤치마크)가 한번 만들어지면 데이터에 굶주린 사람들이 달려들어 빠르게 성능을 올리고, 그 방법론들을 서로 공유하며 그 영향력을 전파하여 결국엔 시장 자체가 확장되는 일이 잦았습니다. 이번 INTERSPEECH 2023에서는 이전에 제가 느꼈던 것보다 훨씬 더 많은 데이터가 몰리고 있다는 것이 눈에 보일 정도였고, 그만큼 더 빠르게 발전할 AI를 기대하게 만드는 경험이었습니다.

마지막으로, 역시나지만 아직은 온라인으로 열리는 학회보단 오프라인으로 열리는 학회가 지식을 빠르게 흡수하는 데에 좋다는 점을 느꼈습니다. 저는 학회장에서 특별히 관심 있는 발표가 따로 있는 게 아니라면 모든 포스터를 훑으면서 저자들에게 일대일로 속성과외를 받는 것을 선호하는 편인데, 논문이나 발표만으로는 드러나지 않는 세세한 디테일을 전문가들에게 물어볼 소중한 기회였습니다. 동시에 뤼이드에서 교육용 AI를 연구함에 있어서 오프라인과 다름없는 수준의 혹은 그 이상의 개인화된 교육을 제공하기 위해서는 더 분발해야겠다는 생각이 들었습니다.

이상으로 ‘INTERSPEECH 2023 참가 및 포스터 발표 후기를 마칩니다. 읽어 주셔서 감사합니다.

--

--