สรุปงานวิจัยแบบสั้น ๆ — EMNLP 2019 Best Paper Award: Specializing Word Embeddings (for Parsing) by Information Bottleneck

Pisut Oncharoen

Published in

botnoi-classroom

2 min readDec 12, 2019

EMNLP 2019 Best Paper Award: Specializing Word Embeddings (for Parsing) by Information Bottleneck

Authors: Xiang Lisa Li and Jason Eisner from Johns Hopkins University.

(https://www.aclweb.org/anthology/D19-1276.pdf)

งานวิจัยที่ได้รับรางวัล Best Paper ใน conference EMNLP 2019 ครับ

ในงานวิจัยนี้ได้นำเสนอวิธีการบีบอัด word embeddings เพื่อสกัดเอาเฉพาะข้อมูลส่วนที่สำคัญที่ช่วยในการกำกับความสัมพันธ์ระหว่างคำ (dependency parsing)

สรุปย่อ ๆ :

งานด้าน NLP ในปัจจุบันมักจะนิยมใช้ pre-trained contextual word embeddings เช่น ELMo หรือ BERT เป็นต้น แล้วนำไปต่อกับ neural network อีกชั้น เพื่อให้ได้ผลลัพธ์ตามงานที่เราต้องการ เช่น classification, QA, NER, POS tagging เป็นต้น หลังจากนั้นจึงทำการเทรนโมเดลเพื่อปรับ weight ต่าง ๆ ให้เหมาะกับงานนั้น ๆ (fine-tuning)

แต่ในงานวิจัยนี้ ได้นำเสนอแนวคิดใหม่ โดยมองว่า pre-trained contextual word embeddings นั้นมีข้อมูลที่สำคัญที่เราสามารถนำมาใช้ได้ จึงได้เสนอแนวคิดการสกัดเอาข้อมูลจาก word embeddings แทนการ fine-tuning โมเดล ซึ่งกระบวนการดังกล่าวจะใช้ variational information bottleneck (VIB) ในการบีบอัดข้อมูลเพื่อสกัดเฉพาะส่วนที่สำคัญเพื่อใช้สำหรับการกำกับความสัมพันธ์ระหว่างคำ (dependency parsing)

ในงานวิจัยนี้ได้ทดลองทำ POS tagging กับข้อมูลภาษาต่าง ๆ ซึ่งพบว่า การใช้ VIB ให้ผลลัพธ์ได้ดีกว่า การไม่บีบอัดข้อมูล รวมทั้งได้ผลลัพธ์ที่ดีกว่าการบีบอัดข้อมูลด้วยวิธีการอื่น ๆ เช่น PCA และ MLP ซึ่งวิธีการที่ได้นำเสนอนั้น (VIB) ก็ให้ผลลัพธ์ได้ดี ใน 8 จาก 9 ภาษาที่นำมาใช้ทดลองครับ

— — — — — — — — — — — — — — — — — — — — — — — —

สนใจเรียน Data science -> Botnoi Classroom

สนใจใช้บริการในสร้างแชทบอท หรือให้คำปรึกษาเกี่ยวกับ AI & data science ติดต่อได้ผ่านเวป -> Botnoi และ FB Page Botnoi Consulting

สรุปงานวิจัยแบบสั้น ๆ — EMNLP 2019 Best Paper Award: Specializing Word Embeddings (for Parsing) by Information Bottleneck

Written by Pisut Oncharoen