งาน Advanced Thai NLP Research: Beyond Basic NLP Tools

Can Udomcharoenchaikit
AIResearch.in.th
Published in
2 min readDec 13, 2019

สถาบันวิทยสิริเมธี (VISTEC), วังจันทร์วัลเลย์ — วันที่ 11 ธันวาคม 2562 หนึ่งในเวทีเสวนาในงาน IST-FR 2019 : Gateway to Informatics Research at EECi ก็คือ Advanced Thai NLP Research: Beyond Basic NLP Tools โดยมี สรณะ นุชอนงค์, กรกฎ เชาวะวณิช, เทพชัย ทรัพย์นิธิ, และปรัชญา บุญขวัญ มาพูดคุยเกี่ยวกับงานวิจัย NLP ภาษาไทย

เทพชัย ทรัพย์นิธิ หัวหน้าห้องปฏิบัติการวิจัยเทคโนโลยีภาษาธรรมชาติและความหมาย NECTEC พูดเกี่ยวกับประวัติศาสตร์ของการทำวิจัยในประเทศไทย โดยเขาเริ่มพูดถึงชุดข้อมูลสมัยแรก ๆ ตั้งแต่ยุค 80–90 เช่น ARIANE (Machine Translation), Multilingual Machine Translation Project, และ ORCHID ซึ่งการที่มีทุนสนับสนุนให้สร้างชุดข้อมูลเหล่านี้ ทำให้เกิดหน่วยวิจัย NLP ในไทย และชุมชน NLP ขึ้นมา เขาได้พูดถึงโปรเจคต่าง ๆ ตามลำดับเวลา จนถึงโปรเจคปัจจุบัน ASEAN IVO project ที่ทำเกี่ยวกับ treebank และ speech-to-speech translation

คุณเทพชัย ได้เล่าถึงประวัติ conference ด้าน NLP ในไทย ตั้งแต่ปี 1997 ถึงปัจุบัน เช่นงาน NLPRS, SNLP, MT Summit X, IJCNLP, และล่าสุด iSAI-NLP

คุณเทพชัยเริ่มทำงาน NLP ตั้งแต่ปี 2001 ตั้งแต่งานวิจัยเครื่องมือ NLP สำหรับภาษาไทยต่างๆ เช่น ตัดคำ machine translation และมีส่วนร่วมในการสร้างชุดข้อมูลต่าง ๆ นอกจากนี้เขายังได้เล่าถึงประวัติศาสตร์ชุดข้อมูล พจนานุกรมอิเล็กทรอนิกส์ต่าง ๆ ในไทย และพูดถึงเทคโนโลยีการแปลภาษาไทยตั้งแต่ใช้กฏ จนถึงยุค neural machine translation

สรณะ นุชอนงค์ รักษาการคณบดีสำนักวิชาวิทยาศาสตร์และเทคโนโลยีสารสนเทศ, สถาบันวิทยสิริเมธี และ ผู้อำนวยการสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย เขาพูดถึงช่องว่างในเทคโนโลยีภาษาไทย เช่นทุกคนอยากได้แอปพลิเคชันเท่ ๆ แต่เรายังไม่มี model ที่แม่นยำ และยังไม่มีชุดข้อมูลที่มากพอ ที่จะสร้างโมเดลที่แม่นยำ เขาเริ่มเห็นปัญหาตอนพบว่าพบว่าไม่มี library สำหรับภาษาไทยที่ทำได้แบบ library ภาษาอังกฤษ

เขาไม่เชื่อในการแก้ปัญหาด้วยการใช้บริการผ่าน API เพราะเราไม่ควรรอให้คนอื่นทำให้เพราะภาษาไทยไม่ใช่ภาษาที่คนอื่นให้ความสำคัญ และยังมีปัญหาเรื่องความเป็นส่วนตัวของข้อมูล การที่เราสร้าง model เองได้ก็ต้องมี data ทุกคนอยากได้ application ดีๆ แต่เรายังไม่มี data และ model

ปัจจุบันเขามีส่วนร่วมในการวางแผนและสร้างชุดข้อมูลสำหรับภาษาไทย เช่นชุดข้อมูลสำหรับงานหาชื่อเฉพาะ (NER) และชุดข้อมูลสำหรับแปลภาษา รวมถึงชุดข้อมูลสำหรับภาษามือ

กรกช เชาว์วาณิช นักวิจัยจากสถาบันวิทยสิริเมธี เขาเริ่มทำ NLP โดยเริ่มจากทำ speech analysis สำหรับวรรณยุกต์ภาษาไทยสมัยเรียนปริญญาตรี ปี4 และได้ทำงาน machine translation ที่ NECTEC และงาน localization ก่อนที่เขาจะไปบวชเป็นเวลาสิบปี หลังสึกออกมาเขาพบว่า แม้เวลาผ่านไปนานแต่โปรแกรมตัดคำที่มีก็ยังไม่ค่อยดี เขาจึงเขียนโปรแกรมตัดคำขึ้นมาเอง ซึ่งเขาได้เอาไปรวมในโปรเจค pythainlp ปัจจุบันเขาได้ช่วยทำงานในการสร้างชุดข้อมูลต่าง ๆ และทำงานกับ VISTEC สุดท้ายเขาพูดถึงโปรเจค open source สำหรับ NLP ต่าง ๆ ที่รองรับภาษาไทยเช่น XLM ของ facebook และแบ่งปันวิธีการใช้งานบน Google Colab

ปรัชญา บุญขวัญ นักวิจัยจาก NECTEC เริ่มทำงาน NLP ตั้งแต่สมัยเรียนปริญญาตรีและเคยทำงาน machine translation สำหรับ Cobra Gold ของกองทัพสหรัฐ ตอนนี้เขาพยายามสร้างเครื่องมือ NLP ภาษาไทยที่จะทำงาน NLP หลายๆงาน(ตัดคำ, POS, NER, sentence segmentation) พร้อมกันแบบ joint model เขามองว่าถึงแม้เราจะมีชุดข้อมูลหลากหลาย แต่มันกลับกระจัดกระจายและใช้กฏในการ annotate แตกต่างกัน สิ่งที่ยากคือการเทรนโมเดลโดยใช้ชุดข้อมูลที่กระจัดกระจายแบบนี้ ซึ่งตอนนี้เขากำลังศึกษา Bayesian Approach ซึ่งใช้การ sample มาทดแทน annotation level ส่วนที่หายไป

ติดตามข่าวสารและบทความเกี่ยวกับ NLP ได้ที่เพจ อ่าน #NLProc

บทความนี้สนับสนุนโดย:

--

--