TyDi QA: ชุดข้อมูลพหุภาษาหลากแบบลักษณ์

Can Udomcharoenchaikit
AIResearch.in.th
Published in
2 min readJun 8, 2020

ติดตามข่าวสารและบทความ NLP ในภาษาไทยได้ที่ เพจ อ่าน #NLProc และ เพจ AIResearch.in.th

ระบบถามตอบอัตโนมัติหรือ question answering เป็นระบบที่ใช้งานอย่างแพร่หลายมากขึ้น ไม่ว่าจะเป็นใน Siri หรือ Alexa ที่ผู้ใช้สามารถหาคำตอบที่ต้องการได้โดยการถามคำถาม แทนที่จะต้องไปค้นเอาเองในเอกสารจากระบบค้นหาทั่วไป ซึ่งชุดข้อมูล question answering สำหรับงานวิจัยในปัจจุบันมักจะเน้นไปที่ภาษาอังกฤษ แต่ก็ยังมีผู้ใช้คอมพิวเตอร์หรือสมาร์ทโฟนจำนวนมากที่ไม่สามารถพูดภาษาอังกฤษได้ และภาษาอังกฤษก็ไม่ได้เป็นภาษาที่สามารถครอบคลุมปรากฏการณ์ทางภาษาที่หลากหลายได้ ในวีดีโอข้างล่างนี้ พูดถึงสิ่งที่ภาษาอังกฤษไม่มีแต่ภาษาอื่นมี เช่น reduplication หรือการเปลี่ยนความหมายของคำโดยการพูดคำเดิมซ้ำๆ

ในงาน TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages โดย Jonathan H. Clark และคณะ ได้สร้างชุดข้อมูลสำหรับงานประเภท Question Answering ขึ้นมาใหม่ที่มีภาษาที่มีลักษณะ typology แตกต่างกันถึง 11 ภาษา สิ่งที่น่าสนใจคือเขาใช้คนสร้างคำถามแบบ information-seeking คือเป็นคำถามที่หาข้อมูลที่คนถามอยากรู้ โดยที่ผู้ถามไม่รู้ว่าคำตอบคืออะไรมาก่อน และยังสร้างชุดข้อมูลหลากหลายภาษาโดยไม่ใช้วิธีการแปลอีกด้วย ในตารางด้านล่างจะเห็นว่าเขาเลือกภาษาที่มีความหลากหลายซึ่งเหมาะสำหรับทดสอบโมเดลว่าสามารถ generalize บนภาษาหลากหลายรูปแบบได้หรือไม่ แถมยังมีภาษาไทยให้ลองเล่นด้วย

ซึ่งในชุดข้อมูลนี้ก็มีตัวอย่างที่น่าสนใจและท้าทายหลายอัน เช่นการสะกดชื่อที่หลากหลายในภาษาอารบิก

ภาพจาก https://ai.google.com/research/tydiqa

หรือการเปลี่ยนสลับไปใช้ Latin script ในส่วนของคำตอบ

ในชุดข้อมูลนี้แบ่งเป็นงานย่อยสองงาน คือ Passage Selection Task และ Minimal Answer Span Task

Passage Selection Task (long answer) หาย่อหน้าในบทความวิกิพีเดียที่สามารถตอบคำถามได้ หรือถ้าไม่มีคำตอบในบทความก็ต้องบอกได้ ส่วน Minimal Answer Span Task (short answer) หาข้อความที่สั้นที่สุดในบทความวิกิพีเดียที่สามารถใช้ตอบคำถามได้ หรือตอบว่าใช่หรือไม่ สำหรับคำถามที่ต้องการคำตอบในรูปแบบใช่หรือไม่ หรือถ้าไม่มีคำตอบในบทความก็ต้องบอกได้เช่นกัน ดูภาพประกอบด้านล่างจะช่วยทำให้นึกได้ง่ายขึ้น

ภาพจาก https://ai.google.com/research/tydiqa long answer หมายถึง Passage Selection Task และ short answer หมายถึง Minimal Answer Span Task

สิ่งที่น่าสนใจมากคือวิธีที่เขาเก็บข้อมูล ซึ่งผู้ที่เข้ามามีส่วนร่วมในการสร้างชุดข้อมูลจะเห็นแค่ 100 ตัวอักษรแรกของบทความบนวิกิพีเดีย และเขาต้องเขียนคำถามอะไรบางอย่างที่เขาอยากรู้จริง ๆ เกี่ยวกับบทความนั้นโดยมีข้อบังคับว่าคำตอบของคำถามห้ามอยู่ใน 100 ตัวอักษรแรกของบทความ ซึ่ง 100 ตัวอักษรแรกของบทความนั้นเป็นเพียงตัวกระตุ้นให้ผู้ที่มาร่วมสร้างชุดข้อมูลเกิดความสงสัยที่จะอยากถาม เพราะเขาอยากจะจำลองความสงสัยของมนุษย์ที่เกิดขึ้นในชีวิตจริง ซึ่งข้อบังคับก็มีแค่ข้อนี้อย่างเดียว ซึ่งผู้สร้างคำถามจะสามารถถามอะไรก็ได้ที่สนใจอยากรู้ โดยไม่จำเป็นที่จะต้องเป็นเรื่องใน 100 ตัวอักษรแรกของบทความก็ได้ อีกอย่างคือการที่คำถามถูกสร้างโดยไม่เห็นคำตอบมักจะทำให้คำถามไม่เจาะจงจนเกินไป และไม่ใช้ศัพท์หรือรูปประโยคแบบเดียวกับคำตอบ ซึ่งชุดข้อมูล QA ที่คนเขียนคำถามโดยไม่เคยเห็นคำตอบมักจะมีความยากกว่าเช่น QuAC

หลังจากที่ได้คำถาม เขาก็จะจับคู่คำถามกับบทความวิกิพีเดียให้นักสร้างชุดข้อมูลมา tag ว่าข้อความอันไหนหรือย่อหน้าไหนที่มีคำตอบอยู่ หรือเป็น yes/no สำหรับคำถามที่ต้องการแค่คำตอบว่าใช่หรือไม่ หรือ tag ว่าไม่มีคำตอบอยู่ในบทความ

อีกเรื่องที่น่าสนใจคือเขาสร้างชุดข้อมูลหลากภาษาโดยไม่ได้ใช้วิธีการแปล แต่ใช้วิธีการสร้างคำถามคำตอบแบบเดียวกันทุกภาษาแบบที่เพิ่งเล่ามา ซึ่งปกติการสร้างชุดข้อมูลที่มีหลากหลายภาษามักจะนิยมจ้างนักแปลมาแปลจากภาษาอังกฤษเป็นภาษาอื่น แต่ในเปเปอร์นี้เขามองว่าการแปลชุดข้อมูลมันจะทิ้งร่องรอยบางอย่างเอาไว้และอาจเป็นปัญหาได้ เช่นการวางลำดับคำในภาษาที่วางลำดับคำได้ยืดหยุ่นมักจะยึดแบบลำดับคำตามภาษาต้นทางเวลาแปล มีคนเคยลองเทรนโมเดลแล้วโมเดลแล้วสามารถแยกได้ว่าเอกสารอันไหนถูกแปลมา อันไหนไม่ได้ถูกแปลมา อีกอย่างการสร้างชุดข้อมูลสำหรับภาษานั้นขึ้นมาใหม่เลยทำให้มีการพูดถึงหัวข้อใหม่ ๆ ที่ไม่มีในชุดข้อมูลภาษาอังกฤษ การแปลชุดข้อมูลจากภาษาอังกฤษอาจทำให้คะแนนภาษาอื่นสูงกว่าที่คิดเพราะได้ประโยชน์จากการทำ transfer learning มากกว่า

TyDiQA นับเป็นชุดข้อมูลที่มีวิธีการสร้างที่น่าสนใจแถมยังมีภาษาไทยด้วย หากใครสนใจก็สามารถส่งโมเดลไปทดสอบบนชุดข้อมูลทดสอบลับเพื่อที่จะเทียบผลกับโมเดลจากคนอื่น ๆ ทั่วโลกได้อีกด้วยในลิงก์นี้ https://ai.google.com/research/tydiqa

บทความนี้สนับสนุนโดย:

--

--