TyDi QA: ชุดข้อมูลพหุภาษาหลากแบบลักษณ์
ติดตามข่าวสารและบทความ NLP ในภาษาไทยได้ที่ เพจ อ่าน #NLProc และ เพจ AIResearch.in.th
ระบบถามตอบอัตโนมัติหรือ question answering เป็นระบบที่ใช้งานอย่างแพร่หลายมากขึ้น ไม่ว่าจะเป็นใน Siri หรือ Alexa ที่ผู้ใช้สามารถหาคำตอบที่ต้องการได้โดยการถามคำถาม แทนที่จะต้องไปค้นเอาเองในเอกสารจากระบบค้นหาทั่วไป ซึ่งชุดข้อมูล question answering สำหรับงานวิจัยในปัจจุบันมักจะเน้นไปที่ภาษาอังกฤษ แต่ก็ยังมีผู้ใช้คอมพิวเตอร์หรือสมาร์ทโฟนจำนวนมากที่ไม่สามารถพูดภาษาอังกฤษได้ และภาษาอังกฤษก็ไม่ได้เป็นภาษาที่สามารถครอบคลุมปรากฏการณ์ทางภาษาที่หลากหลายได้ ในวีดีโอข้างล่างนี้ พูดถึงสิ่งที่ภาษาอังกฤษไม่มีแต่ภาษาอื่นมี เช่น reduplication หรือการเปลี่ยนความหมายของคำโดยการพูดคำเดิมซ้ำๆ
ในงาน TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages โดย Jonathan H. Clark และคณะ ได้สร้างชุดข้อมูลสำหรับงานประเภท Question Answering ขึ้นมาใหม่ที่มีภาษาที่มีลักษณะ typology แตกต่างกันถึง 11 ภาษา สิ่งที่น่าสนใจคือเขาใช้คนสร้างคำถามแบบ information-seeking คือเป็นคำถามที่หาข้อมูลที่คนถามอยากรู้ โดยที่ผู้ถามไม่รู้ว่าคำตอบคืออะไรมาก่อน และยังสร้างชุดข้อมูลหลากหลายภาษาโดยไม่ใช้วิธีการแปลอีกด้วย ในตารางด้านล่างจะเห็นว่าเขาเลือกภาษาที่มีความหลากหลายซึ่งเหมาะสำหรับทดสอบโมเดลว่าสามารถ generalize บนภาษาหลากหลายรูปแบบได้หรือไม่ แถมยังมีภาษาไทยให้ลองเล่นด้วย
ซึ่งในชุดข้อมูลนี้ก็มีตัวอย่างที่น่าสนใจและท้าทายหลายอัน เช่นการสะกดชื่อที่หลากหลายในภาษาอารบิก
หรือการเปลี่ยนสลับไปใช้ Latin script ในส่วนของคำตอบ
ในชุดข้อมูลนี้แบ่งเป็นงานย่อยสองงาน คือ Passage Selection Task และ Minimal Answer Span Task
Passage Selection Task (long answer) หาย่อหน้าในบทความวิกิพีเดียที่สามารถตอบคำถามได้ หรือถ้าไม่มีคำตอบในบทความก็ต้องบอกได้ ส่วน Minimal Answer Span Task (short answer) หาข้อความที่สั้นที่สุดในบทความวิกิพีเดียที่สามารถใช้ตอบคำถามได้ หรือตอบว่าใช่หรือไม่ สำหรับคำถามที่ต้องการคำตอบในรูปแบบใช่หรือไม่ หรือถ้าไม่มีคำตอบในบทความก็ต้องบอกได้เช่นกัน ดูภาพประกอบด้านล่างจะช่วยทำให้นึกได้ง่ายขึ้น
สิ่งที่น่าสนใจมากคือวิธีที่เขาเก็บข้อมูล ซึ่งผู้ที่เข้ามามีส่วนร่วมในการสร้างชุดข้อมูลจะเห็นแค่ 100 ตัวอักษรแรกของบทความบนวิกิพีเดีย และเขาต้องเขียนคำถามอะไรบางอย่างที่เขาอยากรู้จริง ๆ เกี่ยวกับบทความนั้นโดยมีข้อบังคับว่าคำตอบของคำถามห้ามอยู่ใน 100 ตัวอักษรแรกของบทความ ซึ่ง 100 ตัวอักษรแรกของบทความนั้นเป็นเพียงตัวกระตุ้นให้ผู้ที่มาร่วมสร้างชุดข้อมูลเกิดความสงสัยที่จะอยากถาม เพราะเขาอยากจะจำลองความสงสัยของมนุษย์ที่เกิดขึ้นในชีวิตจริง ซึ่งข้อบังคับก็มีแค่ข้อนี้อย่างเดียว ซึ่งผู้สร้างคำถามจะสามารถถามอะไรก็ได้ที่สนใจอยากรู้ โดยไม่จำเป็นที่จะต้องเป็นเรื่องใน 100 ตัวอักษรแรกของบทความก็ได้ อีกอย่างคือการที่คำถามถูกสร้างโดยไม่เห็นคำตอบมักจะทำให้คำถามไม่เจาะจงจนเกินไป และไม่ใช้ศัพท์หรือรูปประโยคแบบเดียวกับคำตอบ ซึ่งชุดข้อมูล QA ที่คนเขียนคำถามโดยไม่เคยเห็นคำตอบมักจะมีความยากกว่าเช่น QuAC
หลังจากที่ได้คำถาม เขาก็จะจับคู่คำถามกับบทความวิกิพีเดียให้นักสร้างชุดข้อมูลมา tag ว่าข้อความอันไหนหรือย่อหน้าไหนที่มีคำตอบอยู่ หรือเป็น yes/no สำหรับคำถามที่ต้องการแค่คำตอบว่าใช่หรือไม่ หรือ tag ว่าไม่มีคำตอบอยู่ในบทความ
อีกเรื่องที่น่าสนใจคือเขาสร้างชุดข้อมูลหลากภาษาโดยไม่ได้ใช้วิธีการแปล แต่ใช้วิธีการสร้างคำถามคำตอบแบบเดียวกันทุกภาษาแบบที่เพิ่งเล่ามา ซึ่งปกติการสร้างชุดข้อมูลที่มีหลากหลายภาษามักจะนิยมจ้างนักแปลมาแปลจากภาษาอังกฤษเป็นภาษาอื่น แต่ในเปเปอร์นี้เขามองว่าการแปลชุดข้อมูลมันจะทิ้งร่องรอยบางอย่างเอาไว้และอาจเป็นปัญหาได้ เช่นการวางลำดับคำในภาษาที่วางลำดับคำได้ยืดหยุ่นมักจะยึดแบบลำดับคำตามภาษาต้นทางเวลาแปล มีคนเคยลองเทรนโมเดลแล้วโมเดลแล้วสามารถแยกได้ว่าเอกสารอันไหนถูกแปลมา อันไหนไม่ได้ถูกแปลมา อีกอย่างการสร้างชุดข้อมูลสำหรับภาษานั้นขึ้นมาใหม่เลยทำให้มีการพูดถึงหัวข้อใหม่ ๆ ที่ไม่มีในชุดข้อมูลภาษาอังกฤษ การแปลชุดข้อมูลจากภาษาอังกฤษอาจทำให้คะแนนภาษาอื่นสูงกว่าที่คิดเพราะได้ประโยชน์จากการทำ transfer learning มากกว่า
TyDiQA นับเป็นชุดข้อมูลที่มีวิธีการสร้างที่น่าสนใจแถมยังมีภาษาไทยด้วย หากใครสนใจก็สามารถส่งโมเดลไปทดสอบบนชุดข้อมูลทดสอบลับเพื่อที่จะเทียบผลกับโมเดลจากคนอื่น ๆ ทั่วโลกได้อีกด้วยในลิงก์นี้ https://ai.google.com/research/tydiqa