เติมช่องว่างที่หายไปบนชุดข้อมูลแบบ human-in-the-loop (1)

Published in

AIResearch.in.th

3 min readApr 26, 2020

ติดตามข่าวสารและบทความ NLP ในภาษาไทยได้ที่ เพจ อ่าน #NLProc และ เพจ AIResearch.in.th

หลาย ๆ ครั้งในการประเมินผลโมเดลบน test set โมเดลสามารถให้คำตอบที่ถูกต้องโดยการเรียนกฏง่าย ๆ แทนที่จะได้เรียนความสามารถในประมวลผลข้อมูลแบบที่ผู้สร้างชุดข้อมูลตั้งใจไว้ เพราะว่าชุดข้อมูลนั้นมันมีปัญหาบางอย่างเช่น annotator bias ซึ่งอาจเกิดจากคนสร้างชุดข้อมูลชอบสร้างตัวอย่างที่มี pattern คล้าย ๆ กันบนชุดข้อมูลหลาย ๆ อันมากเกินไปจนทำให้โมเดลจำ pattern นั้น จึงทำให้โมเดลไม่สามารถ generalize บนตัวอย่างหลายๆ แบบได้ดี

ในงาน Evaluating NLP Models via Contrast Sets โดย Matt Gardner และคณะ ซึ่งเป็นความร่วมมือระหว่างหลายสถาบันทั่วโลกถึง 10 แห่ง โดยมีนักวิจัยถึง 26 คน เป็นงานที่แสดงให้เห็นถึงปัญหาของการสร้างชุดข้อมูลสำหรับเทรนโมเดล NLP แน่นอนเหตุผลที่มีชื่อคนในเปเปอร์เยอะขนาดนี้ก็เพราะว่าเขาต้องการคนจำนวนมากมาช่วยสร้างชุดข้อมูลเสริม

Gardner et al. มองปัญหาเรื่องนี้ ด้วยมุมมองแบบเรขาคณิตโดยเริ่มด้วยการยกตัวอย่างชุดข้อมูลสองมิติซึ่งอาจจะต้องใช้ decision boundary ที่ซับซ้อนประมาณนึงแบบภาพนี้:

แต่ถ้าเกิดเราสร้างชุดข้อมูลใหม่โดยการ subsample ข้อมูลจากชุดข้อมูลด้านบนอย่างเป็นระบบ เราก็สามารถ ใช้ decision boundary แบบง่าย ๆ ที่สามารถให้ได้ผลลัพธ์ที่ดี(เฉพาะtestset ที่มี distribution แบบเดียวกัน) แบบภาพด้านล่างนี้แทน:

เขามองว่า dataset ในงาน NLP มันก็มีส่วนคล้ายกับเหตุการณ์ในภาพด้านบน เช่น ซึ่งมันเกิดมาจากสิ่งที่เขาเรียกว่า annotation artifacts/ biases แบบที่พูดถึงในตอนแรก ซึ่งในบางชุดข้อมูลเราสามารถหาประโยชน์จากช่องโหว่นี้โดยการสร้างกฏง่าย ๆ เพื่อที่จะได้ผลลัพธ์ที่ดีได้ โดยไม่ต้องเรียนรู้อะไรที่ซับซ้อน

โดยงานนี้เขาเน้นเพื่อที่จะป้องกันปัญหาดังกล่าวในส่วนของการของการประเมินผล (จริง ๆ มันก็มีปัญหาตั้งแต่ตอนเทรนโมเดลแล้ว แต่งานนี้เน้นไปในส่วนของการประเมินผลเฉย ๆ อีกอย่างคือถ้าจำทำ training set ใหม่คงเหนื่อยมาก) โดยการสร้างชุดข้อมูลเสริมอีกหนึ่งอันโดยเขาเรียกมันว่า contrast set โดยเขาจะเลือกสร้าง contrast set รอบๆ จุด test sample ที่สนใจเพื่อที่จะเติมช่องว่างในข้อมูลเพื่อไม่ให้โมเดลสามารถใช้วิธีง่าย ๆ ในการสร้าง decision boundary แล้วยังได้ผลลัพธ์ที่ดีแบบในรูปต่อไปนี้:

ถ้าเกิดเรายังใช้เส้นตรง ๆ เป็น decision boundary กับภาพด้านบน แน่นอนว่ามันจะผิดหลายที่โดยเฉพาะกับจุดใน contrast set ที่เพิ่งเติมเข้ามา แล้วทีนี้เราจะทำแบบเดียวกันกับข้อมูล NLP ที่มีภาษามาเกี่ยวข้องได้อย่างไร ในงานของ Gardner et al. เขาได้สร้าง contrast set 10 ชุดข้อมูลที่แตกต่างกัน ตัวอย่างแรกที่จะเจอในงานนี้คือตัวอย่างบนชุดข้อมูล Natural Language for Visual Reasoning for Real (NLVR2) ซึ่งชุดข้อมูลนี้ในแต่ละตัวอย่างจะมีภาพมาให้สองภาพพร้อมกับข้อความอธิบายภาพหนึ่งข้อความ แล้วโจทย์ก็คือเราจะต้องทำนายว่าข้อความที่มากับภาพสองภาพนั้นเป็นจริงหรือไม่ เช่น:

ในงานของ Gardner et al. เขาให้คนที่ทำชุดข้อมูลลองไปแก้ input บางส่วนเพื่อให้ได้คำตอบที่ต่างไปจากเดิมเช่น ในภาพด้านล่างนี้ เขาได้ลองแก้ text ชุดข้อมูล NLVR2 เพื่อที่จะให้คำตอบเปลี่ยนจาก True ไปเป็น False และยังได้ลองเปลี่ยนภาพโดยยังคงข้อความอธิบายภาพเพื่อให้คำตอบเปลี่ยน ซึ่งการทำแบบนี้เปรียบได้กับการสร้างจุดใน contrast set รอบๆจุดสีส้มแบบตัวอย่างที่กล่าวมาข้างต้น จะเห็นได้ว่าในภาพข้างล่างเข้าไม่ได้เปลี่ยนข้อความทั้งหมดแต่เลือกเพียง 1 หรือ 2 คำเท่านั้นเพื่อที่จะให้ได้ตัวอย่างที่คล้าย ๆ เดิมมากที่สุด ซึ่งอะไรที่เป็นตัวตัดสินว่ามันจะ “คล้าย ๆ เดิม” เขาปล่อยให้คนที่ทำชุดข้อมูลเป็นคนตัดสินใจ

ซึ่งคนที่คุ้นเคยกับงานประเภท adversarial examples อาจจะรู้สึกว่า contrast set มันมีความเหมือนกัน แต่ไอเดียหลัก ๆ คือตรงกันข้ามเลย adversarial examples ถูกสร้างมาเพื่อหลอกโมเดลให้สร้างคำตอบที่ไม่ตรงกับเฉลยและยังคงใช้เฉลยอันเดิม (ในทางความหมาย input ก็ยังคงความหมายเดิม) แต่ examples ใน contrast set ถูกสร้างมาเพื่อเปลี่ยนเฉลยโดยตรงและใช้เฉลยอันใหม่ (ในทางความหมาย input จะไม่คงความหมายเดิม)

ผลจากทดลองบน 10 ชุดข้อมูลแสดงให้เห็นว่าเมื่อเราวัดผลบนด้วย contrast sets ประสิทธิภาพของโมเดลก็ลดลงอย่างเห็นได้ชัด นอกจากนี้ Gardner et al. ยังเสนอการใช้มาตรวัดใหม่ที่เรียกว่า contrast consistency ซึ่งเขาจะถือว่าโมเดลทำนายถูกก็ต่อเมื่อมันทำนายตัวอย่างเดิมถูกและตัวอย่างรอบ ๆ ตัวอย่างเดิมที่ถูกสร้างขึ้นมาใหม่เป็น contrast set ถูกพร้อมกันหมด ซึ่งเป็นมาตรวัดที่ยากกว่าเดิม และโมเดลก็ทำได้แย่ลงมาก ๆ ในหลายงาน มีแค่บนชุดข้อมูล IMDb กับ PERSPECTRUM เท่านั้นที่ยังพอดูได้อยู่

ดังนั้นหากเราต้องการที่จะรู้ขีดจำกัดของโมเดลเรา เราจำเป็นที่จะต้องใช้ผู้เชี่ยวชาญในการสร้างข้อมูลเพิ่มเติมเพื่อทดสอบขีดความสามารถของโมเดลอย่างเข้มงวดมากขึ้น

ในตอนต่อไปเราจะพูดถึงอีกงานที่คล้ายกันมาก แต่จะมองปัญหานี้ด้วยมุมมองแบบ causality ซึ่งก็คือ Learning the Difference that Makes a Difference with Counterfactually-Augmented Data ของ Divyansh Kaushik, Eduard Hovy และ Zachary C. Lipton ซึ่งเป็นหนึ่งในเปเปอร์ในงาน ICLR 2020

เติมช่องว่างที่หายไปบนชุดข้อมูลแบบ human-in-the-loop (1)

บทความนี้สนับสนุนโดย:

Written by Can Udomcharoenchaikit