เราทำนาย ชีวิตของคนในมิติต่างๆ ด้วย AI ได้จริงหรือ?

Chainarong Amornbunchornvej
2 min readApr 17, 2020

--

This article content was summarized from the work by Salganik, M. J., Lundberg, I., Kindel, A. T., Ahearn, C. E., Al-Ghoneim, K., Almaatouq, A., … & Datta, D. (2020). Measuring the predictability of life outcomes with a scientific mass collaboration. Proceedings of the National Academy of Sciences. It was published under CC BY-NC-ND License 4.0. All figures in this article are from the article mentioned above.

จากปัจจุบัน เราใช้ AI ทำหลายๆ สิ่งมากมายเพื่อ อำนวยความสะดวกสบายในชีวิต แต่มีคำถามที่น่าสนใจอยู่ว่า “AI จะนำไปใช้ทำนาย ชีวิตคนเราได้จริง หรือ”

จากผลการวิจัยจากวารสารวิชาการชื่อดังระดับโลกอย่าง Proceedings of the National Academy of Sciences (PNAS) โดย Salganik et al. เมื่อวันที่ 14 เม.ย. 2563 ที่ผ่านมาสรุปได้ว่า

ในงานวิจัยนี้ ผู้ทำวิจัยได้ใช้ dataset ชื่อ the Fragile Families dataset ที่รวบรวมข้อมูลบุคคลกลุ่มเปราะบาง เช่น ครอบครัวรายได้น้อย มีปัญหาครอบครัว ฯลฯ เป็นเวลา 15 ปี มาทำการจัดแข่งขัน เพื่อหา method ที่จะทำนาย ชีวิตคนคนเหล่านี้ได้อย่างแม่นยำ

รูปที่ 1 การสำรวจข้อมูลแบ่งเป็น 6 Waves ตามอายุเด็ก เริ่มจาก แรกเกิด, อายุ 1ปี, อายุ 3ปี, อายุ 5ปี, อายุ 9ปี, และ อายุ 15ปี
รูปที่ 1 การสำรวจข้อมูลใน the Fragile Families dataset 15 ปี แบ่งเป็น 6 Waves ตามอายุเด็ก เริ่มจาก แรกเกิด, อายุ 1ปี, อายุ 3ปี, อายุ 5ปี, อายุ 9ปี, และ อายุ 15ปี โดย 5 waves แรกจะปล่อยให้ผู้เข้าแข่งขันเอาไปสร้าง model แล้ว ให้ Wave 6 บางส่วน จากนั้น นำ model ที่ได้มา predict ผลของข้อมูลใน Wave 6 เมื่อเด็กอายุ 15 ปี
  1. ใน PNAS paper กล่าวว่า มีคนใช้ the Fragile Families dataset นี้ ลง 750 published journal articles คนเขียน PNAS มีคำถามว่า ข้อสรุปต่างๆ มันถูกต้องขนาดไหน ในมุมมองของ predictability เขาเลยจัดแข่งขัน เอา dataset นี้ จาก 4,242 ครอบครัว และ มีจำนวนตัวแปรที่เกียวข้องถึง12,942 ต่อครอบครัว ที่เก็บมาตลอด 15 ปี ให้ ทีมต่างๆ 160 กว่าทีม แข่งกัน predict variable แบบ GPA เด็ก จะโดนยึดบ้านไหม จะออกจากงานไหม etc. ครับ โดยข้อมูลแบ่งเป็น 6 waves ของการ surveys ตั้งแต่เกิด แล้ว ปล่อยให้ train 5 wave แรก เก็บ wave สุดท้ายตอนเด็กอายุ 15 ปี เอาไว้ evaluate outcome ของแต่ละทีม
รูปที่ 2 ผลลัพธของการทำนายในมิติต่างๆ โดยแกน X เป็นมิติต่างๆ แกน Y เป็นค่า R2 ยิ่งมากยิ่งดี โดยเส้น บาร์ |-| คือ 95%confidence interval ผลของ models ที่ดีที่สุด และ แถบทึบ ใต้ บาร์ คือ benchmark model

2) ทีมต่างๆ ใช้ technique หลากหลายจากง่ายไปยาก data มีคุณภาพสูง ไม่มีข้อโต้แย้งเรื่อง limitation ของ technique หรือ คุณภาพ dataset แต่แล้ว ผลที่ได้ดันไม่มีทีมไหน predict อะไรได้ดีเลย แถม simple model (แบบ linear หรือ logistic regression) ดันผล พอๆ กับ complex model อีก

3) มี 3 points จากผลอันนี้ครับ คือ 3.1) complex model ดีจริงหรือ อย่างน้อยก็ไม่มี model ไหนได้ผลดีเลยใน dataset คุณภาพสูงนี้ 3.2) predictability เป็น proxy ของ understanding จริงหรือ แล้ว 750 journals ที่สรุป ต่างๆ นาๆ นั้นหล่ะ และ 3.3) ข้อสรุปต่างๆ ที่มีมาแล้วจากงานอื่นๆ อาจ correct แต่ไม่ complete ขาด theory ในการรองรับ

4) เรื่องนี้ raise concerns เรื่องการเอา AI มาตีความผลด้าน social science และ criminal justice ครับ ขนาดข้อมูลดีขนาดนี้ model ยังทำนายไม่ได้ แล้ว การเอา AI มาตัดสินชีวิตคนในศาลหล่ะ? แล้วเรายังเอา AI มาช่วย policy makers ออกกฎหมายได้หรือเปล่า

ความเห็นผู้เขียน

พวก complex model ชนะ linear หรือ logistic regression นิดเดียวครับ ขนาดมี data มหาศาลที่มีคุณภาพดี ในมุมมองของ trade-off ระหว่างความยากในการตีความทำความเข้าใจ model ยากๆ กับผลที่ดีขึ้น ดูเหมือนว่างาน social science อย่างงานนี้ ไม่คุ้มครับ

การพยายามสร้างวิธี measure หรือ model ที่อธิบาย insight ได้ ดีกว่า วิธีที่ผลแม่น อธิบายไม่ได้ model ซับซ้อน

ถ้าเราไม่เน้น predictability แต่เน้น อธิบาย insight โดยมี quantitative measure ประกอบ ผมว่า น่าจะเป็นแนวทางที่ดีของการทำงานด้าน social science ณ ขณะ นี้ครับ ส่วนตัวผมว่า “ความเข้าใจในผลการวิเคราะห์ สำคัญมากกว่า performance มาก”

ส่วนเรื่อง AI เอามาทำ social science ได้ไหม ผมว่าได้ครับ ตราบใดก็ตามที่เราอธิบาย AI ได้ทุกขั้นตอน ไม่ว่าผลจะออกมาดีหรือแย่ สำคัญสุดคือ เรารู้ว่าเราทำอะไรอยู่ วัดอะไร สรุปผลอะไร ความโปร่งใส สำคัญที่สุดครับ

ใครสนใจงานนี้ อ่านต่อได้ที่ link ต่อไปนี้เลยครับ https://www.pnas.org/content/117/15/8398.short

--

--

Chainarong Amornbunchornvej

Computer scientist/researcher who works on data analysis in life science and sociology~