ʕっ•ᴥ•ʔっฉบับแปลไทย 3 นาทีจบ

Manusaporn Treerungroj
Mar 8 · 3 min read

สวัสดีค่าทุกคน Data fallacies to avoid กลับมาแล้ววว (หายไปไหนนานหือ?) blog นี้เป็น PART สุดท้ายแล้วน้า 😋

// แอบแปะ link part 1–2 ใครพึ่งมาก็ไปตำ ใครลืมของเก่าหมดแล้วก็ไปตำาาา

ตอนที่แล้วเราค้างไว้ที่ Regression towards the mean ใกล้จบแล้ววว มาต่อกันเลย~

From Geckoboard’s Data Literacy Lessons.

Simpson’s paradox

ข้อมูลนึง เมื่อแสดงผลในกลุ่มย่อยๆ ได้ผลแบบนึง แต่พอรวมทุกกลุ่มเข้าด้วยกัน อ้าว! ได้ผลอีกแบบ ??

Simpson’s paradox เป็นตัวอย่างหนึ่งที่บอกได้ว่าข้อมูลทางสถิติที่เราเก็บมาอาจจะผิดพลาด ตัวอย่างเช่น

source: https://www.geckoboard.com/learn/data-literacy/statistical-fallacies/simpsons-paradox/

นี่เป็น % ของคนที่ผ่านการสมัคร เปรียบเทียบระหว่างเพศชาย-หญิง โดยเก็บข้อมูลแบ่งเป็น 2 กลุ่ม

ผลที่ได้ในแต่ละกลุ่มคือ เพศหญิงมี success rate เยอะกว่า แต่พอรวมผล total แล้ว เพศชายกลับเยอะกว่าอย่างเห็นได้ชัด ?

เพราะอะไรล่ะ?

สังเกตที่ 51% rate ของเพศหญิง ถูกเก็บข้อมูลมาจาก 200 คนเท่านั้นเอง ในขณะที่ 15% rate เก็บมาจากตั้ง 1,800 คน

ดังนั้นแล้ว ตัวเลขที่คิดเป็น % ทำให้เราตีความหมายได้เร็วก็จริง แต่ก็ไม่สามารถแทนข้อมูลต้นฉบับได้เสมอไป


McNamara Fallacy

McNamara ชื่อนี้มีที่มา! ฮ่าๆ จริงๆ แล้วมันคือชื่อของคนๆ นึงที่ทำให้เกิด fallacy นี้ขึ้นมา…

source: https://www.geckoboard.com/learn/data-literacy/statistical-fallacies/mcnamara-fallacy/

เวลาเราจะทำอะไรซักอย่าง เช่น เทรนโมเดล ML ก็ต้องคิดว่าจะวัดผลโมเดลยังไง ซึ่งโดยทั่วไปเราจะตั้งตัววัด (metric) ขึ้นมาตัวนึง เทรนแต่ละรอบก็ใช้ตัววัดนี้บอกว่าโมเดลไหนดีกว่ากัน หรือประสิทธิภาพดีพอกับที่เราต้องการหรือยัง

แต่ว่าแต่ การยึดติดกับตัววัดหรือพยายาม optimize เลขนั้นอย่างเดียว โดยไม่สนใจอย่างอื่นเลยถือเป็นความเสี่ยงนะ! เพราะทำให้เราขาดมุมมองของภาพใหญ่โดยรวมทั้งหมดไป

We have a tendency to make the measurable important rather than the important measurable

ตัวอย่างเช่น ตัววัดที่ใช้อยู่มันง่ายไป (วัดโมเดลไหนก็ผ่าน) หรือยากกกไป (ทำยังไงก็ไม่ถึงเป้าซักที) หรือคิดว่าตัววัดที่ยากไปไม่สำคัญ (วัดทำไม วัดง่ายๆ ดีกว่ามะ) หรือกระทั่งไม่รู้ว่ามีตัววัดอื่นอะไรมั่ง

ลองถอยออกมาหน่อย อาจเจอว่ามีตัววัดที่เหมาะสมมากกว่าอันที่ใช้อยู่ก็ได้นะ!


จะจบแล้ววว ทุกคนเก่งมากๆ เหลืออีกแค่นิดเดียวแล้ว ลุยกันต่อเลยยย > <

Overfitting

ใกล้จะจบแล้ว วนกลับมาเรื่องพื้นฐานที่สำคัญมากๆ กันบ้าง ใครไม่รู้พลาดแล้วนะะ รีบอ่านเยย

source: https://www.geckoboard.com/learn/data-literacy/statistical-fallacies/overfitting/

ภาพข้างบนนี้อธิบายได้ดีทีเดียวเชียว แฮร่! สมมติว่ามี data point 2 กลุ่ม คือ สีเขียวกะสีดำ เราพยายามสร้างโมเดลมา classify แยก 2 กลุ่มนี้ออกจากกัน ได้เส้นสีดำที่แบ่งระหว่าง 2 กลุ่ม

เห็นอะไรป่าววว โมเดลฝั่งซ้ายที่ยึกยือๆ มันพยายามเก็บทุก data point ไม่ให้หลุดเลย โมเดลพอดี (fit) เกินไป แน่นอนว่ากับ training set (ก็คือ data point ในภาพนี่แหละ) มันแม่นมากเว่อร์ 100% เลย แต่สมมติไปเจอข้อมูลจริง real world ล่ะเป็นไง

สมมติเจอจุดสีแดงนี้ โมเดลคงจะบอกว่าเป็นกลุ่มสีดำ ทั้งที่จริงๆ น่าจะเป็นสีแดงน้าาาา ดังนั้นการ fit เกินไป (overfitting) จึงไม่ดี

นอกจาก overfitting ก็มีอีกอย่างที่ตรงข้ามกันคือ underfitting ที่หลักการคล้ายกันเลย คือไม่พยายามเก็บ data point อะไรเลยจ้าาา


Publication Bias

source: https://www.geckoboard.com/learn/data-literacy/statistical-fallacies/publication-bias/

ในการทำงานวิจัย (research) เมื่อทำเสร็จจะได้ตีพิมพ์มั้ย จะขึ้นอยู่กับผลของการวิจัย

พูดให้เข้าใจง่ายๆ ก็คือ เราทำการวิจัยเพื่อพิสูจน์สมมติฐานที่ตั้งไว้ (hypothesis) ถ้ามีผลที่พิสูจน์ได้ (significant result) ก็มักจะได้ตีพิมพ์

แต่ถ้าปัดตกสมมติฐานไม่ได้ (ยอมรับ Null hypothesis) งานวิจัยพวกนี้จะไม่ค่อยถูกตีพิมพ์ และถูกพับเก็บเป็น boring studies!

เอ้า แล้วมันเกี่ยวกับข้อมูลยังไง?

I think the one thing that would have the biggest impact is removing publication bias: judging papers by the quality of questions, quality of method, and soundness of analyses, but not on the results themselves

Michael Inzlicht

เหมือนกับการตีพิมพ์หรือไม่ตีพิมพ์งานวิจัย มันคือการตัดสินจากผลลัพธ์สุดท้ายอย่างเดียวเลย ไม่ได้สนใจสิ่งที่เจอระหว่างทางที่วิจัย ซึ่งมันอาจจะสำคัญกว่าผลลัพธ์สุดท้ายก็ได้

ยกตัวอย่าง เรามีโมเดลที่พยายามเดาว่าผู้ใช้งานคนไหนจะเลิกใช้งานระบบเรา จะได้ encourage ให้เขาใช้งานต่อ ผลลัพธ์สุดท้ายก็คือโมเดลที่ทำนายได้แม่นพอตัว จบ… แต่ถ้ามองอีกมุม ระหว่างที่ทำโมเดลอาจจะรู้ว่า อ๋อ นี่ล่ะคือตัวแปรที่ทำให้ผู้ใช้งานเลิกใช้ (feature ที่สำคัญที่สุด) ก็ไปแก้ที่ต้นเหตุได้เลย!


Danger of Summary Metrics

อันนี้เป็นข้อสุดท้ายที่น่าสนใจสุดๆ ลองดูภาพข้างล่างนี้

source: https://www.geckoboard.com/learn/data-literacy/statistical-fallacies/danger-of-summary-metrics/

ให้ผู้เขียนมองก็เห็นว่ากราฟแต่ละช่องมันไม่เหมือนกันแน่นอน แต่รู้ไหมว่า dataset ของแต่ละกราฟเนี่ย มี mean, variance, และ correlation เท่ากันหมดเลย!

ถ้าลองสรุปข้อมูลเป็นในเชิงสถิติก็คงจะคิดว่าข้อมูลพวกนี้ใกล้เคียงๆ กัน สิ่งที่จะสื่อก็คือว่า รูปกราฟของข้อมูลเองก็สำคัญพอๆ กับข้อมูลเชิงสถิติเลยนะ ดังนั้นในการวิเคราะห์ข้อมูล จะเมินอันใดอันนึงไม่ได้~


จบแล้ววว สรุปให้นิดนึงเน้อ

  • Simpson’s paradox คือ ข้อมูลทางสถิติที่เราสรุปมา ช่วยให้ตีความหมายได้เร็ว แต่ไม่สามารถแทนข้อมูลต้นฉบับได้เสมอไป
  • McNamara Fallacy คือ ไม่ควรยึดติดกับตัววัด (metric) อันใดอันนึงมากไป อย่าลืมมองภาพกว้างๆ ด้วย
  • Overfitting คือ อย่า fit มากหรือน้อยเกินไป จงอยู่อย่างพอดีๆ ทางสายกลาง ฮิๆ
  • Publication Bias คือ อย่าตัดสินอะไรจากผลลัพธ์สุดท้ายอย่างเดียว ให้มองสิ่งที่เกิดขึ้นระหว่างทางควบคู่ไปด้วยกัน
  • Danger of Summary Metrics คือ เรียนรู้ข้อมูลจากทั้งทางสถิติ และ visualize มันออกมา

The end

จบจริงๆ แล้ววววว ถ้าใครตามมาอ่านจนถึงตรงนี้ คุณได้เกร็ดเล็กเกร็ดน้อยเกี่ยวกับข้อมูลไปเยอะละน้าาา ใครอยากให้รีวิวอะไรบอกได้น้า ไว้เจอกัน blog ต่อๆ ไป นะคะ #ขายของ 55555 ╲ʕ•ᴥ• ╲ʔ

“ข้อมูลไม่เคยโกหกเรา” คำนี้เป็นความจริง แต่ตั้งอยู่บนเงื่อนไขว่าเราก็ต้องรู้จักข้อมูลให้ทุกมุมทุกทางด้วยเนอะ

Noob Learning

It’s good to be noob so we can learn and have fun ;)

Manusaporn Treerungroj

Written by

Noob Learning

It’s good to be noob so we can learn and have fun ;)

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade