“อย่าวางใจในค่าเฉลี่ย” และแนะนำให้รู้จักกับ Robust Statistics

Tor Puttasak
2Bearstalk
Published in
3 min readJun 6, 2019

ก่อนเริ่มต้นอื่นใดทั้งหมด ลองมาเล่นโจทย์นี้กันดีกว่า

ลองหาค่าเฉลี่ย กับ SD ของข้อมูลทั้ง 4 ชุดดูครับ

ถ้าดูค่า Average และ SD จะพบว่า x1, x2, x3, x4 นั้นมีค่าเฉลี่ยและการเบี่ยงเบนเท่ากันทุกประการ รวมถึง Y1,y2,y3,y4 ก็เช่นเดียวกัน

หมายความว่า x1-x4 และ y1-y4 เป็นข้อมูลแบบเดียวกันหนะสิ?

ลองดูเฉลยครับ

นี่คือภาพการกระจายตัวของข้อมูลทั้ง 4 ชุด ซึ่งจะพบว่ามันไม่เหมือนกันเลย แม้จะมีค่าเฉลี่ยและการเบี่ยงเบนเท่ากันทุกประการก็ตาม

อันนี้เป็นโจทย์ที่เรียกว่า Anscombe’s quartet ลองอ่านเล่นกันได้ครับ เป็นโจทย์ที่คิดขึ้นมาเฉพาะเพื่อชี้ให้เห็นปัญหาถึงการใช้ค่าทางสถิติ

เราคงต้องถามกันก่อนว่า “ทำไมถึงต้องมีค่าเฉลี่ย?”

ค่าเฉลี่ยมีหน้าที่เป็นตัวเลขหนึงเลข ที่ใช้เพื่อเป็นตัวแทนของชุดข้อมูลที่เรากำลังสนใจ ซึ่งใช้กันมากในแง่ของการทำข้อมูล ยอดขายเฉลี่ย, เงินในบัญชีเฉลี่ย, ยอดการมีปฏิสัมพันธ์โดยเฉลี่ย ซึ่งไม่ผิดใดๆ เลย แต่แน่นอนว่าค่าเฉลี่ย (Average/Means) ที่เราคุ้นเคยกัน ไม่สามารถเป็นตัวแทนของชุดข้อมูลได้ในทุกกรณี จึงเป็นที่มาของบทความนี้ว่า ‘อย่าวางใจค่าเฉลี่ย’ ความหมายคือเมื่อเห็นค่าเฉลี่ยที่เราคุ้นเคย จงตั้งคำถามก่อนว่าเฉลี่ยมาจากไหน?

สำหรับข้อมูลที่มีการแจกแจงปกติ เป็น Curve สวยงาม ค่าเฉลี่ยย่อมไม่มีปัญหาใด แต่ในโลกแห่งความเป็นจริง ข้อมูลมักไม่เป็นแบบนั้น การแจกแจงพิลึกพิลั่น โดยเฉพาะข้อมูลบนโลกอินเทอร์เน็ตและโซเชียล มีเดีย ที่ข้อมูลมักจะเบ้ขวาแบบเอียงกะเทเร่ หรือมักจะเป็นกราฟแบบ Long Tails หรือจะเรียกว่ามีข้อมูลที่มัน Outlier อยู่มาก

wikipedia

มาดูกันดีกว่าว่าข้อมูล Outlier ส่งผลอย่างไรบ้าง

ซึ่งตัวอย่างทั้งหมดนี้ผมได้มาจากการเรียนคอร์ส EXPLORATORY DATA ANALYSIS WITH MS EXCEL AND POWER BI จาก SKOOLDIO ครับ ใครสนใจลองไปดูกันได้ครับ

สมมติผมมีข้อมูลอยู่ชุดหนึ่ง โดยมี Outlier แค่ 2 ตัวแบบนี้

ลองเช็คดูการใช้ Average คร่าวๆ จะพบว่า

จะเห็นได้ว่าค่าเฉลี่ยและค่า SD กระโดดและแตกต่างออกไปมากมาย ซึ่งคำถามที่เราต้องตั้งคำถามคือ 49.20 หรือ 104.14 กันแน่ ที่สามารถเป็นตัวแทนของชุดข้อมูลนี้ได้?

ซึ่งในคลาสพี่ต้า Ta Virot Chiraphadhanakul ได้แนะนำวิธีช่วยแก้ปัญหาเรื่องนี้มาให้ โดยใช้สิ่งที่เรียกว่า Robust Statistics

Robust statistics are statistics with good performance for data drawn from a wide range of probability distributions, especially for distributions that are not normal

เครื่องมือของ Robust Statistics มีอะไรบ้าง?

ในคลาสพี่ต้าแนะนำมา 3 Tools บวกกับคุยหลังไมค์อีก Tools นึงคือ

  • Median อันนี้ง่ายสุด เข้าใจไม่ยาก คือใช้ค่าที่อยู่ตรงกลางของข้อมูลแทน
  • Trimmean เป็นการดัดแปลงจาก Means ปกติ ด้วยการตัดส่วนหัวส่วนท้ายออกตามสัดส่วนที่ต้องการ ซึ่งก็จะช่วยจัดการ Outliers ชุดบนกับชุดล่างของข้อมูลไปได้
  • IQR (Interquartile Range) เป็นการข้อมูล Quartile 3 — Quartile 1 หรือคือการดูว่าข้อมูล 50% ที่อยู่ตรงกลาง มีการกระจายมากแค่ไหน ถ้าห่างมาก ก็แปลว่าข้อมูลกระจายมาก
  • Winsorizing คล้าย กับ Trimmean แต่ใช้ Percentile เข้ามาจัดการข้อมูลแทน โดยการเอาข้อมูลที่ต่ำกว่า Percentile ที่ 5 และสูงกว่า Percentile ที่ 95 ออกไป แล้วแทนค่าด้วยค่าใน Percentile นั้นแทน

ตัวอย่างผลลัพธ์จากข้อมูลชุดเดิม ก็จะออกมาประมาณนี้ครับ

เราจะพบว่าค่าทางสถิติต่างๆ ที่โดนผลกระทบจาก Outlier มีค่าน้อยลง

สรุปนะครับ

  1. ค่าเฉลี่ยหรือค่า SD ที่ใช้ในสถิติทั่วไป ไม่สามารถเป็นตัวแทนของชุดข้อมูลได้ทุกกรณี
  2. ให้ลองพล็อตเพื่อดูกระจายตัวของข้อมูล หรือ Detect Outlier ออกมา
  3. ลองใช้ Robust Statistics ในการ Represent ชุดข้อมูลต่างๆ
  4. แต่สุดท้ายแล้วยังคงต้องการ Domain Expert ในการพิจารณาว่าสุดท้ายแล้ว ค่าไหนที่พอจะเป็นตัวแทนของชุดข้อมูลได้ดีที่สุด

ขอบคุณที่อ่านครับ

Enjoy Data!

--

--

2Bearstalk
2Bearstalk

Published in 2Bearstalk

ติดตาม Podcast ของพวกเราได้ที่ https://twobearstalk.podbean.com : เรื่องเล่าและนั่งคุย ทั้งมีสาระและไร้สาระ กับหมี 2 ตัว ตัวนึงทำงานด้าน Data และอีกตัวทำ User Experience

Tor Puttasak
Tor Puttasak

Written by Tor Puttasak

ชวนคุยเรื่อง Insight, Data, AI, Digital Marketing, Technology, Innovations, Leadership, Team Management และอื่น ๆ ที่สนใจ

No responses yet