辛普森悖論
籃球數據的FG
有效命中率(eFG)=(總命中數+0.5*三分球的命中數)/ 總出手數
真實命中率(TS)=你的得分/ 2*(總出手數+0.44*罰球出手數)
FG%=(2分命中數+3分命中數)/(2分出手數+3分出手數)
在這篇主要的目的不是討論籃球,因此只簡單說明為什麼FG這個數據不在重要,而進階數據(eFG與TS)更常被提起
以下是NBA兩名球星的數據
可以發現Kobe的FG(三分球+二分球的命中率)高於Harden,但實際上在二分球命中率跟三分球命中率都低於Harden,WHY??!
錄取率
來看看原始經典的例子吧,經典到我在打這篇的時候,實在是想了超級久要怎麼解釋。
無論法、商學院分開來看都是女生錄取率較高,為何總和變成男生錄取率較高,這麼反直覺的事情是什麼原因?
首先可以注意到
- 兩個學院的男生總數落差極大約1:5
- 兩個學院各自的總錄取率落差極大約3:8
這導致了什麼?男生的錄取數是201+8,男生的未錄取數是45+20,高錄取的學院同時有大量的男生報考,所以男生的錄取數大幅提升。
勝率
什麼意思?換個直觀一點的例子,統計一百場的勝率,我跟高手打20場贏1場(0.05),跟低手打80場贏40場(0.5);高手跟高手打80場贏8場(0.1),跟低手打20場贏20場(1),分開來看很明顯的高手的勝率都高於我,合在一起,我的勝率41/100,高手勝率只有28/100,被我一個反輾壓。
實際上呢?我靠著大量的高勝率場次,把整個總勝場數衝上去了。
值與量
高中有一次聽講座聽到辛普森悖論(Simpson’s Paradox),一個目瞪口呆,雖然我是因為競賽數學(?)的緣故接觸到講座,但真心覺得這種講座如果平時有在宣導,怎麼會有人認為數學只是門為了考試、畢業就無用的學科呢?
在解讀這類數據的時候,應該注意到兩者(商、法)學院本身的率取人數並不一致,而給予不同的權重加成,而非直接單純將兩者數量總合。
另一個面向的思考就是,如果你今天先看到最後的總合,你不應該輕易地由我的總勝率比高手高,得出我比高手強這個結論,應注意到我跟高手的數據中,困難的場次數量並不一致。
值與量,兩個維度合併成值的時候,會導致這種反直覺的可怕錯誤。
明白為什麼FG意義不大了嗎?XD
— — — -