辛普森悖論

籃球數據的FG

Tony's Pensieve
Tony訓練中心
4 min readSep 11, 2019

--

有效命中率(eFG)=(總命中數+0.5*三分球的命中數)/ 總出手數
真實命中率(TS)=你的得分/ 2*(總出手數+0.44*罰球出手數)
FG%=(2分命中數+3分命中數)/(2分出手數+3分出手數)

在這篇主要的目的不是討論籃球,因此只簡單說明為什麼FG這個數據不在重要,而進階數據(eFG與TS)更常被提起

以下是NBA兩名球星的數據

https://www.ptt.cc/bbs/NBA/M.1574000653.A.284.html

可以發現Kobe的FG(三分球+二分球的命中率)高於Harden,但實際上在二分球命中率三分球命中率都低於Harden,WHY??!

錄取率

來看看原始經典的例子吧,經典到我在打這篇的時候,實在是想了超級久要怎麼解釋。

法學院率取率
商學院錄取率
總率取率

無論法、商學院分開來看都是女生錄取率較高,為何總和變成男生錄取率較高,這麼反直覺的事情是什麼原因?

首先可以注意到

  1. 兩個學院的男生總數落差極大約1:5
  2. 兩個學院各自的總錄取率落差極大約3:8

這導致了什麼?男生的錄取數是201+8,男生的未錄取數是45+20,高錄取的學院同時有大量的男生報考,所以男生的錄取數大幅提升。

勝率

什麼意思?換個直觀一點的例子,統計一百場的勝率,我跟高手打20場贏1場(0.05),跟低手打80場贏40場(0.5);高手跟高手打80場贏8場(0.1),跟低手打20場贏20場(1),分開來看很明顯的高手的勝率都高於我,合在一起,我的勝率41/100,高手勝率只有28/100,被我一個反輾壓。

WOW

實際上呢?我靠著大量的高勝率場次,把整個總勝場數衝上去了。

值與量

高中有一次聽講座聽到辛普森悖論(Simpson’s Paradox),一個目瞪口呆,雖然我是因為競賽數學(?)的緣故接觸到講座,但真心覺得這種講座如果平時有在宣導,怎麼會有人認為數學只是門為了考試、畢業就無用的學科呢?

在解讀這類數據的時候,應該注意到兩者(商、法)學院本身的率取人數並不一致,而給予不同的權重加成,而非直接單純將兩者數量總合。

另一個面向的思考就是,如果你今天先看到最後的總合,你不應該輕易地由我的總勝率比高手高,得出我比高手強這個結論,應注意到我跟高手的數據中,困難的場次數量並不一致。

值與量,兩個維度合併成值的時候,會導致這種反直覺的可怕錯誤。

明白為什麼FG意義不大了嗎?XD

— — — -

相關不等於因果

倖存者偏差!(survivorship bias)

--

--

Tony's Pensieve
Tony訓練中心

一位開發者、學習者、分享者。 喜歡與人交流互動也喜歡學習,在成為一個更好的人的路上。 我願意學,也願意教