數據會說話? 淺談辛普森悖論

數據分析的陷阱，千萬別被表面數據的結果給迷惑！

Published in

Sherry.AI

4 min readFeb 21, 2020

許多科學工作者常常掛在嘴邊的一句話就是「數據會說話」，但你有想過有時數據所顯示的結果會讓我們得到錯誤的結論嗎？其中在統計領域中，最有名的例子就是「辛普森悖論（Simpson’s paradox）」。

這邊試想一個簡單的例子，假設現在有兩家醫院的病患死亡率資料，如下表，可以看到 A 醫院的的死亡率為15%，而 B 醫院的死亡率為則為12.5%。

看到這樣一個單純的數據之後，大多數的人很容易得出 A 醫院的的醫療水平較差，病患比較容易死亡的結論。

但是這時候如果告訴你 A 醫院是國內頂尖的教學醫院，而 B 醫院則是鄉村內的小醫院的話。大家是不是覺得這個結論可能不大合理，因為跟上述的數據表的結果有出入？

數據並沒有問題，而是我們忽略了潛藏在資料中的潛在變量（ lurking variable）。

如果把剛剛的資料依照「輕重症程度」做細部的分層，我們可以得到以下的表格，此時我們可以發現 A 醫院在治療不論重症或是輕症的病人時都有較低的死亡率。

在這裡可以發現經過分層後的結果與先前的結果完全相反，而這樣子的矛盾現象，稱為「辛普森的悖論」。為什麼會出現這樣完全相反的結果呢？

辛普森的悖論的定義如下:
在某些條件下的多組數據於分別討論時都會滿足某種性質（例如：A 優於B），但若是直接將數據合併在一起討論時卻可能導致相反的結論（例如：B 優於 A）。

用上述醫院的例子來解釋原因，A 醫院無疑是較好的醫院，但由於 A 醫院是國內頂尖的醫院，因此病情較為嚴重的患者會優先至 A 醫院就診。而重症患者的死亡率天生就遠高於輕症患者，進而拉高了 A 醫院的整體死亡率。於是乎當不考慮病患的病情而只看整體的死亡率時，會誤以為 B 醫院的醫療醫療水平較高。

另一個例子，在 1986 年一項關於腎結石清除手術的研究中也曾出現辛普森悖論。該項研究分析了上百份醫療紀錄，並且比較微創式取石手術與傳統開刀手術的成功率。兩種治療的比較結果如下：

顯示新型的微創式取石手術比傳統開刀手術的成功率更高。

但若是根據結石大小將數據分成兩組，新型的微創式取石手術在兩組的成功率都比傳統手術還要低。為什麼呢？

原因是因為這項研究結果並沒有使用「隨機分派設計（ RCT）」，此研究使用的資料是醫療的檢閱紀錄，結果發現醫生習慣將腎結石較大的病患採取傳統的治療方式，而腎結石較小的病患則採取微創式取石的治療方式。因此，結石大小成了潛在變數。

看到這邊大家可以發現，若是分組表現較好的一方在比較差的分組上佔比較大，就會進而影響了合併之後的統計結果（例如：A 醫院的重症病患比例較多），就會發生辛普森悖論的情形。

因此，若是實驗設計在一開始能採用隨機分派的設計就能有效降低潛在變數的影響，降低辛普森悖論發生的可能。若是無法採取隨機分派的情況，則需要盡可能地思考是否有忽略了潛在的影響因子（但現實生活中很難全面的考量到所有潛在影響），並且透過分層的手段觀察結果的變化。

最後，感謝你認真讀完這篇文章，如果你喜歡我的文章，請給我一些「掌聲👏🏻」與「追蹤我的專欄」，你的支持會是我持續分享的動力。若有希望我分享的主題，也歡迎在下面留言 📝讓我知道。