淺談相關與因果

有句俗話說「真相只有一個」,然而在現實生活中,有些事情的真相其實不是很容易釐清,要確定一件事的因果關係,更是不簡單,因為現實環境與我們所處的世界太過複雜,同時往往都有干擾因素(Confounding factors)存在,真相只有一個的說法,往往引發爭議。

在商業世界中,也是一樣。一件商品之所以會受到喜愛,有時的確是因為它的品質佳、功能好,但很多東西卻常常莫名其妙的爆紅,原因只在它可能受到名人一時的加持。其中究竟只是相關,還是具有因果關係。往往必須深入探究,才會知道。

所謂「相關」,意指兩項變數之間,存在著某一種關係。統計學中使用「相關係數」來解釋變數之間關係的密切程度;至於「因果」則指兩項變數之間,存在著一種必然的相互依存關係。在這種情況下,「相關性研究(Relation Research)」主要在確認兩變數間或兩個以上的變數之間,是否有某種關係存在;至於「解釋性研究(Explanation Research)」則在於瞭解並嘗試說明這兩個變數的關係,是如何發生的。因此,解釋性研究通常涉因果關係的驗證。

在進行數據分析時,我們必須要注意以下的問題:

1.偽相關( spurious correlation)

在tylervigen.com的網站上[1],介紹了一些有趣的偽相關個案。以下簡單引用並說明。

2000年到2009年,全美擺放在街頭的電動玩具的總收入(Total revenue generated by arcades)與在美國獲得電腦科學博士學位的人數(Computer science doctorates awarded in the US),相關係數高達0.9851,如圖1來看,兩條曲線幾近重合,但其實兩者一點關係都沒有。

圖1. 全美街頭電動玩具的總收入與美國獲得電腦科學博士學位之人數相關圖
圖2 . 在游泳池淹死的人數與影星尼可拉斯·凱吉演出電影數目之相關圖

1999到2009年掉進游泳池淹死的人數(Number of people who drowned by falling into a pool),與尼可拉斯·凱吉演出電影的數目(Films Nicolas Cage appeared in),相關係數高達0.66。表面上看來,只要他某一年電影演的多,當年慘遭溺斃的人數也就多,衰運連連,但其實兩者也是偽相關。

2. 相關不等於因果

兩項變數之間如果有因果關係,背後一定「相關」。但當兩項變數之間有顯著的相關時,未必表示兩者一定有因果關係。

[1]資料來源:http://tylervigen.com/spurious-correlations、The Link Between Chocolate and the Nobel Prize (Messerli, F. The New England Journal of Medicine, published online Oct. 10, 2012)

作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)

繪圖者:傅嬿珊

— — — — — — — — — — — — — — — —

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!

同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公布最新資訊,讓您重要消息不漏接!

FB粉絲專頁:行銷資料科學

官網:臺灣行銷研究

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR