推論性統計(Inferential Statistics)推論什麼?(上篇)

行銷資料科學
Marketingdatascience
4 min readNov 5, 2019

很多人都看過名偵探「福爾摩斯」或者卡通「柯南」的故事。它們之所以迷人,在於「福爾摩斯」或者「柯南」能夠從小地方推斷一個人的職業、嗜好、習慣,甚至是嫌疑犯的犯罪行為。例如,可以他們從一個人所著的西裝口袋上沾染的些許白粉,推論他可能是個老師,甚至擁有什麼樣的教書習慣,因為善於觀察,又關注細節,再加上又能做出有效的「推論」,使得成為無案不破的著名偵探。而我們這次要討論的「推論性統計」,它的精神也和偵探的「見微」能夠「知著」非常相似。

上次我們提到統計學裡前半部的「敘述性統計」,獲得不少網友的迴響,因為只要善用幾個「統計數字」的綜合「敘述」,已經能夠清楚「描繪」出一個群體(例如一家公司)的「輪廓」。至於統計學的後半部,則是希望利用「數量有限」的樣本,來推論你想評估的「母體」。而這也正是「推論性統計」要做的事,如圖1所示。

圖1 統計學的兩大類型(繪圖者:王舒憶)

我們先不討論推論性統計背後所使用的各類複雜的統計工具。先想像一下,如果看到一個小女生的臉孔、體態和身材,在正常情況下,你大概可以猜想出她的媽媽長得怎麼樣。因為有句俗話不是說「有其母,必有其女」。

現在,在小孩(樣本)散居各處,媽媽(母體)又長像不明,我們又很想知道媽媽的長相如何時?身為統計學者或資料科學家,我們只能藉由「抽樣」,利用抽到長得很像媽媽的小孩(樣本),來拼湊出媽媽(母體)的整體樣貌。而這也正是「推論性統計」的精髓所在。

推論統計之所以不容易,在於母體或是抽樣架構(Sampling Frame)可能隨時在「改變」,而抽樣又很容易「出現偏誤」。因此要做到完全正確的推論幾乎不可能。舉例來說,過去總統大選,國內各家民調公司,都將台灣地區1,120多萬戶(裝有市內電話)的家庭當成抽樣架構來進行抽樣。而過去「市內電話」是可以接觸到這批有投票權的人的最佳途徑,但是隨著行動電話越來越多,一天當中會一直守在家用電話的家庭人口年齡都偏高(以爺爺奶奶和媽媽為主),民調公司很難有效找到持有行動電話的年輕人。因此也造成今年民進黨和國民黨總統初選時,部分候選人就堅持要有行動電話的樣本,一併加入抽樣的範圍,才不會導致出現抽樣偏誤,導致後續推論偏誤的情況。

再舉一個例子,雖然大家很想知道明年總統大選可能的最終結果,但因為隨時有不同事件(美中貿易大戰、兩岸情勢變化和香港反送中等)發生,影響民意的起伏,因此各家民調中心誰也都不敢宣稱它的調查最準確。因此只能說,民調通常只在看民意變化的「趨勢」。

此外,因為先天上無法推論出百分之百正確的母體樣貌,大家要習慣的是,統計學家會使用一個「區間」的敘述來推論真實的得票率。通常你會看到是像以下的敘述「這次調查於八月五日至七日晚間進行,成功訪問1,080位成年民眾,在95%的信心水準下,某某候選人的得票率為42%,而其誤差在正負3%左右」。事實上,這句話的真正意思是「如果100家不同的民調中心來做同樣的調查,會有95家所做出來某某候選人的得票率,大概落在39%~45%的範圍內 (42 + 3%)。」

當然,民意或市場專家要讓調查精準地落在一個比較「合理」的範圍內,首先必須確保「抽樣」技術和過程,能抽到可以有效代表母體的樣本,起碼讓「孩子要長得像媽媽」,才能讓調查最符合實際情形。舉例而言,台北市士林區的天玉里,因為歷次五次大選的候選人得票率與全市得票率誤差值幾乎在1~0.5%,有「章魚哥神預」封稱。天玉里之所以出名,主要在於它的人口結構最像台北市民的組成,因此也有「小台北」之稱。這顯示樣本的「質」很重要。

有趣的是,「樣本的數量」在統計中,反而沒有那麼重要,因為只要抽到一定的標準即可。根據統計學,不管是二十萬人口的小郷鎮,甚至到二千萬人的大都會,民意調查都只要抽樣到業界公認的1,067人左右即可。

作者:蘇宇暉(台科大管研所博士候選人)、羅凱揚(台科大企管系博士)

繪圖者:王舒憶(臺灣行銷研究特約設計師)

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR