當機率遇上統計 — 淺談機率分布

StaTea Cup
10 min readAug 3, 2023

--

在統計學的學習過程當中,不少人往往在機率結合統計的過程中即遭遇挫敗,故本篇想以簡潔明瞭的方式帶大家好好認識這個主題。準備好了嗎?讓我們一起體會機率與統計邂逅時的那份美好吧!

閱讀本篇,你會學到以下內容:

  1. 隨機變數與機率分布
  2. 離散型機率分布代表- 二項分布
  3. 連續型機率分布代表- 常態分布
  4. 各種分布型態

隨機變數與機率分布

我們在日常生活當中會碰到許多同單位但不同數值的數字,這些一組一組的數字便是隨機變數(Random Variable)的概念,像是今天來圖書館念書的「人數」或者中午 12 點的「氣溫」等。我們通常用大寫的英文字母來表示隨機變數,如 X、Y、Z。而隨機變數會有其對應的機率,也就是發生不同可能取得數值的可能性,若將隨機變數所有可能的值所對應的機率都列出來,以函數的方式呈現,便是所謂的機率分布(Probability Distribution)。舉例來說,若隨機變數 X 是今天來圖書館念書的人數,依照過往的經驗,在 X = 125 (即有 125 人來圖書館)時,其機率等於 0.2。

隨機變數是一個可能取得不同數值的變數,這些數值是由某種不確定性或隨機性因素所決定的。機率分布則描述了隨機變數取不同值的機率。

依照隨機變數性質的不同,分為離散型(Discrete)以及連續型(Continuous),如人數、次數等有限或可數的數值是離散型隨機變數,而氣溫、身高、體重、時間等連續的變量,則屬於連續型隨機變數。以下將由一張表來比較離散型和連續型隨機變數的差別:

上表很多部分都有看沒懂對吧?沒關係!先記著,有個初步的認識即可,到時候我們都會再一一釐清的!

離散型機率分布代表二項分布

在統計學中,二項分布(Binomial Distribution)是一種重要的機率分布,被廣泛應用於描述在固定次數的獨立重複試驗中的成功次數。它提供了一種方法來分析具有兩種可能結果的試驗,也就是你所定義的「成功的試驗」和「失敗的試驗」,並且每次試驗的成功機率保持不變。本篇將以輕鬆易懂的方式解釋二項分布的概念和應用。

用個簡單的例子來說明,假設你正在投擲一枚硬幣,並且你想知道在 5 次投擲中正面出現的次數。這個問題可以用二項分布來解決。在這個例子中,每次投擲有兩種可能的結果:正面或反面。假設硬幣是公平的,每次投擲正面的機率為 0.5。現在,我們想要計算在 5 次投擲中獲得正面的次數。要怎麼做呢?

這時我們就要先來了解二項分布的機率質量函數(Probability Mass Function,PMF),它可以給出在給定試驗次數和成功機率下,獲得特定成功次數的機率。以下是該公式:

在這個公式中,C(n, k) 表示從 n 次試驗中選取 k 次成功的方法數。p 是每次試驗成功的機率,(1-p) 是每次試驗失敗的機率,k 是成功的次數,n 是試驗的總次數。因此,我們可以用 X ~ Bin(n, p) 來表示某個隨機變數 X 遵循二項分布,並且將給定的 n 值及 p 值帶入上述公式即可得到特定成功次數的機率以便畫出 PMF。

我們可以使用上述公式計算出在5次投擲中獲得 0、1、2、3、4 或 5 次正面的機率。下圖是這個例子的 PMF 圖,將正面出現的次數所對應的機率值整理起來。

除了硬幣投擲,二項分布在許多其他情境中也有應用。例如,我們可以使用二項分布來模擬市場銷售,或在醫學檢測中計算正確檢測的次數。

二項分布提供了在固定次數的獨立重複試驗中成功次數的機率分布。它是一個重要的統計工具,可以應用於許多現實世界的情況。

但光是這樣還是不夠,因為我們可能會遇到隨機變數不是離散型的狀況,無法區分為「成功的試驗」和「失敗的試驗」,那我們就得用其他的分布去做描述。

連續型機率分布代表常態分布

接下來,我們要來探討大家耳熟能詳的分布 — 常態分布(Normal Distribution),它是一種連續型的機率分布,並且很常應用在日常生活以及各種科學實證當中,像是身高、智商、成績等分布在大部分的情況下我們都會假設它遵循常態分布。那常態分布到底是甚麼?有怎麼樣的特徵及意義呢?我們將會仔細為大家介紹。

首先先來了解「常態曲線」,又叫做「鐘形曲線」,長相如下圖

我們可以看到,常態曲線具備以下特徵:

  1. 有一個處於正中間的波峰,沒有偏態:中間高兩邊低且沒有往任何一個方向傾斜。這是由於在常態分布的假設中,平均數、中位數及眾數皆相等。
  2. 完全對稱於平均數:若你沿著中心線將曲線對折,會發現兩半是完全重疊的。
  3. 曲線的雙尾是漸進的:雙尾越來越逼近橫軸(接近 0)但永遠不會碰到,這表示極值的發生還是存在無限小的可能性。

那常態分布具有甚麼意義呢?簡單來說,它表示傾向於常態曲線中間發生之事件的機率高於那些在極值範圍內發生之事件的機率。以 IQ 為例,一個群體中非常聰明或非常愚笨的人數量非常少,大多數的人正好處在常態曲線靠近中間的地方。同樣的概念也適用於身高、體重、手機當中的 App 數量等。

在統計學中,我們通常用符號 X ~ N(μ, σ^2) 來表示隨機變數 X 的機率分布遵循常態分布,其中 μ 是平均數而 σ 是標準差。為甚麼是這樣表示呢?因為常態分布假定中間高峰的地方就是平均數(μ),而隨著距離平均數的標準差(σ)個數越多,其對應的機率密度數值越低,且無論 μ 和 σ 是多少,在距離平均數相對應標準差個數區間內(如 μ + σ ~ μ + 2σ),其對應的機率皆相同。我們舉個例子來看,下圖的身高(X)遵循常態分布,其平均數是 170,標準差是15,我們可以用 X ~ N(170, 15^2) 表示,然後我們可以發現,在距離平均數一至兩個標準差的範圍內( μ + σ ~ μ + 2σ,也就是 185 ~ 200,或 μ - 2σ ~ μ - σ,也就是 140 ~ 155),其機率是 13.59 %,其他的區域所對應到的面積也可以此類推,在下圖當中皆有列出。

為了方便比較不同常態分布,我們將身高(原始分數)進行一個叫標準化(Standardization)的動作,也就是把每個原始分數都減去平均數,再除以標準差。我們將這個得到的數值稱之為 Z 分數(Z-Score),是一種標準分數,用來表示偏離平均數的標準差個數,公式如下:

這樣,我們就可以把剛剛的身高(原始分數)透過標準化的方式,計算出它的 Z 分數,並做成下圖。

我們會發現,由於 Z 分數表示的就是偏離平均數的標準差個數,因此區域內所對應的機率會跟上面用原始分數對照的機率相同。例如,在距離平均數一至兩個標準差的範圍內(μ + σ ~ μ + 2σ,也就是 185 ~ 200,用 Z 分數表示就是 1 ~ 2),機率是 13.59 %。其實我們也可以說,轉換成 Z 分數的機率分布仍遵循常態分布,它的平均數是 0 而標準差是 1,可用 Z ~ N(0, 1^2) 表示,這樣也間接驗證我們剛剛所說的,無論 μ 和 σ 是多少,在距離平均數相對應標準差個數區間內,其對應的機率皆相同。

這樣有什麼好處呢?當我們今天遇到不同平均數和標準差的常態分布,我們就可以透過將其轉換為 Z 分數進行比較。舉例來說,小萬考指考國文的成績(90)跟指考數學的成績(60),因為難度不同,無法以原始成績進行比較,但經過 Z 分數轉換,假設國文的 Z 分數是 1 而數學的 Z 分數是 1.5,就代表小萬在指考數學的表現相對於全國考生比國文還要好。

標準化,就是計算 Z 分數,用來比較不同的常態分佈。

常態分布當中有個很常應用的概念,叫做 68–95–99.7 法則(68–95–99.7 Rule),它是指在常態分布中,約 68% 的數據落在平均值的一個標準差範圍內,約 95 % 的數據落在平均值的兩個標準差範圍內,而約 99.7 % 的數據落在平均值的三個標準差範圍內。你可能會想,這樣有甚麼意義呢?其實,它提供了對機率分佈的重要洞察:當我們擁有一個大量數據的樣本時,可以使用這個法則來估計數據的分佈情況,而不需要進行複雜的數據分析。例如,如果我們知道數據呈現常態分布並且具有平均值和標準差,我們就可以根據「68–95–99.7 法則」來估計在這些範圍內的數據量。

運用「68–95–99.7 法則」,我們可以快速估計數據的分佈情況!

各種分布型態

在統計學和機率論中,分布型態是描述機率分布特徵的重要概念。了解分布型態可以幫助我們對數據進行更全面的分析和解釋。本篇將介紹分布型態的幾個重要統計特徵,包括平均值、變異性、偏態和峰度。

1. 平均值

平均值(Mean)是一個描述分布型態的重要指標。它代表數據的中心位置,決定了分布圖形在 x 軸的位置。平均值是所有觀測值的總和除以觀測值的個數。當平均值偏離原點時,分布圖形也會相應地在 x 軸上移動。

2. 變異性

變異性(Variability)是描述分布型態形狀的特徵之一。它反映了數據值的分散程度。如果分布的變異性小,代表數據點相對集中,分布圖形可能更加陡峭;相反,如果變異性大,代表數據點相對分散,分布圖形可能更加平坦。。變異性可以通過計算數據的方差或標準差來評估。

3. 偏態

偏態(Skewness)描述了分布圖形的對稱性。當一端相對於另一端長,我們稱之為偏態。如果分布圖形的右尾(大於平均值的一側)較長,平均數大於中位數,稱為正偏態;相反的,如果左尾(小於平均值的一側)較長,中位數大於平均數,則稱為負偏態。偏態可以通過計算數據的偏態係數來衡量。

4. 峰度

峰度(Kurtosis)描述了分布圖形的尖峰程度。如果相對於常態分佈而言分布圖形較扁平,則稱為低闊峰;反之,如果相對於常態分佈而言分布圖形較高而尖,則稱為高闊峰。峰度可以通過計算數據的峰度係數來評估。

這邊很多人會有一個疑慮:變異性越大時,峰度的曲線通常也會越扁平,那為甚麼不用其中一個特徵去描述就好了呢?這個想法是正確的,但需要注意的點是「變異性描述的是數值的分散程度,而峰度描述的是分布曲線的形狀」。另外,變異性跟峰度之間的關聯性並不是絕對的,而且在不同分布下有不同的表現。

透過分析平均值、變異性、偏態和峰度等分布型態的特徵,我們可以獲得對機率分布的更深入理解。這些統計特徵提供了描述機率分布形狀和特性的量化指標。在進行數據分析和解釋時,這些特徵可以幫助我們識別出分布的特殊特徵,並對數據進行更準確的描述。

結論

學習機率分布是統計學與現代科學中不可或缺的核心概念。透過機率分布的學習,我們能夠更深入地瞭解隨機現象的規律,並量化不確定性,做出明智的預測和決策。機率分布為我們提供了有效工具,能在眾多數據中提煉有價值的訊息,解釋統計數據,並應用於科學研究、市場預測、醫學診斷等領域。現在,我們將帶著滿滿的機率分布基礎知識,去進行「推論統計」的學習,好好期待吧!

--

--

StaTea Cup

兩個不務正業的金融系科技小白,致力於研究統計及數據分析相關技術並分享新鮮乾貨給大家~