資料分析 06 統計學 — 機率分配

Momus C.
7 min readFeb 23, 2020

--

[概論] 本篇介紹幾個有關機率分配的專有名詞,以及常用的機率分配。

前言

上一個章節,我們討論到樣本空間是屬於描述型態的(例如:銅板擲兩次出現兩次正面等等),為了讓世界更能夠溝通,就要利用科學家共同的語言: 數學! 作為分析方法。

沒錯,我們需要將樣本空間給予量化(轉成數字型態),以便進行接下來的分析。

現在我們先來認識有關機率分配的基礎觀念。

名詞解釋 - 隨機變數

要將描述型態的樣本空間轉成數值,我們會需要一個函數,而這個函數我們就稱為 隨機變數(random variable)

而隨機變數可分為兩大類,一種為離散型(間斷型)隨機變數,另外一種為連續型隨機變數。

所謂離散型隨機變數,例如故障次數,可以發生1次故障、2次故障等等,1和2之間無法再切分(別跟平均值搞混悠)。

至於連續型隨機變數,例如溫度,可以是攝氏24度、攝氏25度,而24和25又可以再切分為攝氏24.5度等等。

名詞解釋 -機率分配

機率分配依照字面理解,就是機率的分配。前面提到將樣本空間量化後,從隨機變數獲得的可能值,其分配狀態就是所謂的機率分配。

至於機率呈現的方式有很多種,例如:

間斷機率分配、連續機率分配、累積機率分配(cumulative probability)

分別代表機率的數值呈現是間斷型的、連續型的、以及累積型的。

名詞解釋 -聯合機率分配 & 邊際機率分配

前面所討論到的機率分配都是屬於一維的樣本空間(指單一隨機試驗),但當我們樣本空間是二維,或二維以上的時候呢? 就會考慮到二維以上的隨機變數之機率分配,稱為聯合機率分配(joint probability distribution)

舉個例子,今天投擲一枚公正的硬幣和骰子,那麼列出所有樣本空間並計算其機率分配,這類就屬於聯合機率分配。

像是樣本空間為{H,5},代表該隨機試驗為正面硬幣以及點數為5的骰子。

至於甚麼是邊際機率分配(marginal probability distribution)呢?

其實很簡單,邊際機率指的是由計算列總和與行總和所得的數值。

讓我們來看看這張聯合分配的圖表:

該表是一張列出A和B各種可能組合的機率分配圖,而黑色框起來的部分,則是行總和列總,這些計算行總和與列總和所得的數值就是邊際機率,它的分配就屬於邊際機率分配。

而個別的邊際機率分配自然符合一般機率分配的性質: 加總 = 1

名詞解釋 -條件機率分配 & 獨立性

上一章節,我們介紹了何謂條件機率,接著,我們可以來看看兩個獨立的隨機變數之獨立性,在條件機率下具有什麼特性。

假設X與Y是兩個隨機變數,那麼聯合分配以f(x,y)表示,邊際機率分配分別以g(x)、h(y)表示。

要是f(x|y)=g(x),即代表隨機變數X與Y互相獨立。同理,f(y|x)=h(y)也可稱X與Y互相獨立。

常用的離散型機率分配 -二項分配

機率的概念常常發生在我們日常生活中,然而機率分配千千百百種,什麼情形該使用什麼分配呢? 哪些分配是最常用的呢? 初學者要從何著手呢?

這裡小編哞哞獅(Momus)建議從離散型隨機分配的二項分配開始學習, 為何從二項分配開始呢? 因為生活中最簡單的隨機試驗就是只有兩種結果,像是銅板只有正反兩面,只求正面和反面的機率分配,是不是比求六面的骰子點數的機率分配還來得簡單呢?

而固定 n 次獨立試驗,每次試驗結果只考慮兩種情況(失敗&成功),則其總合結果之機率分布我們就稱之為二項分配( Binomial distribution)。

例如: 有一場博弈大賽,要丟一枚公正的骰子10次,每一次結果只有兩種(贏&輸),大於或等於3就是贏,小於3就是輸,此時要解釋各種出現結果,其機率的分配就可以用二項分配呈現囉。

其他離散型機率分配

除了二項分配外,還有幾何分配、超幾何分配、間斷均勻分配、卜瓦松分配、負二項分配、柏努力分配(點二項分配)...等。如果想進一步了解,往後的篇章會有更詳細的介紹。

常用的連續型機率分配 -常態分配

由於自然界或非自然界,常態分配皆普遍存在,因此它幾乎堪稱使用率最高的分配。

例如賽跑時間或是物理學的光子計數,研究者發現透過證明,可以驗證出這些變量幾乎是服從常態分配。

那麼,常態分配長甚麼樣呢,我們來看看下面這張圖:

這個鐘形曲線就是稱為常態分布,也叫高斯分布。最早是由亞伯拉罕(Abraham de Moivre)於1733年發現此分配。

期望值 μ 等於位置參數,用來決定分布的位置。

標準差 σ 等於尺度參數,用來決定分布的幅度。

將近有68%的數值,落在平均數 ± 1個標準差間、 95%的數值,落在平均數 ± 2個標準差間、99.7%的數值,落在平均數 ± 3個標準差間。而在學術界,大家最常會將95%的數值拿來做研究。

至於常態分配有甚麼應用呢? 下方就來舉一個範例!

假設某企業每月營業額符合常態分配,其平均值為150萬,標準差為7萬。如此可以推斷某一月份之營業額在140萬至160萬之間的機率為何了!

此外,其他分配在某些情況下,經由適度轉換,也會成為常態分配。像是試驗次數n 越大時,二項分配會近似於常態分配,這理論則是統計學最重要的一個定理: 中央極限定理(Central Limit Theorem)!

其他連續型機率分配

其他常見的連續型機率分配包括連續均勻分配、常態分配、標準常態分配、指數隨機變數、伽碼(Gamma)分配、卡方分配、以及貝他(Beta)分配等。往後也有相關篇章更詳細的介紹。

名詞解釋 -機率密度函數

最後和大家介紹本章節最後一個名詞: 機率密度函數

在理解機率密度函數前,我們要先知道何謂密度函數。密度的概念是從物理學來的, 是指一物質單位體積下的質量。

然而,一個點的體積是無限小,因此質量必為0。那麼整個物體的質量怎麼計算呢?

由於物體是由無數個點組成,因此可以在一個點的附近取一小塊,用這一小塊的質量除以體積,然後取極限(體積無限小),即為密度的概念。相反地,密度透過積分可以計算出物體的質量。

了解物體密度的概念後,我們就可以很容易理解機率密度。

如下圖機率的區間從0到1,要在這個區間隨機取一個點,而這個點的機率是多少呢? 由於一個點的長度是無限小,所以機率一定為0。那麼我們就要在這個點附近取一個區間段,利用該區間段的機率除以長度,再取極限後可以得到機率密度的值。

相反地,機率密度透過積分可以計算出該區間段上的機率。

而離散型隨機變數和連續型隨機變數各有對應的機率函數名稱:

離散型隨機變數對應的機率函數,稱為Probability function(pf)或是Probability mass function

連續型隨機變數所對應的機率密度函數稱為Probability density function (pdf)

結尾

恭喜各位初步了解機率分配的相關基礎知識!!

下一章將會介紹抽樣與抽樣分配。

最後,如果喜歡這篇文章,請按下方的拍手鍵,來點掌聲和鼓勵。Thanks!

Reference:

--

--