【Bayesian Inference 貝氏統計 — 01】貝氏統計的基本介紹 - 上

Min
Becoming a data scientist
7 min readSep 4, 2022

在這一系列的文章中,我們將介紹清大統計所的鄭少為老師開設的統計學課程中,關於 Decision Theory and Bayesian Inference 的內容。

基本介紹分為上下篇,預計會介紹的內容如下:

  • 常用的 terms,包含 decision function 和 risk function
  • 使用 minimax rule 選擇一個 decision function,並介紹此選擇面臨的問題
  • Bayesian approach vs frequentist approach
  • 介紹 prior distribution、Bayes risk 和 Bayes rule

事不宜遲,讓我們開始吧!

在正式進入貝氏的世界中,讓我們先來看兩個例子。

Example 1. Sampling Inspection

現在工廠一條生產鏈可以出產 N 個物品,廠長會隨機抽樣其中 n 個產品,檢查這批產品是損壞或良好的比例。

會使用到的符號如下:

  • p:N 個產品中是損壞的比例,此為 parameter,因為我們不可能檢查整批 N 個產品,因此此項為未知
  • p hat:抽樣出 n 個產品中損壞的比例(p hat= x/n,x 為損壞的產品個數),此為可觀察到的值,因此是已知的。而 p hat 的 distribution 取決於 p,若是取後放回,則為 binomial distribution;而取後不放回,則是 hypogeometric distribution。

對於任一生產線,廠長有兩個選擇:

  1. 販售整條生產線,價格為 M 元,且保證如果損壞的比例 p hat > p₀,會賠償 P 元。 p hat 在販售的當下是未知的,當客戶間使用時就會知道。
  2. 整批貨物丟棄,損失 C 元。

Loss function

Example 1. Loss function

問題:為了得到最好的利益,最小化損失,要如何做決策呢?

Example 2 Classification

在做醫療診斷時,要判定病人是否有心肌梗塞(MI),並且是否需要緊急的醫療照顧。

  • 病人狀態:有 MI 或沒有 MI,此為 parameter,是未知的
  • X:生理檢查結果,是已知的,X 的 distribution 取決於 parameter

醫生有兩個選擇:治療或是不治療

Loss function

Example 2. Loss function

問題:根據觀察到的資料 X,要如何決定是否需要治療,且損失最小呢?

行動的選擇會根據不同情境而有所不同,例如如果治療費高,則會傾向判定為 no MI,而如果賠償費較高,則傾向判定為 MI。

以上兩個例子中,我們都需要在不確定的情境下做決策。

基本介紹

Actions
a: action
A: action space, the set of all possible actions

Data
決策的選擇構築於觀察到的資料 X
X ∈ S, S 是 sample space, the set of all possible data values
X 的 distribution 取決於 parameter θ(i.e., state of nature)
θ ∈ Ω, Ω 是 parameter space, the set of all possible values of θ

Decision function
d: statistical decision function, a map from S to A
d: S → A
a = d(X)

Loss function
l(θ, a) = l(θ, d(X))

Risk function
the expected loss of a decision d
R(θ, d) = Ex[l(θ, d(X))]
此為 loss 的平均,固定一個 θ,取 X 在此 θ 的 distribution 當作權重,做 loss 的 weighted average。

最好的 decision function d 需要有最小的 risk。

但是有兩個困難之處:

  1. Difficulty 1: R(θ, d) 取決於 θ,但是 θ 是未知的

2. Difficulty 2: 可能有兩個決策 d₁ 和 d₂,在不同 θ(θ₁ 和 θ₂)下,他們的 risk 大小關係不同:

  • R(θ₁, d₁) < R(θ₁, d₂)
  • R(θ₂, d₁) > R(θ₂, d₂)

沒有單一 θ 是最好的,且因為 θ 是未知的,究竟要如何做決策呢?

Hint:需要把 θ 轉變成一個單一數值。

為了解決這個問題,我們現在來介紹第一個定理:Minimax Rule。

Definition 1: Minimax Rule

  1. 一個 decision function d 的最大 risk 為 max_{θ ∈ Ω} R(θ, d),此式中我們將 θ 從 parameter space 中變成一個固定的值
  2. 選擇一個 decision function d* 使得這個 maximum risk 可以最小化 min_d[max_{θ ∈ Ω} R(θ, d)]
  3. 此 decision function d*,如果存在的話,即稱為 minimax rule。

Minimax rule 的缺點是非常保守,只考慮最差的情況,並不一定是最好的選擇。

以段考的排名來比擬的話,有一個學生所有科目的成績都很好,但是只有體育成績非常差。然而 minimax rule 只會看到在體育成績差的平行世界,不會看到其他成績好的平行世界,因此這個學生的排名吊車尾。

但是,這種排名方式的錯誤非常顯而易見,因為如果取平均或是加權平均的話,他的排名很可能是名列前茅。

Bayesian approach v.s. frequentist approach

這裡有一點值得注意,引進平均或加權平均這個概念,是統計觀念上的改變!也就是轉變成 Bayesian approach

之前的統計稱為 frequentist approach,例如在做假設檢定時,parameters 都是未知的。不過都是固定值,沒有哪個平行世界比較容易發生,是固定在某個實數線上的某個數值。

然而,如果取平均,則是 Bayesian approach。代表開始在平行世界放權重,某些平行世界會比其他平行世界更容易發生。其權重為 distribution,此時 parameters 變為 random variables,但是在做決策時看不到 random variables 的數值。

回想前面 example 1,廠長要決定是否要販售整批產品,或是丟棄。p 是生產線中損壞的產品比例,其為 random variables。因為是隨機從很多 p 中抽樣而得,什麼數值都有可能,且每個數值的機率不同。

在每個平行世界中的 p 值都不相同,我們可以用有許多不同條生產線比擬,每條生產線的 p 值不同。假設一間工廠共有 10 條生產線,有 8 條的 p 為 0.1,1 條為 0.05,1 條為 0.2,則 p=0.1 的這個數值最容易被抽到。

但是,如果我們只抽樣一批生產線,要怎麼知道 p 的分佈呢?根據過去販售產品的經驗,客戶會回報每批貨的 p 為多少。經過多年搜集,我們即可得知每個 p 的分佈機率。如上述中 p=0.1 最多人回報,意即 p=0.1 的這個平行世界最容易遇到,因此我們在每個平行世界上都放上權重。

這組權重即為下篇會介紹的 prior distribution,並且再進一步介紹要如何將此組 distribution 納入分析中。

Reference

想要更深入了解的話,別忘了去最上面的目錄看其他章的課程筆記!

喜歡這篇文章或是對你有幫助的話,別忘了拍手給我鼓勵哦 👏🏻

--

--