最大概似估計(Maximum Likelihood Estimation, MLE)

一種估計模型參數的方法

--

最大概似估計是一種估計模型參數的方法。適用時機在於手邊有模型,但是模型參數有無限多種,透過真實觀察到的樣本資訊,想辦法導出最有可能產生這些樣本結果的模型參數,也就是挑選使其概似性( Likelihood)最高的一組模型參數,這系列找參數的過程稱為最大概似估計法。

本文會以服從伯努利分布(Bernoulli distribution)、常態分布(Normal distribution)的模型作為例子分別解說。至於相關程式碼則是放在文末。

本文的公式推導僅是化簡或者微分,但對於沒相關基礎的讀者可能較為吃力,公式推導個人認為可以選擇性閱讀,了解機率統計的概念比較重要。

概似函數(likelihood function)

概似函數是一種關於統計模型中的母數的函數,函數值反映出統計模型輸出特定樣本值的可能性,換言之,如果找到特定的模型參數,使得概似函數值最大化,那就是該模型最合適的參數

常見的概似函數有機率密度函數(Probability density function)、機率質量函數(Probability mass function)等。是的,機率密度函數也是一種概似函數,當我們在談起常態分布的機率密度函數:

將機率密度函數代入一個特定的樣本值a,時常書寫為P(X=a)表示為該隨機變數X坐落在樣本值a附近的可能性(likelihood),這裡的可能性不是樣本值發生的機率(Probability),因為連續變數在任何點取值都為0。

至於機率質量函數,則是離散隨機變數,因此特定值的都有機率。我們會預測連續投擲2次硬幣為正面的機率是0.25,我們也會說觀察到這2次硬幣為正面的可能性是0.25,兩者都說得通。

概似性(likelihood)及機率(probability)兩者都表示事件的可能性,兩個甚至可以是一樣的東西,比如上述機率質量函數,但在數學上卻有截然不同的意涵,重新梳理如下。

機率(probability),是指模型參數確定的條件下,用模型來預測接下來觀測的結果。比方用服從常態分佈的統計模型,來預測路人身高大於170的機率有多少。所以當我們在說機率,我們通常是以預測為目的。

概似性(likelihood),則是已知某些觀測所得到的結果,對統計模型的可能性進行估計。比方實際觀察到路人的身高為170,透過機率密度函數計算出在這個統計模型下發生的可能性有多大。

--

--

邱秉誠
Carrot Cheng的數據分析

畢業於台大工業工程所,目前任職於台積電。