最大概似估計(Maximum Likelihood Estimation, MLE)

一種估計模型參數的方法

Published in

Carrot Cheng的數據分析

Mar 1, 2021

最大概似估計是一種估計模型參數的方法。適用時機在於手邊有模型，但是模型參數有無限多種，透過真實觀察到的樣本資訊，想辦法導出最有可能產生這些樣本結果的模型參數，也就是挑選使其概似性( Likelihood)最高的一組模型參數，這系列找參數的過程稱為最大概似估計法。

本文會以服從伯努利分布(Bernoulli distribution)、常態分布(Normal distribution)的模型作為例子分別解說。至於相關程式碼則是放在文末。

本文的公式推導僅是化簡或者微分，但對於沒相關基礎的讀者可能較為吃力，公式推導個人認為可以選擇性閱讀，了解機率統計的概念比較重要。

概似函數是一種關於統計模型中的母數的函數，函數值反映出統計模型輸出特定樣本值的可能性，換言之，如果找到特定的模型參數，使得概似函數值最大化，那就是該模型最合適的參數。

常見的概似函數有機率密度函數(Probability density function)、機率質量函數(Probability mass function)等。是的，機率密度函數也是一種概似函數，當我們在談起常態分布的機率密度函數：

將機率密度函數代入一個特定的樣本值a，時常書寫為P(X=a)，表示為該隨機變數X坐落在樣本值a附近的可能性(likelihood)，這裡的可能性不是樣本值發生的機率(Probability)，因為連續變數在任何點取值都為0。

至於機率質量函數，則是離散隨機變數，因此特定值的都有機率。我們會預測連續投擲2次硬幣為正面的機率是0.25，我們也會說觀察到這2次硬幣為正面的可能性是0.25，兩者都說得通。

概似性(likelihood)及機率(probability)兩者都表示事件的可能性，兩個甚至可以是一樣的東西，比如上述機率質量函數，但在數學上卻有截然不同的意涵，重新梳理如下。

機率(probability)，是指模型參數確定的條件下，用模型來預測接下來觀測的結果。比方用服從常態分佈的統計模型，來預測路人身高大於170的機率有多少。所以當我們在說機率，我們通常是以預測為目的。

概似性(likelihood)，則是已知某些觀測所得到的結果，對統計模型的可能性進行估計。比方實際觀察到路人的身高為170，透過機率密度函數計算出在這個統計模型下發生的可能性有多大。