中央極限定理(Central Limit Theorem , CLT)

邱秉誠
Carrot Cheng的數據分析
Feb 27, 2021

--

中央極限定理是指,從任何母體隨機抽取大量獨立的隨機變數,其平均值會趨近於常態分佈

提到常態分佈,讀者興許就明白為何該定理如此重要了。無論原始母體為何,當樣本數夠大,樣本平均數就會趨於常態分佈,便可以運用統計手法來驗證宣稱的樣本平均值是否合理,進一步幫助我們完成假設檢定的一系列流程。請參考假設檢定基礎觀念

公式

假設母體的平均值為μ,變異數為σ²,從母體抽取隨機變數x1, x2, x3..xn,這n個隨機變數的平均值(以 X_bar表示)會服從常態分配。

一般而言,在針對常態分佈的假設檢定,我們都會將原始分數標準化,作法為將x減去母體平均μ,再將兩者的差除以母體標準差σ。以標準差做為單位來衡量原始分數與母體的真實距離,又稱為z-score。

這裡要注意的是,上述的z-score是原始的隨機亂數,但是如今是樣本的平均值X_bar服從常態分佈,因此我們分別推導X _bar的期望值與變異數。

X _bar的期望值

估計式的期望值等於母體參數,因此是不偏估計(unbiased estimator)。

X _bar的變異數

經過上述推導,明白X _bar會服從母體平均值為μ、母體標準差為σ/√n的常態分佈。因此z-score重新表示如下:

模擬

用隨機亂數的樣本平均值檢測分布的情形。

我們先隨意產生μ為10、σ為5的高斯隨機變數作為母體,每次抽取10個樣本並計算平均值作為一個觀察值,如此抽取1000次,繪製成下方左上角的第一張圖,接著讓我們來試試看使用不同樣本大小,用以下程式依序使用[10,50,100,200]作為抽取的樣本大小並計算樣本平均值,如此各自抽取1000次,最後使用seanborn的displot繪製圖形。

--

--

邱秉誠
Carrot Cheng的數據分析

畢業於台大工業工程所,目前任職於台積電。