中央極限定理(Central Limit Theorem , CLT)

邱秉誠

Published in

Carrot Cheng的數據分析

Feb 27, 2021

中央極限定理是指，從任何母體隨機抽取大量獨立的隨機變數，其平均值會趨近於常態分佈。

提到常態分佈，讀者興許就明白為何該定理如此重要了。無論原始母體為何，當樣本數夠大，樣本平均數就會趨於常態分佈，便可以運用統計手法來驗證宣稱的樣本平均值是否合理，進一步幫助我們完成假設檢定的一系列流程。請參考假設檢定基礎觀念。

公式

假設母體的平均值為μ，變異數為σ²，從母體抽取隨機變數x1, x2, x3..xn，這n個隨機變數的平均值(以 X_bar表示)會服從常態分配。

一般而言，在針對常態分佈的假設檢定，我們都會將原始分數標準化，作法為將x減去母體平均μ，再將兩者的差除以母體標準差σ。以標準差做為單位來衡量原始分數與母體的真實距離，又稱為z-score。

這裡要注意的是，上述的z-score是原始的隨機亂數，但是如今是樣本的平均值X_bar服從常態分佈，因此我們分別推導X _bar的期望值與變異數。

X _bar的期望值

估計式的期望值等於母體參數，因此是不偏估計(unbiased estimator)。

X _bar的變異數

經過上述推導，明白X _bar會服從母體平均值為μ、母體標準差為σ/√n的常態分佈。因此z-score重新表示如下：

模擬

用隨機亂數的樣本平均值檢測分布的情形。

我們先隨意產生μ為10、σ為5的高斯隨機變數作為母體，每次抽取10個樣本並計算平均值作為一個觀察值，如此抽取1000次，繪製成下方左上角的第一張圖，接著讓我們來試試看使用不同樣本大小，用以下程式依序使用[10,50,100,200]作為抽取的樣本大小並計算樣本平均值，如此各自抽取1000次，最後使用seanborn的displot繪製圖形。

中央極限定理(Central Limit Theorem , CLT)

公式

X _bar的期望值

X _bar的變異數

模擬

Written by 邱秉誠