不斷被用錯的 Normal Distribution

不如來認識一下何謂「常態分佈」

華田 Watin
華田士多

--

picture by mcmurryjulie

先問大家一個機率問題

有一串由 1,000,000 個數字組成的數列,平均值 (mean) 是 0.50,標準差 (standard deviation / sd) 也是 0.50,如果現在我們隨意抽一個數字,這個數字大於 1.48 (即比 mean 高出 1.96 sd )的機率是多少?

我知道很多有基礎統計學訓練的人都會在心裡直覺地說:單邊高出 1.96 sd,當然是 2.5% 啦!

很可惜,機率是 0,因為我從來沒說過這串數字是 normally distributed 的,看一下下圖。

這串數字只有 0 和 1,沒錯,這就相當於擲毫 1,000,000 次後的分佈圖 (其中 0 代表字、1 代表公)。mean = 0.500501、sd = 0.500000。

至於得出大於 1.48 的機率?由於數列不是 0 便是 1,那得出大於 1.48 的機率當然是 0 咯!

“Large Enough” 便會趨向 Normal 的迷思

經常聽到人說,夠 30 個便 large enough 用 normal distribution,但事實是你擲亳 1,000,000 次只會得出兩條 vertical bar,連「趨向」normal 都談不上,問題錯在哪裏?

答案是當同一事情不斷出現、並相互不受影響時,例如不斷擲毫,是它們「平均值的分佈」趨向 normal,看看下圖。

fair coin:每回合 100 次 (重覆 100,000 次) 的分佈圖

從上圖我們可以看到,呈現常態分佈的是 「擲毫得出的平均值」,而不是「擲毫得出的 0 和 1」!以這次實驗為例,首 3 回合的平均值分別為 0.43、0.5、0.54,這些平均值便呈現常態分佈了。

那所謂 “Large Enough” 是什麼意思?

--

--