【統計 — 1】抽樣和中央極限定理

Published in

Becoming a data scientist

Sep 3, 2022

在統計的文章中，我們會複習統計的基礎概念，包含常見的名詞和定理。

母體和樣本

首先，讓我們先認識一些和統計推論有關的名詞：

和母體（Population）有關的

母體（Population）

母體參數（Population parameter）

人口普查（Census）

觀察值（Observation）

和樣本（Sample）有關的

樣本（Sample）

抽樣（Sampling）

和抽樣有關的三個特性：

有代表性的（representative）：若一組樣本是據有代表性的，意指這組樣本看起來像是母體，也就是能夠很好地代表母體特徵
泛化的（generalizable）：當一組樣本的結果是可以應用在母體上，我們稱其為可犯畫的
偏誤的（biased）或無偏誤的（unbiased）：若在母體中的某些個體，比起其他個體更容易被選中並納入樣本的話，我們稱此抽樣方法為有偏誤的（biased）。反之，若母體中的每一個個體被抽樣的機率是相等，則此抽樣方法為無偏誤的（unbiased）。

點估計（Point Estimate）

再來，介紹兩組容易被混淆的名詞。

抽樣分佈（sampling distribution）

樣本分佈（a sample’s distribution）

⚠️ 特別注意：抽樣分佈是來自於許多不同樣本，而樣本分佈只是單一樣本

標準誤（standard error）是一種標準差（standard deviation），特別指抽樣分佈（sampling distribution）的標準差
所有的標準誤都是一種標準差，但是標準差不一定是標準誤

在現實世界中，我們只會使用一組樣本推論母體參數（population parameter），而能夠使用這種方法的原因是建立在中央極限定理上。

這邊談的是 sampling distribution of point estimates

中央極限定理

值得注意的是，中央極限定理並非永遠可行，在使用之前要先確認三件事：

想要更深入了解的話，別忘了去最上面的目錄看其他章的課程筆記！

喜歡這篇文章或是對你有幫助的話，別忘了拍手給我鼓勵哦 👏🏻