【統計 — 1】抽樣和中央極限定理

Min
Becoming a data scientist
Sep 3, 2022

在統計的文章中,我們會複習統計的基礎概念,包含常見的名詞和定理。

母體和樣本

首先,讓我們先認識一些和統計推論有關的名詞:

和母體(Population)有關的

母體(Population)

  • 我們有興趣的個體或觀察值的集合
  • 通常用大寫的 N 來表示總數

母體參數(Population parameter)

  • 未知,但我們感興趣、關於母體的數值(summary value)
  • 例如,全部台灣人的平均身高

人口普查(Census)

  • 詳盡地蒐集所有母體資料,並計算感興趣的數值
  • 當總數越大,蒐集的成本也會越高

觀察值(Observation)

  • 母體其中一個成員的數值(quantity)或質(quality)

和樣本(Sample)有關的

樣本(Sample)

  • 母體的一個子集合

抽樣(Sampling)

  • 由於在現實中要實作人口普查不太可行,因此通常都是用抽樣的方式,蒐集在母體之中的一些資料集合
  • 通常用小寫的 n 以表示總數

和抽樣有關的三個特性:

  • 有代表性的(representative):若一組樣本是據有代表性的,意指這組樣本看起來像是母體,也就是能夠很好地代表母體特徵
  • 泛化的(generalizable):當一組樣本的結果是可以應用在母體上,我們稱其為可犯畫的
  • 偏誤的(biased)或無偏誤的(unbiased):若在母體中的某些個體,比起其他個體更容易被選中並納入樣本的話,我們稱此抽樣方法為有偏誤的(biased)。反之,若母體中的每一個個體被抽樣的機率是相等,則此抽樣方法為無偏誤的(unbiased)。

點估計(Point Estimate)

  • 用樣本估算的數值,以推論、估計未知的母體參數

再來,介紹兩組容易被混淆的名詞。

點估計的抽樣分佈(sampling distribution of point estimates)v.s. 樣本分佈(a sample’s distribution)

抽樣分佈(sampling distribution)

  • 所有點估計(point estimate)的分佈,每一個點估計是來自於相同母體,但不同的隨機樣本計算而得
  • 顯示抽樣的變異性,呈現所有可能的點估計數值,也展現真正母體參數的位置
  • 繪製方法:反覆在同一組母體中抽樣數次,計算每一組抽樣樣本

樣本分佈(a sample’s distribution)

  • 僅僅是單一組樣本中所有數值的分佈

⚠️ 特別注意:抽樣分佈是來自於許多不同樣本,而樣本分佈只是單一樣本

標準誤(standard error) v.s. 標準差(standard deviation)

  • 標準誤(standard error)是一種標準差(standard deviation),特別指抽樣分佈(sampling distribution)的標準差
  • 所有的標準誤都是一種標準差,但是標準差不一定是標準誤

中央極限定理(Central Limit Theorem)

在現實世界中,我們只會使用一組樣本推論母體參數(population parameter),而能夠使用這種方法的原因是建立在中央極限定理上。

這邊談的是 sampling distribution of point estimates

中央極限定理

  • 隨著樣本數增加,抽樣分佈會更趨於常態分佈,且其變異會變小,換而言之,標準誤會變小
  • 和原本母體的分佈無關!
  • 此抽樣分佈的中心會是真實的母體參數

值得注意的是,中央極限定理並非永遠可行,在使用之前要先確認三件事:

  1. 樣本的數量是否足夠大
  2. 樣本的抽樣是否具有獨立性
  3. 樣本是否具有隨機性

想要更深入了解的話,別忘了去最上面的目錄看其他章的課程筆記!

喜歡這篇文章或是對你有幫助的話,別忘了拍手給我鼓勵哦 👏🏻

--

--