一步步探究對與錯 — 假設檢定的步驟

Aug 16, 2023

在學習統計的途徑當中，通常會分成兩大部分：「敘述統計」和「推論統計」。從敘述統計進入到推論統計的過程中，可以發現這兩個部分的內容天差地遠，好像推論統計難度高上一個檔次，因此今天我們就來為大家解析推論統計的概念以及使用方法！

而敘述統計、推論統計究竟是什麼呢？敘述統計是用來描述樣本特徵的方法，能用來了解一串雜亂數據整體的樣貌，像是大家熟悉的平均值、標準差等，都屬於敘述統計。而推論統計則是根據樣本的特徵來推論母體的技術，在先前的篇章「統計的研究方法 — 假設檢定」中提到假設檢定便是推論統計的核心內容，不熟悉的小夥伴可以先去看之前假設檢定的文章！

在假設檢定的步驟「選定研究對象 → 建立假設 → 檢定假設 → 得出結論」中，我們已經在上一篇解釋了選定研究對象、如何建立假設以及如何檢定假設的概念。今天我們會注重在解釋檢定方法上，

在本章節當中，你將會學到：

假設檢定的步驟

建立虛無假設和研究假設
設立顯著水準
決定統計檢定方法
計算檢定統計量
制定並執行決策規則
解釋結果 & 檢測效應量

假設檢定的步驟

不管在進行什麼樣的假設檢定時，其步驟與概念其實是相似的，在往後的篇章介紹其他檢定方法時（z 檢定、各種 t 檢定、ANOVA 等等）都會採取相似的步驟，分別如下圖：

接下來就來詳細說明這六個步驟。

STEP 1：建立虛無假設和研究假設

將研究問題轉換成研究假設，並建立虛無假設。研究假設為我們假定的結果，虛無假設則是代表隨機性產生的結果。

STEP 2：設立顯著水準

虛無假設的顯著水準完全由研究者自訂，越低的顯著水準代表條件越嚴苛。

STEP 3：決定統計檢定方法

在統計學中的檢定方法有非常多種，研究者需要根據資料的型態、變數的尺度和數量、研究的目標和對象來找到合適的檢定方法。統計檢定方法大致可以分為有母數檢定（Parametric Test）和無母數檢定（Non Parametric Test），有母數檢定一般會假設母體為常態分配，如資料分部未知或是資料類型不為數值類型，則使用無母數檢定。以下為幾個常見的檢定方法：

上述提到的只是冰山一角而已，有興趣可以去這邊查看更多更詳細的檢定方法。

連結🔗：Choosing the Correct Statistical Test in SAS, Stata, SPSS and R

STEP 4：計算檢定統計量

檢定統計量是由樣本內的數據計算而來，是用來決定是否拒絕虛無假設的數值，也可以理解為描述樣本與虛無假設為真時的匹配程度。

檢定統計量可看作是模型可解釋的變異對模型無法解釋的變異的比率，因此當模型可解釋的變異很大或模型不可解釋的變異很小時，檢定統計量越大，表示研究結果越不可能來自隨機性。因此，相對應的 p 值（表示結果是來自隨機性的機率）會越小，也越有可能小於顯著水準，進而拒絕虛無假設。

這邊需要注意的是，如果當檢定統計量為負數，會跟其值為正時效果相反，越小代表模型可解釋的變異效果越大。

每個檢定方法都有不同的檢定量，同時不同的檢定量也會對應到不同的抽樣分配。抽樣分配是指從母體中抽取多個樣本，然後計算每個樣本的統計量（例如平均值、變異數等），這些統計量的分佈就被稱為抽樣分配。而我們能透過抽樣分配去決定一個檢定統計量的機率，也就是該檢定量的 p 值。

以下為常見的幾種檢定統計量和使用該檢定統計量的統計檢定方法：

STEP 5：制定並執行決策規則

在計算出檢定統計量後，下一步則是將檢定統計量和顯著水準進行比較，來判斷是否該拒絕虛無假設，而比較檢定統計量和顯著水準的方法稱為「決策規則」。先前提到抽樣分配能將檢定統計量轉換成能和顯著水準比較的 p 值，就是一種決策規則，而決策規則總共有兩種：

將檢定統計量轉換成 p 值進行比較
計算臨界值與檢定統計量進行比較

以下便來細說這兩個方法的進行方式。

1. 將檢定統計量轉換成 p 值進行比較

今天我們想將檢定統計量和顯著水準（α）進行比較，就得先把檢定統計量轉換成 p 值。其轉換的方式為計算所得出的檢定統計量所發生的機率。舉例來說，假設今天所用的抽樣分配為常態分配，如上圖所示，且所得出的檢定統計量為 2。在常態分配下，要計算檢定統計量 2 所發生的機率的方式為計算檢定統計量 2 至常態分配圖形尾端的曲線下面積（機率）為多少，就能得知該檢定統計量的 p 值。如果 p 值小於顯著水準則拒絕虛無假設，反之則接受。

至於是計算至曲線下左右哪一方向的尾端，則需看用的是左尾、右尾還是雙尾檢定。右尾檢定的 p 值是計算至曲線下右方尾端的面積，左尾的則是計算至曲線下左方尾端的面積。值得注意的是，雙尾檢定因為不分方向，因此機率會被平分，所以在計算 p 值時須找離尾端曲線下面積小的一方，同時計算後的 p 值是跟顯著水準除以二的值（α / 2）比較。

2. 計算臨界值與檢定統計量進行比較

臨界值是位在拒絕域和接受域之間的分界線，如果檢定統計量大於臨界值落在拒絕域，則拒絕虛無假說。是否覺得臨界值和顯著水準的功能有點相似呢？沒錯！因為臨界值是由顯著水準和抽樣分配所計算得來的。以上圖為例，假設今天我們的抽樣分配是常態分配，顯著水準為 0.05，X 軸代表檢定統計量。我們已經知道在常態分配曲線下的面積可以代表檢定統計量發生的機率，因此我們能計算顯著水準在常態圖形中的面積進而去標記一個區塊，而這個區塊就被稱為拒絕域，凡是落在拒絕域內的檢定統計量，代表其發生的機率落在 0.05 以下，即拒絕虛無假設，因此拒絕域的邊界值便被稱作臨界值。

而檢定又分為單尾檢定與雙尾檢定，單尾檢定為有方向性的檢定，臨界值會落在左側或右側，凡是檢定統計量低於左側或高於右側的臨界值則拒絕虛無假設。

雙尾檢定則是無方向性的檢定，因此臨界值會同時落在左右兩側，並且左側以左和右側以右的區塊和為顯著水準的值，凡是檢定統計量落在這兩個區塊則拒絕虛無假設。

STEP 6：解釋結果 & 檢測效應量

現在已經知道如何判斷一個研究是否拒絕虛無假設，也就是研究的群體間是否有差異，但我們該如何判斷群體間的差異究竟差多少呢？這部分就需要交給效應量。效應量能夠體現統計上顯著性的效果的大小，越大代表效果越好，在測量方面上，有許多方法可以辦到，常見的有：Cohen’s d、皮爾森積差相關係數 r 等，每個檢定適用的效應量不同，這將會在之後的篇章一一介紹。

通常我們會將得出的效應量的值分為以下三個區段：

小效應量：0 – 0.2
中效應量：0.2 – 0.5
大效應量：＞0.5

效應量的好處除了能幫助檢視結果顯著的程度之外，也因為效應量屬於一種標準化分數，因此能幫助我們進行跨研究的比較。

結論

本篇僅介紹了假設檢定各個步驟的核心概念，實際應用時仍需根據所選擇的統計檢定方法進行相應的調整，像是效應量、檢定統計量以及其抽樣分配等都會因為不同的檢定方法而有所不同，未來的文章將逐步介紹幾種常見的檢定方法，大家可以好好期待！

希望本篇文章對大家有所幫助。如果想深入了解更多基礎統計知識，歡迎追蹤 StaTea Cup，我們很樂意成為你的學習資源。StaTea Cup 會定期在每週三更新，與大家分享更多知識！

一步步探究對與錯 — 假設檢定的步驟

假設檢定的步驟

STEP 1：建立虛無假設和研究假設

STEP 2：設立顯著水準

STEP 3：決定統計檢定方法

STEP 4：計算檢定統計量

STEP 5：制定並執行決策規則

1. 將檢定統計量轉換成 p 值進行比較

2. 計算臨界值與檢定統計量進行比較

STEP 6：解釋結果 & 檢測效應量

結論

Written by StaTea Cup