CH 12：隨機錯誤 vs 商業分析

Bananish

Published in

The whispers of a data analyst

11 min readMar 12, 2023

研究有效性受到系統性錯誤與隨機錯誤影響，前兩章分別討論了偏誤與混淆因子，也介紹了幾種可以控制、調整、避免系統性錯誤的方法。

原則上系統性錯誤不隨樣本量改變，樣本越多錯還是錯。

但本章講解的隨機錯誤，則會因為樣本量減少而變少。

隨機錯誤是一種未知、不可知的力量左右研究者觀察。

頻率學派的研究者認為，事件發生的機率是：

在類似條件下重複試驗中該事件的⻑期相對頻率

既然需要長期觀察，那可以想像：明明是公正的硬幣，為什麼連續投十次中，正反面出現的比例不是 1:1；而且每次連投十次出現正面的比例都不盡相同。

可以把這個案例反射到實驗性研究、A/B test 中。（雖然我們不知道）但明明受到干預的組別事件發生率應該比較高，但很有可能像是丟硬幣那樣，受到干預的組別事件發生率沒有比較高。

關於隨機事件的描述可以參考這邊

Basic Probability

Randomness is all around us. Probability theory is the mathematical framework that allows us to analyze chance events…

seeing-theory.brown.edu

這一切，都是在描述隨機錯誤，因此隨機錯誤是：

無法歸因、無法控制的⼒量，導致暴露與偶發事件間的關聯錯誤

有機率論與決定論的切角描述隨機錯誤：

機率論：隨機誤差或偶然性是對一個事件是否發生的主要解釋；無論有多少資訊都不可能預測丟硬幣的結果，也就是萬物均有不可預知的特性
決定論：任何事件的發生都是先前事件與⾏為的必然結果；能精確測量得知所有資訊就能預測丟硬幣的結果，隨機誤差只是因為沒有準確測量

要怎麼「準確」的測量、減少隨機錯誤

一般來說，研究者會透過各種方式來減少性統性錯誤對研究有效性的影響。

因為統計是一種測量技術，用以了解世界，「準確」就是是沒有 Random Error、是「精確或精確的狀態或質量」， 要減少隨機錯誤，也就是要準確的測量應該先能理解，其實隨機錯誤不可能完全沒有。

事實上，隨機錯誤通常來自：

量測誤差：評估暴露與結果的方式不準確
抽樣變異性：因為抽樣時不可控制的⼒量導致選擇了不具代表力的樣本

運用統計來進行研究的歷史脈絡其實是：

20 世紀初，Karl Pearson 發展了⼀種統計推理的哲學，認為所有科學推理都是基於統計。
1925 左右，Fisher 在研究者的統計方法，提出了實驗性設計方法進行統計推論、假設檢驗
二戰後，廣泛利用實驗性研究、隊列研究、案例對照研究等方法進行研究

演化至今，對於最有效提高準確性的方法聚焦在：

增加研究樣本
重複測量、或重複執行整個研究
使⽤有效的研究設計，從樣本中獲取更多資訊

統一決策標準確保對隨機錯誤的測量準確：假設驗證

假設是通過創造⼒和想像⼒形成的

假設，通常來自觀察性研究、描述性統計、與可視化的過程。

而假設驗證的路徑其實是一套量化隨機錯誤的方法，透過統一的決策標準來幫助研究人員釐清隨機錯誤的存在與影響。

以假設驗證量化隨機錯誤的步驟

(1) 定義虛無假設 H0、對立假設 H1

虛無假設 H0：「等於零」暴露與結果無關、關聯⽐為 1，或關聯差為 0
對立假設 H1：「不等於零」暴露與結果有關，與虛無假設互斥

(2) 確定研究結果與虛無假設 H0 的相容性

(3) 依據相容性來決定是否拒絕虛無假設 H0

依據研究者定義的可接受且具一致性的 alpha、beta 門檻來確定是否要拒絕虛無假設
當虛無假設可以被拒絕：研究的資訊在這樣的門檻下被認為可以佐證關聯性；所以平常聽到的顯著不顯著就是在講是否拒絕的虛無假設
當虛無假設不能被拒絕：研究的資訊在這樣的門檻下被認為不能佐證關聯性，不待表沒有關聯性

用信賴區間進行評估

Confidence Interval Estimation 是另一種量化的方法，量化點估計周圍的可變性，可⽤於確定結果是否有顯著性。CI 可以將關聯的⼤⼩與樣本⼤⼩分開、且與相關性是一樣的單位，Confidence Interval 的寬度來自：

量測誤差、抽樣變異性的隨機錯誤：量測誤差相同時，CI 窄的是大樣本大、寬的是小樣本；樣本相同時，CI 寬的隨機誤差多、窄的隨機誤差小（較精確）
任意確定性因⼦（通常設置為 95%）

因為樣本數越大，隨機錯誤越小，所以常常需要討論樣本數，樣本數的多寡一斑而言取決於：

預期的差異、影響有多大
隊列研究中未暴露組的事件發生率、或案例對照研究中對照組的暴露的佔比
可接受的 alpha
可接受的 beta
兩組樣本之間的比例（未暴露組 / 暴露組、案例組 / 對照組）

但到底樣本數要多少才夠，其實並不是一項技術、或標準，⽽是⼀種由經驗、直覺和洞察⼒決定的判斷

多重比較是否需要調整

1950 Tukey、Scheffe 開使提及多重比較問題：

做越多檢定，越可能因隨機性而提高整體錯誤率未拒絕虛無假設

所以，檢定多個假設時，應該提高檢驗的門檻（降低可接受的 alpha）

近代研究的觀點

No adjustments are needed for multiple comparisons - PubMed

Adjustments for making multiple comparisons in large bodies of data are recommended to avoid rejecting the null…

pubmed.ncbi.nlm.nih.gov

Presumption 1: Chance Not Only Can Cause the Unusual Finding in Principle, but It Does Cause Many or Most Such Findings

做越多檢定越容易錯的前提是 universal null hypothesis，也就是說研究使用的數據本身就沒有因果關係存在。只有這種前提，才會多做多錯。

Presumption 2: No One Would Want to Earmark for Further Investigation Something Caused by Chance

多重比較的調整會讓應該被深入研究的關聯被忽略，違背了研究的目的；無輪多麼顯著的關連，研究者都應題出理論來解釋；研究者應該抓住每一個機會去理解，而不是忽視

Six Persistent Research Misconceptions

A surprising number of misconceptions persist in the conduct of research involving human subjects. Some persist despite…

www.ncbi.nlm.nih.gov

這篇與上一篇作者相同，但他更近一步提出了量個迷思，其中兩個與多重比較有關：

Misconception 5. One should always report P values or confidence intervals that have been adjusted for multiple comparisons.

多重比較的調整將減少 type 1 error，但這樣做是以增加 type 2 error 為代價，沒有比較好

Misconception 6. Significance testing is useful and important for the interpretation of data.

過分重視 p value 而忽視了偏誤、與混淆因子是否存在其實才決定了研究的有效性

What's wrong with Bonferroni adjustments

When more than one statistical test is performed in analysing the data from a clinical study, some statisticians and…

www.ncbi.nlm.nih.gov

Inference defies common sense

舉例來說，兩種化療的治療之間的對症狀緩解的差異是否具有統計意義，取決於是否還測試了 survival rate、quality of life、complication rates。聽起來非常荒謬。

Adjust for Multiple Comparisons? It's Not That Simple - PubMed

The .gov means it's official. Federal government websites often end in .gov or .mil. Before sharing sensitive…

pubmed.ncbi.nlm.nih.gov

研究倫理、道德與執行層面上的問題

如果其他研究者也在分析同一份數據是否要調整？
對相同的數據進⾏進⼀步分析時，是否需要⽤新的 p value 更新舊論⽂？
在同一個研究進⾏多重⽐較，研究者要盡可能分開撰寫報告，避免放在同一篇研究中

調整與不調整的建議

多重比較的調整，其實是一種過分重視 p value 導致的結果；任何決策很都不應該基於單⼀研究的成果，在解釋 p value 時，研究是否有描述了偏誤、與混淆因子也很重要
一個統一、標準化的門檻，也就是假設檢定並使用固定可接受的 alpha，目的在於研究有效性的闡述，但再顯著的關聯性也需要尋求合理對因果效應的解釋
因爲調整了 alpha 而忽略應深入研究的關聯，會失去研究本身的價值

產品經理應該知道的事

盡可能用非常簡單的文字來描述，當產品經理與數據分析師在合作時，可能會需要知道關於隨機錯誤的事。

為什麼不能直接比較數字大小確定結果？

隨機錯誤
不可知、不可控的神秘力量正在影響結果

丟硬幣的案例
如果 10 個 PM 分別丟 10 次公正的硬幣，計算出現正面的次數
共會有十種結果，但並不是每個 PM 都能丟出 50% 正面的結果

同樣在觀察數據報表、進行 A/B test 時
這種力量也在影響你看到不同族群、組別所產生的結果

所以多數的狀況下，直接比較數字大小就表示接受神秘力量的干擾；在解果判讀、與後續策略延伸就必須承受這種不可知的風險

為什麼要進行假設檢定？

假設驗證是一種標準化統一個觀點
用於最小化隨機錯誤的影響

研究者經歷近百年發展確定一套有限度、統一、標準化的作業機制

這個作業機制是透過：建立假設、用驗證數據與假設的相容性、使用統一的標準判斷；來合理的評估隨機錯誤的大小。

隨機誤差的影響，不可能完全被移除，所以假設檢定、假設驗證不能保證一定是對的

但是透過同樣、一致的標準，可以讓隨機錯誤對於實驗結果成效判讀的風險變得可控，進而提高組織承受「錯誤決策」風險的能力

什麼是顯著？

顯著是對隨機錯誤的一種識別方法
當因隨機錯誤導致的誤判風險低時，就是顯著

在假設檢定流程中，透過研究數據與假設的相容性來評估
因隨機錯誤導致的誤判風險高不高
當誤判的風險低時（不是沒有風險）
就是顯著

顯著不顯著重要嗎？

研究的內部有效性受
偏誤、混淆、隨機錯誤影響
排除隨機錯誤的影響之外
還需要說明或處理偏誤與混淆

研究的價值在嘗試用科學方法找出因果效應，一個研究若能盡可能說明或排除偏誤、與混淆的影響，同時運用統計方法確保隨機誤差的影響。

此時這樣的研究可能會提供有意義的因果效應資訊；這個資訊就能被運用在商業決策上。但顯著性其實缺乏對因果的判斷，所以研究者必須充分說明與處理這三件影響研究的因素。

所以，只有在幾乎沒有偏誤、與混淆的狀況下，顯著不顯著對因果效應上的判讀才很重要。

參考

本系列文章都參考「Essentials of Epidemiology in Public Health」這本書，作者是 Ann Aschengrau 與 George R. Seage，有興趣可以到下面這邊看看

Essentials of Epidemiology in Public Health

Essentials of Epidemiology in Public Health, Fourth Edition combines theory and practice in presenting traditional and…

www.amazon.com

Originally published at https://medium.com on March 12, 2023.