CH 12:隨機錯誤 vs 商業分析
研究有效性受到系統性錯誤與隨機錯誤影響,前兩章分別討論了偏誤與混淆因子,也介紹了幾種可以控制、調整、避免系統性錯誤的方法。
原則上系統性錯誤不隨樣本量改變,樣本越多錯還是錯。
但本章講解的隨機錯誤,則會因為樣本量減少而變少。
隨機錯誤是一種未知、不可知的力量左右研究者觀察。
頻率學派的研究者認為,事件發生的機率是:
在類似條件下重複試驗中該事件的⻑期相對頻率
既然需要長期觀察,那可以想像:明明是公正的硬幣,為什麼連續投十次中,正反面出現的比例不是 1:1;而且每次連投十次出現正面的比例都不盡相同。
可以把這個案例反射到實驗性研究、A/B test 中。(雖然我們不知道)但明明受到干預的組別事件發生率應該比較高,但很有可能像是丟硬幣那樣,受到干預的組別事件發生率沒有比較高。
關於隨機事件的描述可以參考這邊
這一切,都是在描述隨機錯誤,因此隨機錯誤是:
無法歸因、無法控制的⼒量,導致暴露與偶發事件間的關聯錯誤
有機率論與決定論的切角描述隨機錯誤:
- 機率論:隨機誤差或偶然性是對一個事件是否發生的主要解釋;無論有多少資訊都不可能預測丟硬幣的結果,也就是萬物均有不可預知的特性
- 決定論:任何事件的發生都是先前事件與⾏為的必然結果;能精確測量得知所有資訊就能預測丟硬幣的結果,隨機誤差只是因為沒有準確測量
要怎麼「準確」的測量、減少隨機錯誤
一般來說,研究者會透過各種方式來減少性統性錯誤對研究有效性的影響。
因為統計是一種測量技術,用以了解世界,「準確」就是是沒有 Random Error、是「精確或精確的狀態或質量」, 要減少隨機錯誤,也就是要準確的測量應該先能理解,其實隨機錯誤不可能完全沒有。
事實上,隨機錯誤通常來自:
- 量測誤差:評估暴露與結果的方式不準確
- 抽樣變異性:因為抽樣時不可控制的⼒量導致選擇了不具代表力的樣本
運用統計來進行研究的歷史脈絡其實是:
- 20 世紀初,Karl Pearson 發展了⼀種統計推理的哲學,認為所有科學推理都是基於統計。
- 1925 左右,Fisher 在研究者的統計方法,提出了實驗性設計方法進行統計推論、假設檢驗
- 二戰後,廣泛利用實驗性研究、隊列研究、案例對照研究等方法進行研究
演化至今,對於最有效提高準確性的方法聚焦在:
- 增加研究樣本
- 重複測量、或重複執行整個研究
- 使⽤有效的研究設計,從樣本中獲取更多資訊
統一決策標準確保對隨機錯誤的測量準確:假設驗證
假設是通過創造⼒和想像⼒形成的
假設,通常來自觀察性研究、描述性統計、與可視化的過程。
而假設驗證的路徑其實是一套量化隨機錯誤的方法,透過統一的決策標準來幫助研究人員釐清隨機錯誤的存在與影響。
以假設驗證量化隨機錯誤的步驟
(1) 定義虛無假設 H0、對立假設 H1
- 虛無假設 H0:「等於零」暴露與結果無關、關聯⽐為 1,或關聯差為 0
- 對立假設 H1:「不等於零」暴露與結果有關,與虛無假設互斥
(2) 確定研究結果與虛無假設 H0 的相容性
(3) 依據相容性來決定是否拒絕虛無假設 H0
- 依據研究者定義的可接受且具一致性的 alpha、beta 門檻來確定是否要拒絕虛無假設
- 當虛無假設可以被拒絕:研究的資訊在這樣的門檻下被認為可以佐證關聯性;所以平常聽到的顯著不顯著就是在講是否拒絕的虛無假設
- 當虛無假設不能被拒絕:研究的資訊在這樣的門檻下被認為不能佐證關聯性,不待表沒有關聯性
用信賴區間進行評估
Confidence Interval Estimation 是另一種量化的方法,量化點估計周圍的可變性,可⽤於確定結果是否有顯著性。CI 可以將關聯的⼤⼩與樣本⼤⼩分開、且與相關性是一樣的單位,Confidence Interval 的寬度來自:
- 量測誤差、抽樣變異性的隨機錯誤:量測誤差相同時,CI 窄的是大樣本大、寬的是小樣本;樣本相同時,CI 寬的隨機誤差多、窄的隨機誤差小(較精確)
- 任意確定性因⼦(通常設置為 95%)
因為樣本數越大,隨機錯誤越小,所以常常需要討論樣本數,樣本數的多寡一斑而言取決於:
- 預期的差異、影響有多大
- 隊列研究中未暴露組的事件發生率、或案例對照研究中對照組的暴露的佔比
- 可接受的 alpha
- 可接受的 beta
- 兩組樣本之間的比例(未暴露組 / 暴露組、案例組 / 對照組)
但到底樣本數要多少才夠,其實並不是一項技術、或標準,⽽是⼀種由經驗、直覺和洞察⼒決定的判斷
多重比較是否需要調整
1950 Tukey、Scheffe 開使提及多重比較問題:
做越多檢定,越可能因隨機性而提高整體錯誤率未拒絕虛無假設
所以,檢定多個假設時,應該提高檢驗的門檻(降低可接受的 alpha)
近代研究的觀點
Presumption 1: Chance Not Only Can Cause the Unusual Finding in Principle, but It Does Cause Many or Most Such Findings
做越多檢定越容易錯的前提是 universal null hypothesis,也就是說研究使用的數據本身就沒有因果關係存在。只有這種前提,才會多做多錯。
Presumption 2: No One Would Want to Earmark for Further Investigation Something Caused by Chance
多重比較的調整會讓應該被深入研究的關聯被忽略,違背了研究的目的;無輪多麼顯著的關連,研究者都應題出理論來解釋;研究者應該抓住每一個機會去理解,而不是忽視
這篇與上一篇作者相同,但他更近一步提出了量個迷思,其中兩個與多重比較有關:
Misconception 5. One should always report P values or confidence intervals that have been adjusted for multiple comparisons.
多重比較的調整將減少 type 1 error,但這樣做是以增加 type 2 error 為代價,沒有比較好
Misconception 6. Significance testing is useful and important for the interpretation of data.
過分重視 p value 而忽視了偏誤、與混淆因子是否存在其實才決定了研究的有效性
Inference defies common sense
舉例來說,兩種化療的治療之間的對症狀緩解的差異是否具有統計意義,取決於是否還測試了 survival rate、quality of life、complication rates。聽起來非常荒謬。
研究倫理、道德與執行層面上的問題
- 如果其他研究者也在分析同一份數據是否要調整?
- 對相同的數據進⾏進⼀步分析時,是否需要⽤新的 p value 更新舊論⽂?
- 在同一個研究進⾏多重⽐較,研究者要盡可能分開撰寫報告,避免放在同一篇研究中
調整與不調整的建議
- 多重比較的調整,其實是一種過分重視 p value 導致的結果;任何決策很都不應該基於單⼀研究的成果,在解釋 p value 時,研究是否有描述了偏誤、與混淆因子也很重要
- 一個統一、標準化的門檻,也就是假設檢定並使用固定可接受的 alpha,目的在於研究有效性的闡述,但再顯著的關聯性也需要尋求合理對因果效應的解釋
- 因爲調整了 alpha 而忽略應深入研究的關聯,會失去研究本身的價值
產品經理應該知道的事
盡可能用非常簡單的文字來描述,當產品經理與數據分析師在合作時,可能會需要知道關於隨機錯誤的事。
為什麼不能直接比較數字大小確定結果?
隨機錯誤
不可知、不可控的神秘力量正在影響結果
丟硬幣的案例
如果 10 個 PM 分別丟 10 次公正的硬幣,計算出現正面的次數
共會有十種結果,但並不是每個 PM 都能丟出 50% 正面的結果
同樣在觀察數據報表、進行 A/B test 時
這種力量也在影響你看到不同族群、組別所產生的結果
所以多數的狀況下,直接比較數字大小就表示接受神秘力量的干擾;在解果判讀、與後續策略延伸就必須承受這種不可知的風險
為什麼要進行假設檢定?
假設驗證是一種標準化統一個觀點
用於最小化隨機錯誤的影響
研究者經歷近百年發展確定一套有限度、統一、標準化的作業機制
這個作業機制是透過:建立假設、用驗證數據與假設的相容性、使用統一的標準判斷;來合理的評估隨機錯誤的大小。
隨機誤差的影響,不可能完全被移除,所以假設檢定、假設驗證不能保證一定是對的
但是透過同樣、一致的標準,可以讓隨機錯誤對於實驗結果成效判讀的風險變得可控,進而提高組織承受「錯誤決策」風險的能力
什麼是顯著?
顯著是對隨機錯誤的一種識別方法
當因隨機錯誤導致的誤判風險低時,就是顯著
在假設檢定流程中,透過研究數據與假設的相容性來評估
因隨機錯誤導致的誤判風險高不高
當誤判的風險低時(不是沒有風險)
就是顯著
顯著不顯著重要嗎?
研究的內部有效性受
偏誤、混淆、隨機錯誤影響
排除隨機錯誤的影響之外
還需要說明或處理偏誤與混淆
研究的價值在嘗試用科學方法找出因果效應,一個研究若能盡可能說明或排除偏誤、與混淆的影響,同時運用統計方法確保隨機誤差的影響。
此時這樣的研究可能會提供有意義的因果效應資訊;這個資訊就能被運用在商業決策上。但顯著性其實缺乏對因果的判斷,所以研究者必須充分說明與處理這三件影響研究的因素。
所以,只有在幾乎沒有偏誤、與混淆的狀況下,顯著不顯著對因果效應上的判讀才很重要。
參考
本系列文章都參考「Essentials of Epidemiology in Public Health」這本書,作者是 Ann Aschengrau 與 George R. Seage,有興趣可以到下面這邊看看
Originally published at https://medium.com on March 12, 2023.