CH 12:隨機錯誤 vs 商業分析

Bananish
The whispers of a data analyst
11 min readMar 12, 2023

--

研究有效性受到系統性錯誤與隨機錯誤影響,前兩章分別討論了偏誤與混淆因子,也介紹了幾種可以控制、調整、避免系統性錯誤的方法。

原則上系統性錯誤不隨樣本量改變,樣本越多錯還是錯。

但本章講解的隨機錯誤,則會因為樣本量減少而變少。

隨機錯誤是一種未知、不可知的力量左右研究者觀察。

頻率學派的研究者認為,事件發生的機率是:

在類似條件下重複試驗中該事件的⻑期相對頻率

既然需要長期觀察,那可以想像:明明是公正的硬幣,為什麼連續投十次中,正反面出現的比例不是 1:1;而且每次連投十次出現正面的比例都不盡相同。

可以把這個案例反射到實驗性研究、A/B test 中。(雖然我們不知道)但明明受到干預的組別事件發生率應該比較高,但很有可能像是丟硬幣那樣,受到干預的組別事件發生率沒有比較高。

關於隨機事件的描述可以參考這邊

這一切,都是在描述隨機錯誤,因此隨機錯誤是:

無法歸因、無法控制的⼒量,導致暴露與偶發事件間的關聯錯誤

有機率論與決定論的切角描述隨機錯誤:

  • 機率論:隨機誤差或偶然性是對一個事件是否發生的主要解釋;無論有多少資訊都不可能預測丟硬幣的結果,也就是萬物均有不可預知的特性
  • 決定論:任何事件的發生都是先前事件與⾏為的必然結果;能精確測量得知所有資訊就能預測丟硬幣的結果,隨機誤差只是因為沒有準確測量

要怎麼「準確」的測量、減少隨機錯誤

一般來說,研究者會透過各種方式來減少性統性錯誤對研究有效性的影響。

因為統計是一種測量技術,用以了解世界,「準確」就是是沒有 Random Error、是「精確或精確的狀態或質量」, 要減少隨機錯誤,也就是要準確的測量應該先能理解,其實隨機錯誤不可能完全沒有。

事實上,隨機錯誤通常來自:

  • 量測誤差:評估暴露與結果的方式不準確
  • 抽樣變異性:因為抽樣時不可控制的⼒量導致選擇了不具代表力的樣本

運用統計來進行研究的歷史脈絡其實是:

  1. 20 世紀初,Karl Pearson 發展了⼀種統計推理的哲學,認為所有科學推理都是基於統計。
  2. 1925 左右,Fisher 在研究者的統計方法,提出了實驗性設計方法進行統計推論、假設檢驗
  3. 二戰後,廣泛利用實驗性研究、隊列研究、案例對照研究等方法進行研究

演化至今,對於最有效提高準確性的方法聚焦在:

  • 增加研究樣本
  • 重複測量、或重複執行整個研究
  • 使⽤有效的研究設計,從樣本中獲取更多資訊

統一決策標準確保對隨機錯誤的測量準確:假設驗證

假設是通過創造⼒和想像⼒形成的

假設,通常來自觀察性研究、描述性統計、與可視化的過程。

而假設驗證的路徑其實是一套量化隨機錯誤的方法,透過統一的決策標準來幫助研究人員釐清隨機錯誤的存在與影響。

以假設驗證量化隨機錯誤的步驟

(1) 定義虛無假設 H0、對立假設 H1

  • 虛無假設 H0:「等於零」暴露與結果無關、關聯⽐為 1,或關聯差為 0
  • 對立假設 H1:「不等於零」暴露與結果有關,與虛無假設互斥

(2) 確定研究結果與虛無假設 H0 的相容性

(3) 依據相容性來決定是否拒絕虛無假設 H0

  • 依據研究者定義的可接受且具一致性的 alpha、beta 門檻來確定是否要拒絕虛無假設
  • 當虛無假設可以被拒絕:研究的資訊在這樣的門檻下被認為可以佐證關聯性;所以平常聽到的顯著不顯著就是在講是否拒絕的虛無假設
  • 當虛無假設不能被拒絕:研究的資訊在這樣的門檻下被認為不能佐證關聯性,不待表沒有關聯性

用信賴區間進行評估

Confidence Interval Estimation 是另一種量化的方法,量化點估計周圍的可變性,可⽤於確定結果是否有顯著性。CI 可以將關聯的⼤⼩與樣本⼤⼩分開、且與相關性是一樣的單位,Confidence Interval 的寬度來自:

  • 量測誤差、抽樣變異性的隨機錯誤:量測誤差相同時,CI 窄的是大樣本大、寬的是小樣本;樣本相同時,CI 寬的隨機誤差多、窄的隨機誤差小(較精確)
  • 任意確定性因⼦(通常設置為 95%)

因為樣本數越大,隨機錯誤越小,所以常常需要討論樣本數,樣本數的多寡一斑而言取決於:

  1. 預期的差異、影響有多大
  2. 隊列研究中未暴露組的事件發生率、或案例對照研究中對照組的暴露的佔比
  3. 可接受的 alpha
  4. 可接受的 beta
  5. 兩組樣本之間的比例(未暴露組 / 暴露組、案例組 / 對照組)

但到底樣本數要多少才夠,其實並不是一項技術、或標準,⽽是⼀種由經驗、直覺和洞察⼒決定的判斷

多重比較是否需要調整

1950 Tukey、Scheffe 開使提及多重比較問題:

做越多檢定,越可能因隨機性而提高整體錯誤率未拒絕虛無假設

所以,檢定多個假設時,應該提高檢驗的門檻(降低可接受的 alpha)

近代研究的觀點

Presumption 1: Chance Not Only Can Cause the Unusual Finding in Principle, but It Does Cause Many or Most Such Findings

做越多檢定越容易錯的前提是 universal null hypothesis,也就是說研究使用的數據本身就沒有因果關係存在。只有這種前提,才會多做多錯。

Presumption 2: No One Would Want to Earmark for Further Investigation Something Caused by Chance

多重比較的調整會讓應該被深入研究的關聯被忽略,違背了研究的目的;無輪多麼顯著的關連,研究者都應題出理論來解釋;研究者應該抓住每一個機會去理解,而不是忽視

這篇與上一篇作者相同,但他更近一步提出了量個迷思,其中兩個與多重比較有關:

Misconception 5. One should always report P values or confidence intervals that have been adjusted for multiple comparisons.

多重比較的調整將減少 type 1 error,但這樣做是以增加 type 2 error 為代價,沒有比較好

Misconception 6. Significance testing is useful and important for the interpretation of data.

過分重視 p value 而忽視了偏誤、與混淆因子是否存在其實才決定了研究的有效性

Inference defies common sense

舉例來說,兩種化療的治療之間的對症狀緩解的差異是否具有統計意義,取決於是否還測試了 survival rate、quality of life、complication rates。聽起來非常荒謬。

研究倫理、道德與執行層面上的問題

  • 如果其他研究者也在分析同一份數據是否要調整?
  • 對相同的數據進⾏進⼀步分析時,是否需要⽤新的 p value 更新舊論⽂?
  • 在同一個研究進⾏多重⽐較,研究者要盡可能分開撰寫報告,避免放在同一篇研究中

調整與不調整的建議

  • 多重比較的調整,其實是一種過分重視 p value 導致的結果;任何決策很都不應該基於單⼀研究的成果,在解釋 p value 時,研究是否有描述了偏誤、與混淆因子也很重要
  • 一個統一、標準化的門檻,也就是假設檢定並使用固定可接受的 alpha,目的在於研究有效性的闡述,但再顯著的關聯性也需要尋求合理對因果效應的解釋
  • 因爲調整了 alpha 而忽略應深入研究的關聯,會失去研究本身的價值

產品經理應該知道的事

盡可能用非常簡單的文字來描述,當產品經理與數據分析師在合作時,可能會需要知道關於隨機錯誤的事。

為什麼不能直接比較數字大小確定結果?

隨機錯誤

不可知、不可控的神秘力量正在影響結果

丟硬幣的案例
如果 10 個 PM 分別丟 10 次公正的硬幣,計算出現正面的次數
共會有十種結果,但並不是每個 PM 都能丟出 50% 正面的結果

同樣在觀察數據報表、進行 A/B test 時
這種力量也在影響你看到不同族群、組別所產生的結果

所以多數的狀況下,直接比較數字大小就表示接受神秘力量的干擾;在解果判讀、與後續策略延伸就必須承受這種不可知的風險

為什麼要進行假設檢定?

假設驗證是一種標準化統一個觀點
用於最小化隨機錯誤的影響

研究者經歷近百年發展確定一套有限度、統一、標準化的作業機制

這個作業機制是透過:建立假設、用驗證數據與假設的相容性、使用統一的標準判斷;來合理的評估隨機錯誤的大小。

隨機誤差的影響,不可能完全被移除,所以假設檢定、假設驗證不能保證一定是對的

但是透過同樣、一致的標準,可以讓隨機錯誤對於實驗結果成效判讀的風險變得可控,進而提高組織承受「錯誤決策」風險的能力

什麼是顯著?

顯著是對隨機錯誤的一種識別方法
當因隨機錯誤導致的誤判風險低時,就是顯著

在假設檢定流程中,透過研究數據與假設的相容性來評估
因隨機錯誤導致的誤判風險高不高
當誤判的風險低時(不是沒有風險)
就是顯著

顯著不顯著重要嗎?

研究的內部有效性受

偏誤、混淆、隨機錯誤影響

排除隨機錯誤的影響之外

還需要說明或處理偏誤與混淆

研究的價值在嘗試用科學方法找出因果效應,一個研究若能盡可能說明或排除偏誤、與混淆的影響,同時運用統計方法確保隨機誤差的影響。

此時這樣的研究可能會提供有意義的因果效應資訊;這個資訊就能被運用在商業決策上。但顯著性其實缺乏對因果的判斷,所以研究者必須充分說明與處理這三件影響研究的因素。

所以,只有在幾乎沒有偏誤、與混淆的狀況下,顯著不顯著對因果效應上的判讀才很重要。

參考

本系列文章都參考「Essentials of Epidemiology in Public Health」這本書,作者是 Ann Aschengrau 與 George R. Seage,有興趣可以到下面這邊看看

Originally published at https://medium.com on March 12, 2023.

--

--