CH 11:混淆因子 vs 商業分析

Bananish
The whispers of a data analyst
5 min readMar 12, 2023

--

前一章節提到,研究的樣本受到與隨機錯誤與系統性錯誤影響,因此有一個有好的內部有效性的研究應當排除偏誤、干擾因子、與隨機錯誤。

偏誤跟干擾因子都是系統性錯誤的一種,干擾因子、干擾、混淆因子、混淆、Confounding、Confounder 都是在說類似的事情。

如何干擾、混淆

干擾、混淆可以視為研究中「有第三個變量」的問題,當一個因子同時與暴露、跟結果都有關係,就會模糊了兩者之間關聯的大小,是一種:

“mixing of effects” between an exposure, an outcome

此外,干擾因子、混淆因子可被視為:進行組間的比較時,未暴露組不能真實的反應暴露組的 Counterfactual experience 反事實經歷。

成為干擾因子

成為干擾因子的變量必須:

  1. 與產⽣案例的群體中的暴露關,在未暴露、與暴露組中的比例不一致 imbalance
  2. 是案例的獨⽴原因或預測因⼦,也就是會影響案例是否發生
  3. 不能是暴露與結果因果關係中的中介因子 intermediater,(中介因子:暴露影響中介因子、進而影響結果的發生)

評估流程

依序判斷該因子是否滿足下列項目,如果任一不滿足就不是干擾因子、混淆因子:

  1. 評估變量分別與結果的關聯性(不一定是量化方分法)
  2. 評估變量是否存在於未暴露、與暴露組的個體中
  3. 評估變量是否與暴露有關

確定是干擾、混淆因子後,應計算影響程度

  1. 計算不考慮混淆時暴露對結果的影響大小、風險
  2. 嘗試計算考慮、調整混淆時暴露對結果的影響大小、風險

混淆的嚴重程度可以用:

(未調整混淆時的風險 — 調整混淆後的風險) / 調整混淆後的風險

控制與調整方法

  1. 應盡可能掌握所有可能的干擾因子以及其的相關資訊
  2. 實驗性研究中,隨機化是最能最有效避免干擾因子的方法
  3. 通常透過「⽂獻回顧」來找到潛在的干擾因子
  4. 繪製 DAG 來描述 risk factor、exposure、outcome 之間的關係
  5. 可以在實驗設計階段、與數據分析階段控制或調整干擾因子(一定要有數據)

實驗設計階段

  1. Randomization:隨機進行組別的分配,讓(無法測量)干擾因子「平均」出現在不同組別;僅用於實驗性研究
  2. Restriction:限制參與調查的對象,避免干擾因子存在在研究中;很難找到⾜夠的研究對象
  3. Matching:讓參與調查的對象中,有相同程度的干擾因子;不可能在 case-control study 中研究、Matching 與 outcom 的關係、可能過度匹配

數據分析階段

  1. Standardization:標準化控制用戶變量,”通分”、用固定的分母(每人時、每一百萬人)
  2. Stratified analysis:根據特定標準、特徵,將樣本分成幾個⼦樣本進行分析,特定層的估計值相似才應合併,結果可以提供:總人群標準化效應、只講某一群的效應、多層的平均效應
  3. Matched analysis (case–control study only):Propensity score matching,未來再討論
  4. Multivariable analysis:多變量分析、多元回歸同時控制多個已知的干擾因子,在已知的狀況下不用一個一個看

控制與調整方法的極限

通常不太可能控制所有干擾因子,沒有被控制的(未知的)就是 Residual confounding:

  1. 未被觀察、沒有數據的干擾因子
  2. 干擾因子的類別不能明確界定對暴露與結果的影響,其中仍存在⾵險差異,通常發生在⾮常廣泛的干擾因子類別中
  3. 干擾因子 missclassification 分類錯誤時,就算有控制或調整干擾因子,也沒有辦法得到完善的成果

Assessment of Mediation:因為中介因子不算是干擾因子,不能在研究時以中介因子進行調整,反而需要研究中介因子在 exposure 跟 outcome 的關係。

參考

本系列文章都參考「Essentials of Epidemiology in Public Health」這本書,作者是 Ann Aschengrau 與 George R. Seage,有興趣可以到下面這邊看看

混淆因子的相關文章:

--

--