CH 11：混淆因子 vs 商業分析

Bananish

Published in

The whispers of a data analyst

5 min readMar 12, 2023

前一章節提到，研究的樣本受到與隨機錯誤與系統性錯誤影響，因此有一個有好的內部有效性的研究應當排除偏誤、干擾因子、與隨機錯誤。

偏誤跟干擾因子都是系統性錯誤的一種，干擾因子、干擾、混淆因子、混淆、Confounding、Confounder 都是在說類似的事情。

如何干擾、混淆

干擾、混淆可以視為研究中「有第三個變量」的問題，當一個因子同時與暴露、跟結果都有關係，就會模糊了兩者之間關聯的大小，是一種：

“mixing of effects” between an exposure, an outcome

此外，干擾因子、混淆因子可被視為：進行組間的比較時，未暴露組不能真實的反應暴露組的 Counterfactual experience 反事實經歷。

成為干擾因子

成為干擾因子的變量必須：

與產⽣案例的群體中的暴露關，在未暴露、與暴露組中的比例不一致 imbalance
是案例的獨⽴原因或預測因⼦，也就是會影響案例是否發生
不能是暴露與結果因果關係中的中介因子 intermediater，（中介因子：暴露影響中介因子、進而影響結果的發生）

評估流程

依序判斷該因子是否滿足下列項目，如果任一不滿足就不是干擾因子、混淆因子：

評估變量分別與結果的關聯性（不一定是量化方分法）
評估變量是否存在於未暴露、與暴露組的個體中
評估變量是否與暴露有關

確定是干擾、混淆因子後，應計算影響程度

計算不考慮混淆時暴露對結果的影響大小、風險
嘗試計算考慮、調整混淆時暴露對結果的影響大小、風險

混淆的嚴重程度可以用：

(未調整混淆時的風險 — 調整混淆後的風險) / 調整混淆後的風險

控制與調整方法

應盡可能掌握所有可能的干擾因子以及其的相關資訊
實驗性研究中，隨機化是最能最有效避免干擾因子的方法
通常透過「⽂獻回顧」來找到潛在的干擾因子
繪製 DAG 來描述 risk factor、exposure、outcome 之間的關係
可以在實驗設計階段、與數據分析階段控制或調整干擾因子（一定要有數據）

實驗設計階段

Randomization：隨機進行組別的分配，讓（無法測量）干擾因子「平均」出現在不同組別；僅用於實驗性研究
Restriction：限制參與調查的對象，避免干擾因子存在在研究中；很難找到⾜夠的研究對象
Matching：讓參與調查的對象中，有相同程度的干擾因子；不可能在 case-control study 中研究、Matching 與 outcom 的關係、可能過度匹配

數據分析階段

Standardization：標準化控制用戶變量，”通分”、用固定的分母（每人時、每一百萬人）
Stratified analysis：根據特定標準、特徵，將樣本分成幾個⼦樣本進行分析，特定層的估計值相似才應合併，結果可以提供：總人群標準化效應、只講某一群的效應、多層的平均效應
Matched analysis (case–control study only)：Propensity score matching，未來再討論
Multivariable analysis：多變量分析、多元回歸同時控制多個已知的干擾因子，在已知的狀況下不用一個一個看

控制與調整方法的極限

通常不太可能控制所有干擾因子，沒有被控制的（未知的）就是 Residual confounding：

未被觀察、沒有數據的干擾因子
干擾因子的類別不能明確界定對暴露與結果的影響，其中仍存在⾵險差異，通常發生在⾮常廣泛的干擾因子類別中
干擾因子 missclassification 分類錯誤時，就算有控制或調整干擾因子，也沒有辦法得到完善的成果

Assessment of Mediation：因為中介因子不算是干擾因子，不能在研究時以中介因子進行調整，反而需要研究中介因子在 exposure 跟 outcome 的關係。

參考

本系列文章都參考「Essentials of Epidemiology in Public Health」這本書，作者是 Ann Aschengrau 與 George R. Seage，有興趣可以到下面這邊看看

Essentials of Epidemiology in Public Health

Essentials of Epidemiology in Public Health, Fourth Edition combines theory and practice in presenting traditional and…

www.amazon.com

混淆因子的相關文章：

How and When to Control for Confounders During Product Usage Analyses - Heap

We all know that correlation isn't causation, but when we're assessing the impact of a feature we've just shipped or…

www.heap.io

A Survey of Causal Inference Applications at Netflix

At Netflix, we want to entertain the world through creating engaging content and helping members discover the titles…

netflixtechblog.com

Geo Lift Experiments II: Spotify Blend Case Study

An exploration of geo lift experiments in the product context of the Spotify Blend Feature

towardsdatascience.com