CH 10：偏誤 vs 商業分析

Bananish

Published in

The whispers of a data analyst

7 min readMar 12, 2023

數據研究的價值

研究人員想透過樣本的數據（Sample Estimation），得知真實世界中的狀況（Population Paramater），才能做出有效的判斷與預測。

但是在進行數據研究時，會受到「系統性錯誤」（Systematic Error）、「隨機錯誤」（Random Error）影響。

Random error 隨機錯誤：如上述，是一種無法歸咎原因的差異，會隨樣本數增加而減少
Systematic error 系統性錯誤：可以被歸咎原因的誤差，就是指 Bias 偏誤，不隨樣本數增加而減少；會讓相關性無法正確被估計（以為有關聯或放大縮小關聯），無法修復或消除（也是另一種相關性）

Bias, Confounding, and Interaction: Lions and Tigers, and... : Anesthesia & Analgesia

n and outcome(s) in a specific population, based upon their randomly collected, representative sample data. Both do so…

journals.lww.com

所以，應用數據研究在進行任何的決策時，都需要考量系統性錯誤、與隨機錯誤。也就是評估一個研究是否有效，應該是：

判斷內部有效性 Internal validity：「觀察到的因果是否為事實」、「觀察到的關聯是否為因果」，通常透過討論、從歷史研究成果來界定的，不可能有一定的正確標準（你不會知道你不知道的事）。
判斷外部有效性 External validity：「研究成果的通用程度」，透過數據研究所得知的因果效應，有多大價值、可以類推到多大的範疇

而，在判斷內部有效性時，需要先分析計算關聯性，再評估結果是否貼近事實，並嘗試釐清、排除：

系統係偏錯誤 — 偏誤 Bias：研究設計或執行面的的系統性錯誤，導致關聯無法正確被衡量
系統係偏錯誤 — 混淆 Confounding：要觀察的因素間的混合效應，造成混淆的變量稱為 confounder 混淆因子，混淆因子會扭曲關聯性
隨機錯誤 Random error：觀察到的結果來自偶然的機率所致，無法歸因、不可控

偏誤 Bias

偏誤會讓我們無法正確觀察關聯性造成誤判，而偏誤可能來自選擇參與者、數據收集過程、研究設計等，並不指來自人或研究者的偏見。此外，任何研究都可能有偏誤，一般來說回溯性研究比前瞻性研究更容易出現偏誤，可以透過嚴謹的研究設計、與執行來避免偏誤的產生。

偏誤的類型

Selection bias 選擇性偏誤：選擇參與者、或追蹤數據時發生
Information / observation bias 觀測偏誤：數據收集過程中發生

Selection bias 選擇性偏誤

因為「選擇進入研究的用戶或數據」程序上的問題所導致的錯誤，同樣會讓關聯性無法正確被估計，不同研究類型都有可能發生選擇性偏誤，且幾乎無可挽救。

在案例對照研究、回顧性隊列研究更可能發生選擇性偏誤，因為選擇受試者、與數據時暴露與結果都已經發生？但一般的隊列研究與實驗性研究，也可能因為 losses to follow-up 產生選擇性偏誤。

案例對照研究中的選擇性偏誤

Control selection bias：研究者選擇導致；選擇案例組與對照組選擇的標準不同，而且選擇案例與對照組的標準與要觀察的暴露有關
Self-Selection Bias：參與者、用戶自身選擇導致；不同暴露、與結果的參與率、或失訪率不同
Differential Surveillance, Diagnosis, or Referral：設定的選擇標準不同所導致；選擇受試者的時候，因為觀測、判斷等原因造成案例組與對照組的標準不一致

隊列研究中的選擇性偏誤

Losses to Follow-Up：Loss trace 的原因與暴露、或結果有關
Healthy Worker Effect：選擇暴露組、未暴露組人群的標準不一致

Information bias 觀測偏誤

在取得暴露與且果的方式有差異，產生 Information bias，通常發生在研究開始後、研究對象進入研究時、數據收集的過程中。會使研究錯誤分類暴露、與結果。

Recall Bias 回憶偏誤：「訪談」時受訪者記錯了（回憶的時候準確率低）
Interviewer Bias 採訪者偏誤：機構效應 house effect，是系統性的差異，因為知道受訪者暴露與結果的實際狀況，可能會讓採訪者抱有期待或意見進而使受訪者回答與事實有落差的資訊，不信任、過度融洽都會影響結果；光環效應、機構效應
Misclassification 錯誤分類：最常見，就是沒有正確的分類暴露、結果

Misclassification 錯誤分類與 losses to follow-up 相同，可以用 contingency table 來看錯誤的方向：

Differential misclassification：errors on one axis (exposure or outcome) ，可以理解成只有暴露或結果其中之一是錯的
Non-differential misclassification：errors on one axis that are unrelated to the other axis，暴露或結果都錯

避免偏誤：公平的選擇、使用、分析、說明、數據

改善 Recall Bias、Interviewer Bias

避免提供採訪者、受試者資訊
避免使用訪談數據
仔細設計問卷，結構化、標準化、封閉式、易於理解、避免生僻字、避免詢問很難記住的事件、避免引導性問題（Non-directive interviewing）、雙向翻譯確定譯文的正確性：改善 Recall Bias、Interviewer Bias

改善 Recall Bias

使用由其他的對照組：改善 Recall Bias

改善 Misclassification

提高收集數據的的準確性、透過收集多的資料來源來驗證、使用更準確的數據來源、使用更有敏感度與特意度的標準來定義暴露、與結果

參考

本系列文章都參考「Essentials of Epidemiology in Public Health」這本書，作者是 Ann Aschengrau 與 George R. Seage，有興趣可以到下面這邊看看

Essentials of Epidemiology in Public Health

Essentials of Epidemiology in Public Health, Fourth Edition combines theory and practice in presenting traditional and…

www.amazon.com

介紹偏誤

Types of Biases in Data

Biases in data that we should all be aware of to build a reliable and fair machine learning model

towardsdatascience.com

Reducing bias and ensuring fairness in data science

By Henry Hinnefeld

medium.com

介紹研究的有效性