系統誤差(Bias)與隨機誤差(Noise)
誤差 (error) 是測量值與真實值之間的差異,誤差有2大類: 隨機誤差 (random error) 與系統誤差 (systematic error)。
隨機誤差 (random error) 是指抽樣所造成測量值與真實值之間的差異, 這種差異也稱抽樣誤差(sampling error),這是由於觀察到的樣本存在個體差異;而樣本未包含母體的全部資訊,抽樣誤差在任何研究上是無法避免的,隨機誤差與樣本大小有關,樣本越大,從樣本對母體推論的隨機誤差越小。隨機誤差又稱為「雜訊」(noise)。
系統誤差 (systematic error) 又稱為「偏誤或偏差」 (bias),測量的結果有系統性地偏離母體的真實值,偏誤影響測量結果的真實性, 通常與樣本大小無關,不能靠統計方法解決。
丹尼爾·卡尼曼(Daniel Kahneman)的《快思慢想》(Thinking,Fast and Slow)出版以來,企業高管與一些公共決策者已經非常熟悉現代認知心理學的一些關鍵思想了。幾乎所有人都可以意識到,決策者往往是不“理性”的,至少做不到經濟學家口中的那種狹義的理性。偏誤(bias)已經成為許多組織的常用詞。2021年,奧利維耶·西博尼(Olivier Sibony)與丹尼爾·卡尼曼、卡斯·R.桑斯坦(Cass R. Sunstein)合著了《雜訊》(Noise )一書,進一步探索了人類的判斷及其缺陷。在《雜訊》中,我們指出許多錯誤是隨機的,是不可預測的,我們將這類錯誤稱為“雜訊”。換句話說,儘管人們普遍認為偏誤是錯誤的成因,但實際上並非所有錯誤都是由偏誤引起的。
舉個例子,你每天早上起來都要用體重秤稱一下體重。假設你碰巧知道體重秤存在一定的誤差,它顯示的重量比你的真實體重少0.5千克。這個錯誤就是一種統計偏差,你在每次的讀數上增加0.5千克就可以糾正它(當然,你往往不記得這麼做)。現在,再來假設這個體重秤存在另外一個問題:如果你快速地連續稱3次,會得到略有不同的3個讀數。這種讀數的差異就是統計雜訊。這兩種類型的錯誤都會使你的體重秤變得不準確,但原理是不同的。
我們的大腦是一個可以產生判斷的測量工具,而判斷錯誤,比如體重秤的錯誤,可能是由偏誤或雜訊所致。偏誤造成的錯誤是共性的、可預測的,而雜訊造成的錯誤是可變的、不可預測的。偏誤和雜訊都會導致錯誤的判斷,因此我們都需要避免。
偏誤的另一例子是,例如偏誤可來自選擇偏誤 (selection bias),在確定研究個體或樣本時,進入研究的個體與未進入研究的個體, 在某些特徵上存在差異,如選擇研究個體的偏誤而造成測量結果的的偏誤,如倖存者偏誤, 由於調查死亡病例很困難,只能調查其倖存者,由此不能全面反映該疾病的狀況。
統計方法中無論研究設計或資料分析,是將隨機誤差假設成為一機率分配,儘量控制系統誤差。若無法控制系統誤差, 也必須研究系統誤差是否有一致的方向性, 例如結論偏向某一方向, 系統誤差若有一致的偏向, 則統計必須嘗試估計此一致的偏向的大小, 修正結論的正確性。
偏誤可能來自很多方面,很多書籍中都有詳細介紹偏誤產生的原因及避免偏誤的方法。上述《快思慢想》、《雜訊》兩本書,是探討認知偏誤的經典名著,也有很多探討企業決策偏誤的書籍都非常值得閱讀。
參考資料
1. 誤差與偏差 Error and Bias,https://www.jefflinmd.com/post/2020-08-17-biaserror/
2. 偏差: You’re About to Make a Terrible Mistake,作者:【法】奧利維耶·西博尼(Olivier Sibony),出版社:中國財政經濟出版社,出版日期:2022/02/01 (英文: 2019)