開卷筆記 — 大數據的傲慢與偏見

原書英文名是 Weapons of Math Destruction,玩字 Mass 變 Math,談的也不只是大數據,而是更普遍的「模型」,而這些模型不僅繼承了做模型的人類本身的傲慢與偏見,更致命的是由機器執行,變得其「殺傷力」大增之餘,在缺乏回饋修正模型的情況下,使這些偏見更深入於系統中而不可撼動,而當我們越來越不明白這些模型的運作時,我們甚至自己成了受害者也懵然不知。

我們社會早已進入量化計算的年代,為所有能夠評級的東西評級,並奉看似客觀的數字為準,於是「有數字」等於「準確」,問題當然就是並不是所有東西皆可輕易量化,於是當我們評量某些價值時,便會有所缺失、失準、做作偏見。模型必然是現實的簡化版本,也就是因為簡化才會有用,但當中取捨甚麼就是關鍵。我們傲慢地認為量化模型就是好,於是將偏見植入系統。

偏見一直存在,在數據當道的現在,我們更會偏向於某類容易量化量度的數據,而忽視其他難以取得、測得的特質,這其實已是兩重偏見:人做模的偏見 + 量化數據。然後我們再將偏見用機器規模化,於是傷害範圍大增。比起以前可能還是做個人評估,有很多文書工作,所以能處理的數量還是有限。偏見在此放大再放大。

書中一個故事是給老師教學質素作評分,用的數據是學生成績進度,並以其他黑箱作業(商業秘密)的數據,可能是學生本身社經地位、所住郵區等等,去計算在該次成績上有多少是因為老師教得夠好。這聽下去已經覺得很難建模,而且一班幾十人所得的數據量,也是極不可靠,這是普通的統計常識。但書裏述說的案例,都是簡陋可笑的所謂模型。

還不止這樣,當我們遇上這些存有偏見的系統時,我們自己本身也會作出反應,去嘗試找漏洞。老師評分例子就有人質疑有很多學校都有可能為了數據好看,而改寫考卷。於是垃圾進垃圾出,評分結果很極端。

有些模型是運作得很好的,例如捧球界的數據分析便是數一數二的好,除了其本身所收集的數據夠客觀和準確外,模型本身還可以通過回饋來修正其自身,如果作出的預測不夠準確,比賽結果能夠修正模型。但書中所見諸的例子,都是缺乏回饋修正的,於是錯就一直錯下去。機器重覆不停犯錯不懂停,就是典型的「萬字夾最大化」情景。設計模型和修正,是人的責任。舉凡設計模型者,無不有良好的初衷,為了改善孩子的教育、司法的公平、讓企業請對的人等等,但如果缺乏對所用的工具的優點缺點有所意識,便會很可能傷害無辜。

書中一個常見的傷害,是使受害者掉入惡性循環。例如警局現在都會用數據分析那個地區罪案較多,於是在可能出現罪案處多派人手,而由於多派人了,自然又增加了檢控的次數,於是又再預測該區犯罪可能性較高,此一循環只會加倍強化。上述地區郵區號碼可能會被模型視為高風險的人,於是便更難獲得貨款或保險,或者得付高利率。此又進一步壓低這些人的信用評比。於是貧窮的人生活更艱難,又更可能為糊口而犯法。

數據偏見也在大數據裏發生,作者指出網絡廣告的模型,使到那些生活艱難的人,更容易看到營利大學或申請次貸的廣告,更容易心動。對於廣告演算法來說,這只是配對問題,但卻有可能令他們花更多錢,在更沒有效帶他們脫困的事情上。

簡單的邏輯,例如保險就是為了攤分風險而設,使到少數出意外的情況可以得到保償。現在系統正以模型設法避開這些少數人,或增加他們的成本,用數據標籤他們,那末他們原來要保障的甚麼?作者認為,數學武器正是歧視弱勢,加劇不平等。數學當然也可以用來造福人的,但我們必需要有所警覺,尤其是現代分工之細碎,對於設計和寫程式的人,並不會對於自己能做成的傷害,有所意識。


Originally published at 網絡暴民 Jacky’s Blog.