大數據的反思: 到底是揭露真相? 還是創造更多偏見?

June Chou
June Chou
Sep 2, 2018 · 7 min read

現在是人人都關注大數據時代的世界,數據不僅悄悄的入侵我們的生活,而且掌握數據的公司也成為箇中喬楚。分析數據,拆解數據是為了驗證觀點,發現真相,但數據真的能帶給我們真相嗎?

分享書單

近期閱讀兩本關於大數據的書,分別是:

  1. 賽斯(Seth Stephens)《數據、謊言以及真相》
  2. 凱西(Cathy O’Neil) 的《大數據的傲慢與偏見:一個數學家對演算法霸權的警告與揭發》

兩本書分別從不同的觀點,讓我們反思數據可以帶來力量與洞見,也可以導致偏見與毀滅。

人人說謊,google卻可以看穿真相

在公開表達意見的場合,人們通常不會承認自己的真實想法,最明顯的例子是2016美國總統大選川普民調比實際支持率低估,大部份人不敢承認自己支持川普,還有其他例子像是實際的捐款比例,總是比調查時說願意捐款比例低的多。人們總是希望給別人良好且符合社會標準觀感的形象,撒點小謊是人之常情。

然而人們在google搜尋上卻很誠實,夜深人靜時想為內心深處疑惑搜尋個建議,也是人之常情,其中同性戀傾向可能會是一個人們想要隱瞞想法。

案例同志比例有多少?

以同志人口調查來說,美國最支持同志的州,公開自己同性戀的比例,是不支持同志州的兩倍,以常理來說每個州同性人口比例應該相同才對,賽斯排除了人口移動的因素後,推論google搜尋比較真實的反應人們想隱藏的事情: 在不支持同性的州,搜搜尋跟同志有關的字詞比例,跟支持同性的州比例一模一樣,都是5%!甚至搜尋「同性戀測試」想知道自己到底是不是同志,比例還更高一些。

google搜尋的數據,不是僅揭露眾所不知的私領域的真相,包含性向,種族歧視,恐怖主義傾向,更透露這個世界其實比我們想像的更需要關心。

案例:真實的虐童比例

例如2007年開始經濟衰退,許多專家擔心家長飽受壓力使虐童案件暴增,爾後的官方數據顯示顯示虐童通報案件數反而少了,但是賽斯探索google搜尋「我爸爸(媽媽)打我」字眼反而增加,google其他證據更顯示失業率每增加一個百分點,有關於虐童的搜尋率就增加3%,塞斯推測,經濟衰退之時,可能處理虐童案件的人以面臨工作過度或失業,導致報案的人放棄申報,或根本無人可申報。

人人說謊,解釋了為什麼史上最受歡迎的色情片,分享次數卻遠遠低於熱門歌曲,解釋了為什麼人們總是說不想管閒事,卻癡迷於臉書滑他人動態….Google揭露隱藏在謊言下的真相給我們的啟示是:其實不用太在意別人的眼光,因為其實人性一致,大部分私底下想法跟我們是一樣,不敢說而已XD

大數據的機會與陷阱

機會:A/B實驗在網路時代更精準抓住商機

數據帶來的不僅有洞見,更可以為企業提升收入。隨機實驗(A/B Testing)的概念在以前就很流行了:將實驗對象分為兩組,一組實驗組,讓他做某件想要測試的事情,另一組對照組,什麼都不做,再比較彼此的差異,就可以推論新藥物是否有效、新改版是否提升客戶體驗等。

隨機實驗的優勢直到數位時代才真正顯現,線上實驗隨時隨地可以進行,不需要招募參與者,僅需要對網路頁面修改,某些人看到的畫面是A版本,另一些人看到的畫面是B版本,測試點擊程度差別,這樣的測試一天甚至可以進行上千種,成本極低。

我們從A/B測試學到的最大教訓是:不要亂下結論。一天結束之時,你不能假設任何事,必須針對每件事都進行測試才行。

網路文章的標題、歐巴馬競選網站入口、甚至連Google的廣告右方是否要添加一個箭頭,很多微不足道的細節都仰賴A/B測試,去發掘人們到底喜歡點擊什麼,然後發現其實我們並不瞭解人性,而這也是是測試的價值所在:讓客戶更常點擊,也意味更多廣告跟收入。

陷阱:掠奪式廣告( Predatory Marketing)

同樣是A/B 測試,凱西在《大數據的傲慢與偏見:一個數學家對演算法霸權的警告與揭發》同樣認為網路擴大了A/B測試的效果,能找到最適合的潛在客戶,但程式在收集資料的同時,也會針對人的弱點和痛點,做最有效的利用。

例如發薪日貸款(payday loan),是一種小額的短期高利率貸款,通常借款人需要再融資好幾次才能還清,業者用各種數據找到潛在客戶,大肆鼓吹借款,然而潛在客戶都以缺錢的貧窮客戶較多,若負擔高額利率,會一步擴大社會的不平等。

正如凱西所說:非常精確的數學毀滅性武器,瞄準最窮困的人。

陷阱: 維度的詛咒

維度的詛咒意味在變數很多的情況下,但觀察數又不夠多,可能會有其中一個維度成為「幸運者」,我們以為這個幸運者是很好的預測變數,然而他其實只是純屬巧合,純屬偶然的相關。

例如每天早上擲一千枚硬幣,想用來預測股市漲跌,總會找到一枚「幸運者」跟股市漲跌高度相關,可是實際卻沒有任何預測功效。

現今較新的數據分析常會比傳統蒐集更多新型變數,例如搜虛字詞、推文、情緒分析等等,在變數非常多的情況之下,有可能遇到維度的詛咒,找到以為有效的變數,但實際上卻純屬偶然。

針對維度的詛咒,賽斯提出的解決方案是進行更多的樣本外測試,並且用一些質性與「小型調查」。例如臉書除了演算法以外,也常常直接問用戶:你想看到這則貼文嗎?以此來驗證數據猜測的到底對不對。

陷阱: 道德問題

數學演算法是一個無法被看透的黑箱,而這個黑箱的不透明,有可能導致不公平的狀況,從小小的推薦系統,擴大到影響人們的整個人生,包含是否能借到錢買房,甚至能否找到工作。

例如凱西在書中舉例美國很多大公司在面試是都會要求做性格測驗,用來以低成本排除某些應徵者。某超市集團的面試題如下: 獨特和井然有序哪一個比較能描述工作中的你?乍看之下分辨不出來那個比較好,因此受試者在完全不知道系統如何評價的狀況下選擇。

心理學家表示在測驗中選獨特代表自恃甚高,而選井然有序代表嚴謹自律。但這些判斷沒有嚴謹的依據,最可怕的是模型並不會接受反饋,這次在性格測驗中被淘汰的員工,也許在其他公司表現良好,但模型不會接受到這些訊息。

這也是大數據帶來道德問題的主要原因: 當模型不透明且無法針對真實情況做反饋與修正之時,歧視與不公平會一直存在。

我的反思

1.

賽斯(Seth Stephens)《數據、謊言以及真相》通篇的研究都來自Google搜尋,Google搜尋確實可以看到人們內心深處不可告人的秘密,但轉念一想,真正掌握這一些數據的是Google,不就代表Google完全可以知道我內心深處的需求?有沒有可能有一天,Google把這些數據拿來做任何不當利用,真真切切的驗證「所有免費,其實最貴」?

2

數據是雙面刃,我們運用數據帶來的好處,必須承擔他的苦果。凱西也在書中說過數據可以帶給公司很多優點,例如節省成本,更快速的聘僱人或以評分的方式減低成本等等,但凱西所提到數學毀滅性武器所帶來的掠奪與不公平,正是導因於模型無法完整反應這複雜的世界。

實際上,模型永遠不可能完全的反應這世界,只能做到近似,而做到近似的前提是必須要有大數據才能分析大數據,但這個前提常常並不存在。

3

當模型的效率與道德無法兼顧,亦即我們無法做到消除模型的不公平與歧視,但又同時維持模型快速與準確,我們該如何抉擇? 或許問題應該改成,在沒有模型的時候,單憑人的經驗判斷也一樣會有偏見,而有了模型到底還是加深了偏見還是減少偏見?

總結來說,這次嘗試把兩本書一起思考,花了一些時間整理論點,同一個議題不同人的觀點可以迸出火花,雖然花費比以往更多心思,但收穫也是成正比的。

June Chou

Written by

June Chou

從事金融業信用風險分析,業餘愛好是讀書旅行,因為在書中看更多世界,在世界走跳能反思更多書中道理。 想知道更多關於我個人專業,可以參考我的個人部落格「書寫觀點.tw」:https://notebookpage1005.blogspot.com/

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade