大數據的迷思
數學是科學的基礎,邏輯是數學的一個分支,它能幫助清晰的思考和解決因果問題。p 是前提(假設、原因),q 是現象(結果)。
歐洲傳統的科學方法是演繹法(假設推論法):若 p 則 q(p 蘊涵 q)、若非 q 則非 p,只要 p 正確,q 一定是正確的。例如:若 PKD1 基因突變造成 ADPKD,則把正常小鼠的 PKD1 基因造成突變就會造成 ADPKD,而沒有 ADPKD 的人一定沒有 PKD1 基因突變。例如:所有的藥都有副作用,有一個廣告說他的「藥」沒有副作用,因此他的「藥」並不是藥。這個推論一定是正確的。
歸納法是我們觀察到所有的 q 都是 p,因此我們的推論是 p,但是這個結論不一定是正確的。例如:若歐洲的天鵝都是白色的,則世界上所有的天鵝都是白色的。自從發現澳洲的黑天鵝之後,這個推論就被推翻了。
英國的培根認為演繹法不能得到新知識,只有歸納法可以。例如:觀察 1000 個 ADPKD 病人都有 PKD1 基因突變,1000 個正常人都沒有,因此推論 PKD1 基因突變是 ADPKD 的病因。但是這個推論不一定是正確的:只要第 1001 個病人沒有突變或第 1001 個正常人有突變,那麼這個理論就是錯誤的。
演繹法是歐陸理性主義(笛卡爾:「我思故我在」)哲學思考的基礎,也是數學(例如:幾何學和代數的嚴格證明)的基礎。歸納法是英國經驗主義哲學思考的基礎,也是經驗科學(例如:物理、化學、天文學、醫學等)的基礎。
歸納法是靠重複的實驗或觀察。例如:克卜勒是丹麥天文學家第谷·布拉赫的助手,他用第谷的大量觀測資料得出了行星運動的定律,後來被牛頓的萬有引力定律證實。牛頓贊成培根的歸納法,他說:「我從不做假設」。但是愛因斯坦用「思考實驗」(演繹法)推論出的「廣義相對論」卻推翻了牛頓的理論,而且迄今所有的實驗和觀察都符合「相對論」。
科學哲學家卡爾·波普爾認為科學理論只能被否證,而不能被證明。當否證失敗時,該理論就暫時成功了。例如:牛頓的萬有引力定律被水星繞日軌道變化的觀測否證了,只有愛因斯坦的相對論能正確預測,而且迄今世界上所有關於水星軌道的觀測都無法否證相對論。
另一個科學哲學家湯瑪斯·孔恩則認為科學上革命性的發現都是一種「典範轉移」:整個學科的基礎(理論)被改變了。這是一種先由歸納法推導出理論,再由理論到用演繹法證明的過程。當出現新的觀察現象時,整個過程再重複一次,如此週而復始,稱為「溯因法」(最佳解釋的推論):已知若 p1 則 q、若 p2 則 q、若 p3 則 q,現在我們觀察到 q,而且 p1 的可能性最大,因此我們的推論是 p1。
例如:已知流血、溶血、發炎都會造成急性貧血。今天有一個住院病人有急性貧血,那麼我們依據貝氏定理的推論是他有胃腸出血,因為胃腸出血是住院病人急性貧血最常見的原因(亦即先驗機率最高)。假如二天後血液抹片檢查發現有破碎的紅血球,血液的 haptoglobin 下降,那麼我們就會依據新的資訊更新推論至「急性血管內溶血」。
貝氏定理是後驗勝算= 先驗勝算 x 似然率。其中勝算 = 機率/(1-機率),機率 = 勝算/(勝算 + 1),陽性似然率=敏感性/(1-特異性),陰性似然率=(1-敏感性)/特異性。
統計學是理論/學院性的產物,分為描述性(資料的簡化、摘要)和推論性(由樣本推論至母體)。推論統計是一種歸納法:驗證性、傳統數據、由假設驅動、使用程式/公式、目的是解釋/推論。
第一部電腦在 1940 年代出現,從此進入資訊時代。網際網路在 1980 年代出現,從此進入便宜資訊時代。谷歌在 1998 年出現,從此進入海量資訊時代。傳統的資料量是以千位元組(KB)、百萬位元組(MB)、吉位元組(GB:10⁹)等計算,大數據的資料量則是以兆位元組(TB:10¹²)、拍位元組(PB:10¹⁵)等計算的。
傳統的科學方法是「由假設驅動」的:由假設推論的結果是能被驗證或否證的。但是 2008 年的「連線」雜誌有一篇悚動的文章卻認為大數據將終結「由假設驅動」的科學方法。
新出現的資料科學是大數據、統計學和計算機科學的混合性產物。它使用溯因法:探索性、由數據驅動、設計程式、使用演算法(機器學習、人工智慧)、資料挖掘、目的是預測/分類/應用。例如:生物資訊學、體學(基因體、轉錄體、蛋白質體、代謝體)、網路等。
但是「事實就埋藏在海量資料裏面,等待著人們去挖掘」這個觀念是錯誤的。例如:英國統計學家喬治.博克斯說:「所有的模型都是錯的,但是有一些是有用的」。
歐洲核子研究組織(CERN)位於瑞士日內瓦的大型強子對撞機為了要尋找「希格斯玻色子」(「上帝粒子」),每年對撞的基本粒子產出 15 PB 的資料,終於在 2012 年用全世界許多連線的電腦日夜不停地分析大數據找到了「希格斯玻色子」,但是這個發現並不是「由數據驅動」的,而是「由假設驅動」的。
只有隨機分配對照臨床試驗能證明因果相關。因為相關性並不一定是因果相關,即使是因果相關,也有可能是因果倒置。大數據(例如:資料庫)並非隨機收集的,它會受到預算、時間、設計、技術、資料缺失、測量誤差等的影響,這些都會造成選擇偏誤和混淆變項(與暴露和結果都有相關的變項)。
例如:谷歌在 2008 年利用使用者在網路上檢索的海量關鍵詞,用統計學的帕松迴歸開發成「谷歌流感趨勢預測」,宣稱其與美國疾病預防管制中心(CDC)的資料一致。結果在 2009 年時,谷歌的預測遠低於實際所發生的。谷歌據此在 2011 年修正了程式,結果在 2013 年時,谷歌的預測遠高於實際所發生的。
又如人類基因體只有 2% 是外顯子(能轉譯成蛋白質),以前大家以為大部分的內含子(不能轉譯成蛋白質)是「垃圾基因」。2010 年發表的 ENCODE (DNA 元件百科全書)計畫(目的是了解 DNA 序列的功能)一共有 440 位科學家用 24 種方法研究了 150 個細胞株,產出了 15 TB 的資料,結論卻是 80% 的內含子是有功能的。雖然這個結論也受到了挑戰,因為實驗上「有功能」不代表一定是在生物體內有功能,而且轉座子、假基因都會影響實驗的結果。
「凡是我所不能創造的,我都不能理解」(理查.費曼):凡是我所不能假設的,我都不能理解。