淺談醫療人工智慧的困境(1)-數據篇

文/Ricky 對科技抱持著濃厚興趣的牙醫學生,探索著醫療與工程跨領域結合的可能最近人工智慧被吵的火熱,第三次人工智慧的熱潮銳不可擋,技術上已經確實有了突破,此次大潮將有機會將人類社會推至另一個高峰,但是,真的有如此容易嗎?此次文章《淺談醫療人工智慧的困境》整理了一些專家的看法再加上小弟之前做研究的時候遇到的瓶頸,期望能藉由此文章,重新思考人工智慧醫療的發展方向。
IBM Watson的殞落?
2017年7月2號 Forbes. 刊登的文章《Is IBM Watson A ‘Joke’?》經雷鋒網編譯後的文章《致 IBM Watson:六年过去,昔日的人工智能老大哥你还好吗?》內容大致上描述了現在IBM Watson 遇上的困境,像是MD Anderson Cancer Center就取消了與IBM對於癌症腫瘤研究的合作,其中有一個很大的問題是因為太花錢了,而且花錢的很大原因卻是因為”人力 !?”,很多人可能會想「啊機器學習就讓機器學習啊哪來的人力?」,在文章中提到IBM Watson 其實是有弱點的,「Watson需要經由專家餵給他大量經過良好組織過的數據,才有辦法得出有用的數據,而且它僅能根據訓練過的數據來得出結論。這些良好組織的數據需要另外聘請專家來準備,這個工作是非常耗時耗力而且花錢的。此外,他無法跨數據庫的思考,沒辦法對兩個數據庫裡的數據建立連結,舉例來說如果在腫瘤學上訓練Watson的話,他就不會懂任何有關心臟疾病有關的問題。
數據的數量
其實不只是Waston有數據上的困境,只要是醫療相關的數據分析一直以來都有類似的問題 ,只是在以前並不那麼明顯,做個研究只要幾百個的病例就足夠可以產生出很有說服力的研究,但是現在的機器學習模型基本上都需要成千上萬例的資料才能完整的訓練出來。近日來台灣演講的彭浩宜博士,在醫療機器學習已經相當有成果,他建立的糖尿病視網膜病變的深度學習模型已經能達到人類眼科醫生的判斷能力,他表明「而且現在建立影像識別的機器模型的資料量也不用太大,彭博士舉例目前演算法已經進步到”只”需「熊貓」與「非熊貓」各 5000 張,就可建立起有效的熊貓辨識模型。」這樣代表至少要有10000張的圖片才有辦法做出可識別的模型,他做的案例:糖尿病視網膜病變,因為影像蒐集容易,她一共蒐集到12800張影像,這個數量夠大,自然很好訓練起模型,但就我做研究的些許經驗來看,其實醫療數據(病歷資料)的搜集是相當困難的。或許未來會隨著深度學習演算法的發展,資料的需求門檻降低,但就目前來看,數據還是要足夠大,才比較有機會訓練起模型,就像約翰霍普金斯大學的助理教授Jeff Leek也發表過一篇文章《Don’t use deep learning your data isn’t that big》也就是說,如果數據不是那麼多,深度學習可能不是最好的選擇。
數據的品質
光是需要蒐集到足夠數量的資料就很難,符合需求的資料更可能佔不到能蒐集到的資料的一半,因為數據的變因相當的多,比如診斷過程就是數據產生的過程就是一個很大的變因 — — 同一個病症,每個醫師的診斷方式可能不盡相同,紀錄的方法也不同;若每間醫院進行醫療診斷的儀器不同,產出的格式可能也不同,而且大多數的資料甚至都只記錄在紙本上。再來,病人也是一個很大的變因:醫生規定病人三個月、半年、一年都要回來檢查一次,他可能三個月有回來檢查,發現自己好像痊癒之後就不再回來檢查了,後續追蹤的資料就沒有了,這樣的病人絕對不佔少數。所以我們引以為傲的健保資料庫裡的資料是否堪用我也是保持存疑的,資料太雜、太亂、格式不對,都還是要耗上很多時間去整理的。
更好的循環
數據→演算法→ 更多數據(依照演算法需求蒐集)→ 更好的演算法。
我認為現在必須依靠這個循環,才能建立一個更完美的學習模型、更好的診斷演算法,現在建立的演算法可能尚因為蒐集到的數據不夠,判斷力還十分的不足,如果建立了演算法並且配合演算法的需求來蒐集數據的話一定可以漸漸將準確度提高,但這也表示需要更多的醫生、醫院甚至國家來配合。要怎麼配合?要怎麼說服醫生和醫院?隱私權如何處理?這又是另外的問題了。
備註:人工智慧?機器學習?深度學習?
關於這三個名詞的區別可以參考Nvidia Blog的這篇《人工智慧、機器學習與深度學習間有什麼區別?》

基本上可以用這張圖了解到這三項的層次結構,深度學習是機器學習的一個分支,機器學習是人工智慧的一個分支
- 人工智慧 — 機器展現出人類智慧
- 機器學習 — 達到人工智慧的方法
- 深度學習 — 執行機器學習的技術
參考資料:
致 IBM Watson:六年过去,昔日的人工智能老大哥你还好吗?
Don’t use deep learning your data isn’t that big
以深度學習判讀腫瘤定位、糖尿病視網膜病變,Google:AI 與醫生合作可達理想成效
此文章同樣刊登在醫療器材催化器 文章連結 淺談醫療人工智慧的困境(1)-數據篇
