過AI時代| AI 所面臨的瓶頸

The Era of Over AI

Sherry Su
Sherry.AI
8 min readJan 10, 2020

--

在這樣的世代,我們真的都做好迎接 AI 的準備了嗎?還是大家只是一味地吹捧?不可不正視的是 AI 仍然存在著許多缺陷,導致 AI 不夠彈性靈活,想想又有多少的 AI 應用實際落地?

一、前言

科技潮流如同流行服飾般變化莫測,如今科技的當紅炸子雞唯 AI 技術莫屬,彷彿任何的技術只要沒有沾到 AI 的邊就顯得不夠新潮、不夠有特色。當我們看到 AI 在某些領域的傲人表現時,是否同時也忽略了 AI 的缺陷?

二、介紹

回顧 AI 的發展,其實 AI 經歷過了兩次低峰、三次高峰,而這兩次低峰是因為演算法、運算力以及數據缺乏所造成。現在則因為大數據的環境與 AlphaGo 的成功,使得 AI 在第三個高峰期。於是大家開始期待 AI 在其他領域上的應用也能像 AlphaGo 一樣獲得巨大的成功!但現實是,除了幾個有限的行業外,有許多領域仍然存在著問題(例如:資料品質),導致難以建立起一個理想的模型,使得 AI 非常難落地。因此,本章節將會跟大家分享 AI 現在面臨的困境有哪些?以及帶領大家反思我們是否都做好準備相信 AI 了?

人工智慧AI發展歷程。

三、是否該相信AI?

AI 與 ML 正改變著我們對於生活的習慣,例如:自動駕駛、無人商店以及智慧醫療等技術的普及漸漸地取代了人類本來的一些技能。而在圖片辨識或是自動駕駛的領域中,還有一些模型達到了 99.9% 的模型準確率。但是心中不免會有個疑問:我是否夠信任由機器學習系統所下的決定呢?又或者問一個更為通俗的問題:若是現在的自動駕駛技術的準確率高達 99.9%,你是否敢讓你的孩子搭乘無人車去上學呢?

2018 年就曾有新聞報導過特斯拉自撞安全島、Uber 無人駕駛試驗撞死人等等的例子,這邊我們就來討論一下為什麼這些高準確度的自動駕駛系統還會發生這些意外呢?

開啟了Tesla的自動輔助駕駛(Autopilot) 行經高速公路後,發生車禍。圖片來源: https://www.inside.com.tw/article/16258-tesla-autopilot-lawsuit-by-huang-family

即便模型的準確率再高,但現有的 AI 技術並不像人類所想的這麼「聰明」與「穩定」,舉個例子下面最左邊一張貓熊(panda)的圖片,不論人眼或是 AI(有 57.7% 的信心是貓熊)都能夠正確的辨識出來。但是當我們在這張圖片中加上微小的雜訊(noise)之後,對人眼來說圖片看起來是幾乎一樣的,仍然還是一張貓熊的圖片,然而AI的影像辨識系統卻將他辨識成長臂猿(gibbon)。

這是因為類神經網絡(Neural Network)經過背後複雜的矩陣運算後,很有可能會將雜訊過度放大,導致辨別錯誤。

AI 的演算法只會忠實的呈現背後運算之後的結果,而不會「聰明地」去判斷這張圖片的原貌。

圖片來源: https://christophm.github.io/interpretable-ml-book/adversarial.html

再來我們看看交通號誌的例子,添加微小的雜訊後, 導致模型將「停止」標誌錯誤分類為「最大速限100」!這樣子的錯誤判斷在自動駕駛系統中是非常危險且致命的。

圖片來源: https://deep.ghost.io/robust-attribution/

而我們除了關注數位攻擊(digital attack)之外,更應該思考現實生活中是否也會有類似的事件發生?像是交通號誌牌上的塗鴉或破損都是現實中可能發生的情況,這些天然的添加物對於模型來說都是無法避免的雜訊。

實際交通號誌的狀況。(左:貼紙塗鴉;右:不明的孔洞)

經過上述的例子,還能單憑模型準確率就輕易相信模型嗎?

四、黑盒子所帶來的問題

隨著AI的發展,人們不斷地追求模型的高準確率,但擁有高準確率的模型往往過於複雜,導致難以理解其背後的原理,因此常被視為黑盒子(black box)。雖然有些人認為只要模型準確度高就行了,為什麼還需要去解釋結果呢?然而,不論在法規與倫理的規範下,只要攸關到人們的生活,包含醫療診斷、詐欺評估等,大多數的決策總是需要有理論基礎的支撐與適當的解釋,才能確保人們的安全與其結果的合理性。

還有當前訓練模型的資料集大都來自人類社會,那麼只要這個社會存在著偏見,模型就會重現這些偏見,而這個現象是很常見的!如果模型無法解釋,是非常難發覺資料中所存在的偏差,因此容易使得模型重現這些偏見。

舉個例子來說,像是在 2015 年,Google Photos 將黑人辨識成 「大猩猩」,迫使 Google 出面道歉,而 Google 唯一的修正辦法卻是將大猩猩的標籤刪除,正因為模型無法解釋,使得Google難以理解為什麼模型會有這樣子的誤判。尤其在醫療上的應用,若模型無法解釋或未經過實證科學的驗證,患者可能無法輕易判別模型所下的建議是否合理。因此,若不正視可解釋性,將會帶給社會極大的負面影響。

Google Photos將黑人誤判成大猩猩。

當然並不是每個模型都需要解釋,通常符合以下的條件之模型解釋力是可以忽略的:
1. 模型犯錯不會造成嚴重後果(例如:商品推薦系統)
2. 模型已經有廣泛的研究與評估。

模型的理解和解釋性,可以協助資料科學家了解此模型的合理性、發現更多的新現象以及訓練資料是否有偏差等等。模型解釋性的重要,在下一篇將會有更詳細的介紹。

五、隱私權的限制

隨著大數據的發展,重視數據隱私與安全已經成為的世界性的趨勢,因此在隱私權、安全規範與流程因素,即使是在同一個公司的不同部門,數據整合也正面臨著重重的阻力,很難有效的共享,而在這樣數據不充分的狀態,其實是很難建立一個效果好的 AI 模型。

每一次的數據洩漏都會引起極大的關注。像是在 2018 年 3 月,劍橋諮詢公司透過 FaceBook 的數據共享漏洞,收集了 5000 萬用戶信息,據說有可能利用這些信息操控美國總統競選,造成負面的社會影響。事件曝光後,引發一系列後續問題。Google DeepMind 也曾因為未取得病人同意,直接進行醫療研究,而鬧上法庭。同年的 5 月,歐盟通過 General Data Protection Regulation(GDPR)法案,法案指出:所有與個人相關的信息都是個人數據,對數據的使用行為必須要有用戶的明確授權,將隱私權的保護提高到了更高的標準。

Photo by Kon Karampelas on Unsplash

雖然台灣的健保資料庫可以得到診斷、用藥,但沒有病史文字,檢驗數值和影像也不完整。再加上 GDPR 的準則與台灣的現行法規,是不允許醫院在沒有經過病人的同意下,將各家醫院的數據加以合併,即使是為了學術研究也是違法的。

在這樣子隱私權意識抬頭的世代,也使得 AI 陷入發展的瓶頸, 有鑑於此,目前 Google 等大廠以及研究機構到今日仍然不斷的在研究如何不違反隱私權的規定,又能有效取得數據的相關技術。

六、總結

在這樣子的過 AI 時代,身為資料科學家應該全面了解所使用的模型的優缺點,如果只盲目的追求 AI 的潮流,拋棄所有的老方法,如果只會刷榜追求準確率,卻不正視 AI 現在所面臨的瓶頸與局限性,AI 的下一場寒冬可能就在不久的將來,更難保證某些領域的應用不會有悲劇的發生。

最後,感謝你認真讀完這篇文章,如果你喜歡我的文章,請給我一些「掌聲👏🏻「追蹤我的專欄」,你的支持會是我持續分享的動力。若有希望我分享的主題,也歡迎在下面留言 📝讓我知道。

--

--

Sherry Su
Sherry.AI

Data Scientist @Trend Micro. Graduated from National Taiwan University.