電腦會選土豆…..也可以當AI醫生?(上集)

Sobi
Mar 23, 2022

--

很久很久以前,愛之味牛奶花生湯有個經典廣告

吳念真跟阿嬤得意推銷:這是電腦揀的喔!

阿嬤吃驚:電腦嘛ㄟ揀土豆!

這是80年代的台灣,電腦對於大多數的人來說非常非常遙遠,大概只比發射衛星近一點,好啦!其實沒那麼遠,但電腦應用的確不普及。

到現在呢?這是一個很常見的AI應用:利用電腦分類農產品的等級,用的關鍵技術就是影像辨識,使用情境很多元,從判斷番茄是否生病啦?到捕撈到的是什麼魚?甚至是看起來都長得一樣的樹都可以藉由影像辨識來告訴你!這說來頗為神奇,20年前的廣告台詞已經很成熟地應用在我們的生活中,這就是機器學習Machine Learning!讓電腦來學習人類的技藝和知識,好讓機器代勞這些繁瑣規律的工作。比方說挑揀土豆!

如何教會電腦『辨識』的工作呢?

將人類學習過程套用到電腦學習!回想童年的我們都如何學習應付考試呢?

人類學習Human learning

其實就是唸書 ->寫習題 ->考試->訂正考卷的過程,透過多次小考反覆練習之後,期待大考時的一鳴驚人。所以,教導電腦學習也是相同流程

Machine Learning vs. Human learning 人類學習 vs. 機器學習

機器學習,白話來說:資料科學家擔任老師的角色,將人類寶貴經驗灌注電腦

第一步,準備教材!希望電腦學什麼就準備什麼樣的資料

電腦要學會的是題目是:辨識土豆

  1. 弄清楚老師要考什麼題型?

區分好土豆?壞土豆?

還是要更細緻一點的分級:不同等級的土豆?

2. 標準答案是什麼?

切莫忘記!準備很多資料的同時,一定要附上正確解答,沒有正確解答的習題等於白白練習。

這時候,需要很多農業專家來幫忙定義何謂好壞之分,分級的標準為何?

習題越多,電腦當然就學得越好,所以需要大量有標準答案的資料

再來呢!挑選適合的演算法/教學方法,就是所謂的因材施教

目前影像辨識的主流演算法是CNN(以及CNN的各種優化變形,可以參考這篇https://medium.com/cubo-ai/物體偵測-object-detection-740096ec4540),這些技術在這十年之內都進展神速,各種程式語言有很多寫好的套件可使用。

接下來,開始機器學習的旅途上,務必注意以下兩個問題,因為眾多實務經驗失敗經驗中,演算法可能不是最關鍵的,而是.....資料品質。嚇到了吧?成敗關鍵居然不是神秘黑盒子。

所以,請緊緊抓住兩個關鍵問題,馬上為你贏得Respect!

1. 標注資料量是否足夠

Practice makes perfect,熟能生巧,練習多次才能趨近完美,電腦亦然,所以資料科學家必須準備很多的圖片教材,並附上正確解答,才能幫助電腦學習到正確知識。沒有習題的解答就無法知道學習成效如何。對機器學習來說,附上正確解答就是標注資料。

2. 預期的正確答案是什麼?

若只教電腦學習辨別土豆等級,萬萬不可期待能辨別番茄是否生病了,因為訓練資料都是土豆沒有番茄,對電腦來說番茄就是課外題,如同非母人士練習英文再如何熟練,突然丟出韓文,絕大部分的人只會也會當場當機而,換言之,訓練資料如果只有十種答案,結果就只會有十種答案,不能再多!電腦給出預期之外的答案應該是程式寫壞了,機器學習的是人類給的正確答案,人類不知道的答案,電腦當然不知道

接下來,再延伸思考,影像辨識發展如此成熟,辨識蕃茄和土豆根本就是一塊蛋糕了,那那那……可以辨識腫瘤嗎?這豈不就是AI醫生了,對機器學習來說,的確是相同訓練流程。為何至今AI醫生還不普及呢?

關於 AI 的『能』與『不能』,這故事說來話頭可長的呢.......

資科科學小教室,我們下次見!

--

--

Sobi

唸過幾年文學院,寫過幾年程式,摸過各式各樣大資料小數據,存在雲端還是在本地端的都處理過。喜歡聽故事,也喜歡說故事,經歷成功的資料科學故事也許不多,但有很多成長的故事可以說:)