[雜記] 淺談AI人工智慧之現況

Published in

hobo engineer

5 min readOct 31, 2019

遙想幾年前大學時，"大數據"、"Big Data"等議題被炒得火熱，不管是在業界或是學界總能看到相關的職缺、競賽、課程紛紛興起。系上也開了「資料探勘」還是「資料採礦」之類的課程，開始用 Python 接觸大數據第一課 — 尿布與啤酒。但時至今日，"大數據"這議題不知是人們忘了? 還是害怕想起來? 忘記這才是 AI 一切的根源，熱潮早已冷退，取而代之興起的是 AI 人工智慧。從學生時期到現在出社會，親歷了這些變遷過程，以此篇紀錄一下個人淺見。

關於 DM 、 ML 與 AL

在廣泛的 Data Science 角度來看，這張圖可以做個簡單說明。
Data Mining(DM), Machine Learning(ML), Artificial Intelligence(AI) 三者其實是循序漸境的發展。簡單來說就是必須先有海量的 Big Data 來輔助進行 Data Mining , 接著從中獲取了一些 Rule 後再透過 Machine Learning 來 training 出有用的 model 。最後一步的 AI 白話一點來說則是指以上這些步驟都可以跳過，直接把 Big Data 餵入電腦就能自動產生有用的 pattern 和 rule ，這才是真正意義上的人工智慧。

目前的 AI 亂象

但放眼台灣近幾年，卻鮮少聽聞有甚麼蒐集 Big Data 後透過 Data Mining 進而創造價值的成功案例。大多數的例子，都只是利用簡單統計資訊，例如銀行透過信用卡刷卡資料，塞選出 25~45 歲為消費主力等之類簡單應用。但這類例子其實與實質上的 Data Mining 沾不上甚麼邊，充其量只能算是統計資訊。然而未見 Data Mining 發展成熟，時至今日卻更多的新創公司、甚至是一般企業推出 "AI"、"智能" 等相關產品或案例。以下為 google 隨意找的兩個案例。

案例 A : "偽智能" AI 音箱 — 小米盒子

這應該是個大家耳熟能詳的產品，但其實這東西實質上只能算是個 “ 偽智能” 的 AI 音箱。關鍵在於現今 “ 語義識別” 與 “中文判讀” 與期望應用上仍有段落差。說真的，現在的人機對話什麼水平？也就加個鬧鐘，關個檯燈，除此之外連基本聊天應該都撐不到3輪，就已經聽不懂人話了。 Pattern 不夠，且人類語言本來就艱深晦澀，一樣的語句、不同的語調、不同的廠警都會有不同含意，這也是我認為目前 AI 在發展上所遇到的最大瓶頸。要讓機器能 “理解” 人類語言含意，且通過圖靈測試，以目前技術來看似乎還有段落差。

下圖為小米音箱在展示時出的小插曲全文

案例 B: "AI" 濫用亂象 — AI 乳篩助理全文

以案例 B 來說，是目前最常見的問題 — "AI"一詞過度濫用。
在此例中，很明顯是透過 ML 建出判別可能腫瘤位置的 Model ，這是屬於機器學習與大數據的範疇。當然我們不能否認這些應用的價值所在，但很明顯，這並不是 AI 。就近幾年所見，好像甚麼東西應用上了一些數據分析技巧，就可以把 "AI" 兩個字冠上去，就像鍍了金一般，成為站在 AI 浪潮最新的應用或噱頭。

但要知道 ML 到 AI ，是還有一段落差的，但台灣業界和媒體貌似對 AI 的標準蠻寬容的 ? 能看清東西（圖像識別），能聽個聲音（語音識別），就能打著 AI 旗鼓四處宣揚。或許是這議題對大眾來說過新，又或者是在媒體與業界濫用的影響下，鮮少見到有人站出來質疑這類問題的。

AI 該走的路與現實落差

除了以上兩個案例之外，目前業界長打的 "AI" 應用不外乎 人臉識別、語音辨識 之類套套 tensorflow 或是 keras 等現有套件，改個參數再訓練個 model 就能拿出來賣，這其實是最大的癥結點。

AI 如果要有所突破或發展，其真正的價值在於如何有更好的演算法 or 方法來幫助我們更貼近 AI ，而不應是只單純利用現有套件來訓練類神經。現有的技術效果在哪 ?瓶頸在哪 ? 應該大家有目共睹，就拿 語意識別 這東西來說好了，要讓機器人懂人類在講甚麼應該要先做好 語意判讀 吧?

語意判讀 這需求很簡單，就和 Youtube 一樣，隨便點開一個影片能即時轉成字幕，請問目前哪個影音網站能做到呢？如果連這個都還沒實現，那又談什麼 語義識別 呢 ?

但目前台灣業界真正在做演算法開發的應該屈指可數。不難想像是因為長期 cost down 結果下造成的，畢竟投入的研發成本不一定能看到成效，這也是現實上的一大困境。大多數的職缺仍是在現有套件 or 技術上加以應用，而無法突破，我想這是 AI 發展來說略為可惜的地方。