[雜記] 淺談AI人工智慧之現況

R. H.
hobo engineer
Published in
5 min readOct 31, 2019

遙想幾年前大學時,"大數據"、"Big Data"等議題被炒得火熱,不管是在業界或是學界總能看到相關的職缺、競賽、課程紛紛興起。系上也開了 「資料探勘」還是「資料採礦」之類的課程,開始用 Python 接觸大數據第一課 — 尿布與啤酒。但時至今日,"大數據"這議題不知是人們忘了? 還是害怕想起來? 忘記這才是 AI 一切的根源 ,熱潮早已冷退,取而代之興起的是 AI 人工智慧 。從學生時期到現在出社會,親歷了這些變遷過程,以此篇紀錄一下個人淺見。

關於 DM 、 ML 與 AL

在廣泛的 Data Science 角度來看,這張圖可以做個簡單說明。
Data Mining(DM), Machine Learning(ML), Artificial Intelligence(AI) 三者其實是循序漸境的發展。簡單來說就是必須先有海量的 Big Data 來輔助進行 Data Mining , 接著從中獲取了一些 Rule 後再透過 Machine Learning 來 training 出有用的 model 。最後一步的 AI 白話一點來說則是指以上這些步驟都可以跳過,直接把 Big Data 餵入電腦就能自動產生有用的 pattern 和 rule ,這才是真正意義上的人工智慧。

目前的 AI 亂象

但放眼台灣近幾年,卻鮮少聽聞有甚麼蒐集 Big Data 後透過 Data Mining 進而創造價值的成功案例。大多數的例子,都只是利用簡單統計資訊,例如銀行透過信用卡刷卡資料,塞選出 25~45 歲為消費主力等之類簡單應用。但這類例子其實與實質上的 Data Mining 沾不上甚麼邊,充其量只能算是統計資訊。然而未見 Data Mining 發展成熟,時至今日卻更多的新創公司、甚至是一般企業推出 "AI"、"智能" 等相關產品或案例。以下為 google 隨意找的兩個案例。

案例 A : "偽智能" AI 音箱 — 小米盒子

這應該是個大家耳熟能詳的產品,但其實這東西實質上只能算是個 “ 偽智能” 的 AI 音箱。關鍵在於現今 “ 語義識別” 與 “中文判讀” 與期望應用上仍有段落差。 說真的,現在的人機對話什麼水平?也就加個鬧鐘,關個檯燈,除此之外連基本聊天應該都撐不到3輪,就已經聽不懂人話了。 Pattern 不夠,且人類語言本來就艱深晦澀,一樣的語句、不同的語調、不同的廠警都會有不同含意,這也是我認為目前 AI 在發展上所遇到的最大瓶頸。要讓機器能 “理解” 人類語言含意,且通過圖靈測試,以目前技術來看似乎還有段落差。

下圖為 小米音箱在展示時出的小插曲 全文

案例 B: "AI" 濫用亂象 — AI 乳篩助理 全文

以案例 B 來說,是目前最常見的問題 — "AI"一詞過度濫用。
在此例中,很明顯是透過 ML 建出判別可能腫瘤位置的 Model ,這是屬於機器學習與大數據的範疇。當然我們不能否認這些應用的價值所在,但很明顯,這並不是 AI 。就近幾年所見,好像甚麼東西應用上了一些數據分析技巧,就可以把 "AI" 兩個字冠上去,就像鍍了金一般,成為站在 AI 浪潮最新的應用或噱頭。

但要知道 ML 到 AI ,是還有一段落差的,但台灣業界和媒體貌似對 AI 的標準蠻寬容的 ? 能看清東西(圖像識別),能聽個聲音(語音識別),就能打著 AI 旗鼓四處宣揚。或許是這議題對大眾來說過新,又或者是在媒體與業界濫用的影響下,鮮少見到有人站出來質疑這類問題的。

AI 該走的路與現實落差

除了以上兩個案例之外,目前業界長打的 "AI" 應用不外乎 人臉識別、語音辨識 之類套套 tensorflow 或是 keras 等現有套件,改個參數再訓練個 model 就能拿出來賣,這其實是最大的癥結點。

AI 如果要有所突破或發展,其真正的價值在於如何有更好的演算法 or 方法來幫助我們更貼近 AI ,而不應是只單純利用現有套件來訓練類神經。現有的技術效果在哪 ?瓶頸在哪 ? 應該大家有目共睹,就拿 語意識別 這東西來說好了,要讓機器人懂人類在講甚麼應該要先做好 語意判讀 吧?

語意判讀 這需求很簡單,就和 Youtube 一樣,隨便點開一個影片能即時轉成字幕,請問目前哪個影音網站能做到呢?如果連這個都還沒實現,那又談什麼 語義識別 呢 ?

但目前台灣業界真正在做演算法開發的應該屈指可數。不難想像是因為長期 cost down 結果下造成的,畢竟投入的研發成本不一定能看到成效,這也是現實上的一大困境。大多數的職缺仍是在現有套件 or 技術上加以應用,而無法突破,我想這是 AI 發展來說略為可惜的地方。

--

--