不,AI其實蠻笨的
在可見的未來它還是聰明不起來
註:本文改自李天航的文章,原作者在中國一自動駕駛公司擔任項目經理,負責各種跨部門、跨公司的項目推動。
有一段時間,大家一直討論著繼網路產業之後,下一波跨世代的革命是什麼?台灣的機會又在哪裡?當中提到了區塊鏈、大數據、雲端,以及AI,每個看似都潛力無限,可以為台灣帶來下一波經濟奇蹟。
其中對於AI的描繪是震驚四座,好像可以立即取代掉50%的人力,一口氣把一半的台灣人過去的教育都否定掉一樣。如果你常看電視,以下的標題應該對你不陌生:
“阿法狗擊敗人類圍棋冠軍,電腦比人類更聰明“
“鴻海將引進機器人,未來數十萬人將會失業”
“AI能夠1秒處理上萬筆資料,相當於數天人工時,人類該何去何從?”
…
附帶著超聳動吸睛的標題,這些繪聲繪影的描述好像明天就會發生一樣。但是AI真的有那麼神嗎?不,其實AI的限制比你想像中多很多。
提到AI的限制之前,得先了解一下AI的運作原理。一言以敝之,AI就是從數據庫積累的經驗,判斷出最接近答案的選項給你。很抽象嗎?沒關係,想像一下,今天你要教會一個人和教會一台電腦”判斷這個物體是不是貓”這件任務,你覺得兩者之間的差別會很大嗎?

假如你今天要教會一個人辨識貓這種物體,其實相當相當容易。基本上只要秀給這個人幾張不同的貓的照片,並且明確的告訴他說這是貓,大概就八九不離十了。給這個人一百張的照片,基本上都可以很輕鬆的指認出來各種貓的照片。
但是教會電腦可就不是這麼回事了,在輸入百萬張貓的照片之前,工程師得教會電腦”定義”出什麼是貓,而定義這件事,其實是件非常曠日費時、複雜繁瑣的過程。
首先,要教會電腦定義出貓,工程師必須非常非常精確的指出貓的特徵,例如有六根鬚、有毛、有這樣的耳朵特徵、有這樣的眼睛、有這樣的鼻子、有這樣的牙齒…等。當你把所有的特徵全都定義完之後,你覺得這樣就完事了嗎?不,因為你只是教會了電腦”正面”的貓的型態。
如果今天一張照片裡的貓只照到了貓的側面,對於電腦又是不一樣的狀況了。工程師必須訓練電腦貓的側面是什麼樣子的,有這樣的曲線、有這樣的尾巴、有這樣的脖子…等。但如果照片又只照到貓的半身呢?如果這隻貓打呵欠嘴巴開了露出舌頭了呢?只照到屁股呢?只看到尾巴呢?這些對電腦來說,全部都是不一樣的事情。
再如果把貓的特徵考慮進去,情況就更亂了。因為貓還有大貓、小貓、公貓、母貓、剛出生的貓、死貓…等,各個特徵都不同,你都必須詳細地告訴電腦。還有些貓是無毛貓,有些貓是斷腿的,有些貓身上傷了毀容了,還有看起來像是貓但其實是個小老虎或者是花豹的幼仔,這些都必須要精準的定義出來,電腦才能順利運作。
除此之外,如果你再加上一點情境,那又是不一樣的故事了。比方說,今天我們需要電腦分辨出”在巷弄裡睡著的貓”,除了要分辨出貓之外,工程師還要讓電腦知道什麼是巷弄:兩間平房之間的道路嗎?兩個水泥牆間的道路嗎?巷弄要多大多寬?跟胡同有差別嗎?什麼叫睡著:閉著眼睛嗎?打呵欠算嗎?趴的睡姿,躺臥的睡姿,蜷伏起來的睡姿…..每個資訊你都要一個一個教電腦。
看了下來,你應該可以發現,人類“腦補”的能力非常非常強,只要給了幾張貓的照片,可以不自覺地套用到各種場景。而且更厲害的,還可以區分出真貓、圖片裡的貓、畫裡的貓等非常細緻的場景。而相對的,電腦在這方面就好像個笨蛋一樣,只要加了一點點的變化,換了個特殊的要求,就做不到。
簡單來說,AI在限定的範圍內,它的回答”應該”不會錯。但是現實中常常是個開放式的交流,AI可能就不是那麼可靠。例如有人說:我肚子餓了。他可能想要你告訴他附近最近的餐館在哪裡,或是要你告訴他外賣的電話,或是要你跑腿去幫他買便當,又或者是要你告訴他怎麼從冰箱裡拿剩菜煮飯,種種的回答會依據當下的場景變化而不同。但是對於電腦,他可能只會得到我肚子餓了這淺層的資訊,而產生出一種非常不搭嘎的回應。所以要AI像人般做出完美的互動,在可見的未來還是非常非常難的。
最好的例子就是你用Google搜尋”我肚子餓了”,基本上出來的東西都不會是你要的。你必須輸入”忠孝復興站 便當店 電話”,此類有更具體限定範圍的輸入,它才會知道你想要的資訊,並給出”接近”你的需求的回應。
