許永真:AI帶動第四代工業革命,跨入資料科學機會多

譚竹雯 Stephanie Tan
Taiwanese in Data Science
4 min readJun 18, 2018

採訪編輯 / 譚竹雯

戴著白色眼鏡的許永真,爽朗的笑聲在會議室裡迴盪著。

「以前假如下午六點要開會,我不敢說要回家帶小孩,我會乖乖留下來開會。但現在情況不一樣了!」許永真笑著說。雖然未必是發生在每個女生身上,但「女生面臨的家庭與職場抉擇,男生同事可能是想都想不到的,」許永真認為,這是因為從小的生活經驗不一樣,所以男女生看待事情的角度截然不同。

取捨間找到平衡

赴美求學與生活時,許永真曾嚮往工作忙碌時,擁有「只要好好工作」的專注與自由。但有小孩以後,工作之餘,他心中總會擔心小孩有沒有人照顧?便會著手安排。而為了能在工作上達到目標,許永真表示,「若有資源能幫助我,像是請人帶小孩,我後來就決定不要太省錢,會調整自己的價值觀。」

許永真回台後在台灣大學資訊工程學系任教。當他生第二個小孩時,他決心修三年假。「這是一個trade-off(取捨),I am happy to accept this trade-off!」許永真笑說。

除了心態上的轉變,資工系的支持也是他的一大助力。「我希望不辜負他們的支持,一旦回來,我就是全心投入到系上所有事情。」

回應AI古老的問題

許永真研究問題時,往往是從與人相關的角度開始思考,例如節能、親子關係、老人照護等。「資料分析是必須熟悉的工具,也是基礎,」許永真說。從與人相關的問題著力,再進一步思考科技可以如何幫忙找出答案。

「有些純機器的問題無法激起我的興趣,但是人的問題一直讓我覺得心動,」許永真分享。他以建立常識資料庫的計畫為例,開始專案的動機不複雜,目標是讓電腦自動解決常識性、簡單的問題。

「電腦只會你曾告訴它、教導它的事情,」他說。譬如肚子餓時,人會根據過去經驗推斷,知道應該要進食以補充熱量,但電腦若曾接收指令,它就不會。「因為電腦不會,所以可能會做出荒謬的決定。」

人工編纂的百科全書要電子化,多年來進度緩慢,但維基百科的出現,徹底顛覆了傳統百科全書建立線上資料的方式。透過網際網路,並開放大眾擁有編纂的權限,維基百科儼然成為一部內容更豐富、更能與時俱進的百科全書。

許永真想藉由人的力量協助電腦加速建立資料,應用於常識資料庫的專案。他參考麻省理工學院 (MIT) 的做法,建立網站,搭配簡單的模板,讓使用者填答來貢獻生活常識,但資料筆數十分地少。

蒐集資料是挑戰

後來,隨著臉書的起步,許永真與學生開發一款臉書小遊戲,在遊戲中蒐集常識,提高填答的誘因。然而,許永真仔細檢視蒐集到的資料,卻發現上頭的資料竟都看不懂,「我們設定繁體中文,但遊戲玩家都是香港人,廣東中文還要想想如何改寫,」他回憶。當時台灣臉書的使用普及度不高,廣東中文的改寫也有難度。

「蒐集資料,本身就是很大的挑戰,」許永真說。第三次蒐集資料的方式,他想要找台灣人為主體的社群,後來選定PTT養寵物的遊戲,並設計問題。從常識資料庫計畫開始,如今已約八年,資料庫每天仍有幾百筆的免費資料湧入。

但PTT的資料來源仍有局限,「如果你半夜肚子餓你會去哪裡?外國人可能會說訂披薩,但我們看到台灣人填7-ELEVEN的比例很高。」資料有文化及地域的差異,更不好處理的是群眾給的答案不一定正確。

許永真為了解決資料的正確性、並解少偏誤,隨之開始投入研發一系列的AI工具來清理與驗證資料,也著手設計能夠自動從網頁上抓取資料的工具,來與PTT上蒐集到的資料互相對照。

PTT鄉民貢獻的資料可能有對有錯,藉由互相比對,當有越多的資料源、有越多的人說這筆資料是正確之時,許永真與研究團隊就會提高對該筆資料的信心程度。

唾手可得的資料科學果實,機會很多,及時把握

許永真提到,「第四代工業革命」中AI就像是這一波革命的燃料,機器學習演算法則像是蒸汽機。AI的發展奠基在資料來進行研究,使得資料的地位更顯重要,研究人員也將因研究題目的不同,而需要深入理解各領域的資料,「現在的資料科學是low hanging fruit(指舉手就能摘到的果子),這裡充滿機會,好好把握,」許永真說。

--

--

譚竹雯 Stephanie Tan
Taiwanese in Data Science

藉由文字的持續書寫,記錄所看所思,並期許能夠推動一點社會的改變,過無悔的人生。