參加 AAAI-19 的會議心得

Hans Du
BlendVision
Published in
7 min readMar 2, 2019
今年會議的會場就在照片中最高那棟飯店的樓下,毗鄰夏威夷知名的威基基 (Waikiki) 海灘。

AI 也用在 Streaming?

在開始分享參加會議的心得之前,簡單幾句話聊一下,為何身為一個 KKStreamer,要去參加 AAAI 年會,一個以探討 AI 議題為主的國際學術會議。

因為呢,從 Streaming platform 身上可以接觸到的資料實在是既大量又多元,大量就代表能滿足各種模型對於資料量的基本要求,多元則表示導入 AI 應用情境的想像空間是很大的。

除此之外,Streaming service 會處理到的題目更是形形色色,有影像又有文字內容、有智財又有個資等社會議題、能玩推薦系統又能玩資料處理,而其實這些主題都有涵蓋在今年的 AAAI 年會之中了。

在這麼多的主題之中,由於過去背景和團隊目前參與專案的考量,在出發之前便鎖定了自然語言處理 (NLP) 和推薦系統這二個大題目來參加會議。

新加坡學術團隊的 Industrial Solution

到了夏威夷之後,第一個參加的議程是介紹推薦系統近年發展的課程:< Recent Advances in Scalable Retrieval of Personalized Recommendations (連結) >,主題是透過新的特徵建構方法,在需要維持準確率、以及資料筆數龐大的前提下,仍能提升相似度比對運算的效能。

而其中的幾種作法,正是目前專案在實驗導入甚或正在使用的,可說滿貼近目前業界的需求。在課程的簡報資料中,也附上多篇相關領域的學者在近年發表的論文,相當值得研讀,更能夠讓我們參考並用以改進專案成效。

SMU 團隊 Preferred.AI 的課程介紹頁面 (連結)。

在學術會議的場合,除了聽講,也有很多可以仔細觀察的地方,其中,像是講者的所屬單位。而這場課程的主辦方是來自新加坡的一個學術團隊。

因為我去年曾在新加坡待了一小段時間,當時便感受到他們從上到下對於發展 AI 的積極程度,像是投入國家資源進行基礎研究,或是吸納鄰近國家產官學界人才等作法,都能讓台灣政府或者公司參考及對照。

推薦系統 x NLP

第二個參加的議程,則是「推薦系統與 NLP 相見歡」的專題研討會:< Recommender Systems Meet Natural Language Processing (連結) >,主題包含:推薦系統如何結合 NLP、如何用NLP 方法改進推薦效能等,其中較有趣的論文主題是,如何用聊天機器人推薦電影、如何用時序模型 (如 self-attention 等) 分析使用者的購買紀錄及預測等。由於題材新穎但稍微發散了點,建議可以挑選有興趣的文章來閱讀即可。

世界一流研究單位的近期研究成果

在兩天的課程及專題研討會之後,便是為期三天半的主議程,然而主議程的研討主題數量多達4、50個,因此便看到了一些時段有10個主題在同時進行的情況。但是,有些熱門主題如機器學習、電腦視覺和 NLP 等,其會議室是場場爆滿,人潮是既坐滿走道更湧出門外;有些卻是台下景況淒涼、觀眾零零落落,可以說各主題講者的心情是如人飲水,冷暖自知。雖然選場次就像是在超商冰櫃前選飲料一樣艱難,但是晚上還有展出論文成果的場合,可以到攤位參觀白天錯過的講題,不必擔心會有遺珠之憾。

至於 NLP 的部分,光是隸屬在它底下的主題場次,就橫跨了整整三天的時間,探討的問題非常多,包含了知識問答 (QA)、對談 (Dialogue)、資訊萃取 (Info. extraction)、語意摘要 (Summarization)、和分類 (Classification) 等等。

因為目前的工作會需要處理大量資料的實體辨識 (Entity recognition) 和新詞處理 (OOV) 等問題,因此特別挑選了來自一流大學及公司的作者講題,像是 CMU、劍橋大學、慕尼黑大學、Mila、Google Brain、Facebook AI 等,就近了解他們近期的研究成果。

CMU 團隊 NeuLab 的實體辨識 Paper (arxiv 連結),是最近感興趣的一個主題。

除了上述的議題,也了解了其他有興趣的主題,包含:跨語言的語意表示式 (multilingual embedding)、重述 (paraphrase) 、群聚、電腦視覺、強化學習、AI 在業界的創新應用 (IAAI) 等等。

其中有一篇印象非常深刻的論文,是來自韓國 KAIST,判讀車禍是否即將發生的影像模型 (可能用於即時閃避來車) ,由於不易取得大量訓練資料 (總不能買一貨櫃的各種車款來撞然後報帳,或是自己動手標記 — -親自下海開車吧),所以他們的解決方式是…狂玩 GTA 然後錄下大量撞車的片段!

其實,這種透過遊戲或模擬環境來取得大量訓練資料的作法,已經越來越常見;而這種資料取得的問題,真的非常值得我們這些有志訓練好 AI 模型的工程師多多發揮創意,來想出既有趣且有效的解決方式!

韓國 KAIST 團隊的電腦視覺 paper,使用虛擬世界的場景作為訓練資料,模型可用於偵測周遭可能衝過來的車輛。

It’s show time!

在主議程的三天期間,每天晚上各有2小時的 Poster & Demo program,展示內容包含: (1) Poster — 白天各場演講的內容;以及 (2) Demo — 導入機器學習或深度學習模型後,架設的軟硬體系統及其功能,且需同時展示說明海報及可動的成品。

由於在加入 KKStream 團隊的前夕,向 AAAI 投稿了一篇 demo program paper 且有幸被徵選上,所以在主議程第二天晚上,之前所屬團隊也在攤位上展示海報和網站 (如下圖)。該網站的主要功能,是處理美股上市公司年度財報的文字內容,分析單字、片語/慣用語、句子等層級的財務情緒,以預測該公司未來的股價波動程度是高或低。

之前所屬團隊 (連結) 架設的網站 FRIDAYS (連結),可用於快速判讀財報內文字所揭露出的風險高低程度。

有趣的是,因為海報的風格有別於一般學術單位,而且單位的英文名稱較為典雅,所以在攤位上佇足參觀的許多人都以為中研院是間新創公司。另外也觀察到,在這攤位停留較久或詢問較多的人,所屬單位都是以公司居多;其中,印象最深刻的是兩位來自日本的資料分析師,他們是來自那種「搜尋 ”日本最大證券公司” 就看得到名號的」公司,操作把玩網站一陣子,也詢問了不少實際應用的問題,看來是認為這個網站的確可以幫助到他們日常的工作。

後記

根據目測得到的非正式統計結果,參加會議的單位以中、印兩國佔大宗,其次才是歐美日等傳統科研大國,再者是台韓新、中東歐等國,台灣團隊的所屬單位則以台、清、交、中研院等為主。

另外,據說在全世界 AI 研究都陷入低潮期的那幾年,AAAI 年會的徵稿曾經相當不踴躍,幸好最近重返榮耀,投稿數量年年攀升。但正因為數量爆增,一是晚間展示的人潮相當洶湧,熱鬧程度堪比饒河夜市,導致每個人都需要擠過人潮才能走到想看的攤位;二是整體而言,論文內容的品質並不太一致,稍微不符合原先的期待。因此,我們今年也會努力準備,將研究成果和進展投稿其他頂級學術會議,也期待我們下一次的分享吧!

--

--