優拓 Paper Note ep.19: Language Modeling with Gated CNN

Chu Po-Hsien
YOCTOL.AI
Published in
3 min readMar 20, 2018

本文所使用圖皆截自原論文

編按:在優拓每週一次的 Seminar,Data Team 的大夥會輪流分享最近看過的一篇印象深刻的論文。這一系列文章就是將會議上討論的內容整理出來,分享給優拓以外的同好。本系列的前一篇請見:

摘要

來自 FAIR 的作者在這篇 ICML 2017 的論文裡提供了一種對於 CNN 架構的小修改:

這個新架構在 convolution layer 之上,多了一個同樣大小的 Gate convolution layer,並通過 sigmoid function。原先的輸出可能會通過 ReLU 之類的 activation function,但在這裡就直接乘上對應的 gate。

他們將這種新架構實驗在語言模型的任務上,並比較了不同的 activation function 和 LSTM。

看點

  • 新架構修改容易,只需要多加一組相同大小的參數並做 element-wise multiplication。
  • 相比於 ReLu、Tanh、Gated Tanh Unit(仿 LSTM 內部),在 WikiText-103 和 Google Billion Word 這兩個語意模型任務上都能更快的收斂,並收斂到較好的 perplexity。

限制

  • 新的設計需要多一些運算時間
  • 由於發表時間較早,只比較了 ReLU。不確定 SELU 或 SWISH 是否表現的差不多。

延伸研究

論文中,作者額外提到了這個新架構可以解決 gradient vanishing 或 exploding 的問題。也許可以觀察整個訓練過程的 gradient 值分佈,進行更深入的探討。

優拓資訊 (Yoctol Info Inc.)

At YOCTOL, We AI Your Business by Bot.

優拓為新銳 AI 團隊,利用自行研發的機器人框架、自然語意理解、網路爬蟲、推薦引擎,為企業提供全方位的商務機器人解決方案,不僅可以即時回應顧客的客服需求,也能主動推播個人化商品推薦,提昇企業經營效能。

若您有相關業務需求或是任何建議、疑問,都歡迎寄信至 service@yoctol.com,我們將盡速與您聯繫,期待您的來信!

--

--

Chu Po-Hsien
YOCTOL.AI

Data Team Lead @Yoctol 專注於機器學習的應用以及產品設計,偶爾幫忙開發開源機器學習套件。