優拓 Paper Note ep.19: Language Modeling with Gated CNN

Published in

YOCTOL.AI

3 min readMar 20, 2018

本文所使用圖皆截自原論文

編按：在優拓每週一次的 Seminar，Data Team 的大夥會輪流分享最近看過的一篇印象深刻的論文。這一系列文章就是將會議上討論的內容整理出來，分享給優拓以外的同好。本系列的前一篇請見：

優拓 Paper Note ep.18: ByteNet — Neural Machine Translation in Linear Time

blog.yoctol.com

來自 FAIR 的作者在這篇 ICML 2017 的論文裡提供了一種對於 CNN 架構的小修改：

這個新架構在 convolution layer 之上，多了一個同樣大小的 Gate convolution layer，並通過 sigmoid function。原先的輸出可能會通過 ReLU 之類的 activation function，但在這裡就直接乘上對應的 gate。

他們將這種新架構實驗在語言模型的任務上，並比較了不同的 activation function 和 LSTM。

新架構修改容易，只需要多加一組相同大小的參數並做 element-wise multiplication。
相比於 ReLu、Tanh、Gated Tanh Unit（仿 LSTM 內部），在 WikiText-103 和 Google Billion Word 這兩個語意模型任務上都能更快的收斂，並收斂到較好的 perplexity。