Yoctol Paper Note ep.20: Regularizing CNN with Locally Constrained Decorrelations

Chu Po-Hsien
YOCTOL.AI
Published in
3 min readApr 10, 2018

本文所使用圖皆截自原論文

編按:在優拓每週一次的 Seminar,Data Team 的大夥會輪流分享最近看過的一篇印象深刻的論文。這一系列文章就是將會議上討論的內容整理出來,分享給優拓以外的同好。本系列的前一篇請見:

摘要

這篇 ICLR 2017 的論文來自巴塞隆納自治大學的電腦視覺團隊。他們提出一種新的 Regularization 方法, OrthoReg,試圖減低同一層權重之間的相關性,具體來說,他們在原本的 cost function 上加這一項:

直觀上解釋,這個 reularization term 代表權重之間的 cosine similarity 的平方,透過最小化這項,可以讓權重之間的相關性趨近零。

看點

  • OrthoReg 和 L2、L1 一樣,只依賴於權重本身,且運算不多,可套用在現行的訓練架構而不會造成太多的 overhead
  • 在 MNIST、CIFAR10、CIFAR100、SVHN 上對各種 SOTA 的 CNN 加上 OrthoReg 皆有些微進步。

限制

  • 減低相關性的機制並沒有非常明確的理論背景。由於這個 correlation 是做在線性空間上,然而目前的 NN 架構有許多非線性的操作,作者在論文中並沒有對此進行更多解釋。(在評論區有人提出:ReLU(Wx) 和 ReLU(-Wx) 的輸出是完全正交,但權重之間的 cosine similarity 是完全負相關)
  • 在 benchmark 上,作者並沒有給出實驗結果的信賴區間。不確定是否有對 test set 刻意調整。

延伸研究

雖然作者群的目標在降低 over-fitting,但我認為這個方法如果結合 L1 regularization,也許有機會大大減少模型的大小。這個對於 IOT 等應用會更有價值。

優拓資訊 (Yoctol Info Inc.)

At YOCTOL, We AI Your Business by Bot.

優拓為新銳 AI 團隊,利用自行研發的機器人框架、自然語意理解、網路爬蟲、推薦引擎,為企業提供全方位的商務機器人解決方案,不僅可以即時回應顧客的客服需求,也能主動推播個人化商品推薦,提昇企業經營效能。

若您有相關業務需求或是任何建議、疑問,都歡迎寄信至 service@yoctol.com,我們將盡速與您聯繫,期待您的來信!

--

--

Chu Po-Hsien
YOCTOL.AI

Data Team Lead @Yoctol 專注於機器學習的應用以及產品設計,偶爾幫忙開發開源機器學習套件。