論文閱讀 CVPR 2019 — Deformable ConvNets v2: More Deformable, Better Results

該論文以 Deformable ConvNets v1 為基礎，擴展其 Deformable convolution layer 的數量，並加入調幅機制 ( Modulation mechanism ) 進行改良，再進一步以 Feature mimicking 的手法改善其準確度，使神經網路具備更強大的變形能力。

Ken Huang

Follow

Published in

人工智慧，倒底有多智慧？

10 min readOct 16, 2021

--

論文連結：
《 Deformable ConvNets v2 : More Deformable, Better Results 》

作者：

Zhu, Xizhou, et al. “Deformable convnets v2: More deformable, better results.” *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition*. 2019.

Introduction

在物件辨識與偵測任務上，幾何物體會有比例、姿勢、視角和部份變形等情況的多樣性，是該任務的主要挑戰。

目前 SOTA 的作法是採用 Deformable Convolutional Networks ( DCNv1 ) 作為解決之道。主要是利用 Deformable convolution & Deformable RoIpooling 等模組，使模型可以去適應/擬合物件的結構，並提昇整體的準確度。

為理解這個 Deformable ConvNets，作者們在 PASCAL VOC 和 COCO 等資料集上，對視野域的變化進行可視化做觀察，並發現其覆蓋情況有超過物件的現象，並認為應該有更優的作法。

而該論文的主要目標是提出比 DCNv1 擁有更強 Deformable convolution 學習能力的 Deformable ConvNets v2 ( DCNv2 )，作法上有 2 個特色：

拓展整體架構上使用 Deformable convolution layer 的數量，使採樣的範圍可以更廣。
調幅機制 ( Modulation mechanism ) 可使模型不僅學習到偏移量，也會根據學到的特徵振幅 ( Amplitude ) 做調整。

上述的改良會使模型有能力在空間分佈與樣本間的相互影響關係更多樣。

Analysis of Deformable ConvNet Behavior

前述提及可視化分析一共有 3 種不同的方式：

Effective receptive fields：
根據 Gradient 計算視野域內不同位置上的響應強度，檢視不同像素對神經網路節點的影響
Effective sampling locations：
將採樣的 Location 結合 Gradient 資訊分析每個地方的所貢獻的強度
Error-bounded saliency regions：
參考近期 Image saliency 的相關研究，設定 Error bound 觀察神經網路節點 Support 的區域

這分析的 Baseline 是 Faster R-CNN + ResNet50 ( with aligned RoIpooling )，資料集是用 COCO，相關的可視化結果如下：( 各組內由上自下是前述的 2. 、1. 和 3. )