(ML) GENet : Gather and Excite Network

YEN HUNG CHENG
6 min readFeb 26, 2023

--

GENet (Gather and Excite Network)

以下為 GENet (Gather and Excite Network) 的架構

source

GENet (Gather and Excite Network) 的流程如下

  1. input tensor 做 Gather operator
  2. 將做完 Gather operator 的 input tensor 做 Interpolation
  3. 最後與 input tensor 做 Excite operator

最終的輸出為 E = input tensor ⊙ f(x)

f(x):會對 tensor 進行插值 (Interpolation) 的操作,將維度變回輸入維度

最終的輸出可以用下方的公式來表示

source
source

Gather operator

Gather operator 使用一次或多次的卷積與池化操作得到輸出 H’xW’xC

source
source

其中 e 為 縮放比例

Excite operator

通過 Gather operator 的值和輸入值,來調整特徵圖它們的重要程度操作,產生一個與原始輸入相同維度的新張量

source
source
source

Gather-Excite modules

主要分成以下三種架構

  1. GE-θ :帶參數的方法
  2. GE-θ −:無參數的方法
  3. GE-θ +:和 SENet 結合

GE-θ + (和 SENet 結合)並沒有提出架構圖

GE-θ (帶參數的方法)

可以發現使用帶參數的網路架構,會使用到 DWConv (DepthwiseConvolution) 進行特徵提取

source

GE-θ −(無參數的方法)

其實就是使用 Average Pooling 或是 Global Average Pooing 進行特徵提取

source

Experiments

Top-1 ImageNet validation error (based on a ResNet-50)

source

實驗中改變了 GE-θ− 與 GE-θ 中的 Extent ratio ,考慮了 e = {2,4,8} 的值,以及使用 Global average pooling (全局平均池化)的全局延伸率,可以從中發現每一次隨著 Extent ratio 的提升,都能讓網路性能慢慢提升,而使用最簡單的 Global average pooling (全局平均池化) 能帶來最佳的性能提升

Effect (error %) of inserting GE operators at different stages of the baseline architecture ResNet-50

source

這次的實驗就是將 GE-θ 使用在 ResNet-50 中不同的 stage 中,以及在所有的 stage 都插入 GE-θ 進行比較,可以發現在不同的 stage 使用入 GE-θ 都能多少提升網路的性能,但在後期的 stage 使各別用 GE-θ 帶來的提升會比較明顯,所以如果考慮到計算成本的話,可以考慮不在 stage 2加入

Comparison of differing GE configurations with a ResNet-50/101 baseline on the ImageNet validation set
(error %)

source
source

接下來就是對比 ResNet-101/152 深層網路的性能,我們可以發現 ResNet-50/101 使用 GE-θ−、GE-θ 和 GE-θ+ 的性能都超越了 ResNet-101/152 ,而且在 ResNet-50 使用 GE-θ+ ,可以發現它的性能已經直逼 ResNet-152,且以三分之一的計算複雜度接近 ResNet-152

Comparison of differing GE configurations with a ShuffleNet baseline on the ImageNet validation set (error %)

source

ShuffleNet 是一個輕量化的網絡,旨在減少計算和參數數量,從而實現在移動設備等資源受限的場景中高效運行。在 ShuffleNet 使用 GE-θ 和 GE-θ+ 雖然性能都有所提升,但是增加的參數量已經快高達兩倍,所以 GE-θ 可能就不是那麼適合用在 ShuffleNet 上

Conclusion

在這項工作中,研究人員解決了如何有效利用卷積神經網絡(CNN)中的特徵上下文的問題。研究人員提出了 gather-excite(GE)框架,並通過多個數據集和模型架構的實驗證明了該方法的有效性

--

--