Inception 系列 — InceptionV2, InceptionV3

李謦伊

Published in

謦伊的閱讀筆記

9 min readNov 7, 2020

之前有介紹過 InceptionV1 的架構，本篇將要來介紹 Inception 系列 — InceptionV2, InceptionV3 的模型

InceptionV2

InceptionV2 於2015年2月提出，基於 InceptionV1 做了兩項改進:

引入了 Batch Normalization，這部分在上篇文有介紹過: https://medium.com/@chingi071/batch-normalization-%E4%BB%8B%E7%B4%B9-135a24928f12
使用兩個 3x3 卷積層替代 5x5 卷積層，其操作就是採用小卷積核來代替大卷積核，論文連接: https://arxiv.org/pdf/1512.00567.pdf

在 VGG 中有提到使用多個較小的卷積核除了可以減少參數計算量外，還可以達到與大卷積核相同的感受野，因此 InceptionV2 使用兩個 3x3 卷積層替代 5x5 卷積層

下圖左邊是 Inception 原本的架構，而右邊是將 5x5 卷積層改為兩個 3x3 卷積層後的 InceptionV2 架構

InceptionV3 (2015)

InceptionV3 跟 InceptionV2 出自於同一篇論文，發表於同年12月，論文中提出了以下四個網路設計的原則

1. 在前面層數的網路架構應避免使用 bottlenecks，雖然 bottlenecks 可以有效的降低參數計算量，但同時也會失去特徵訊息。從輸入到輸出特徵的維度應緩慢的下降，避免維度過度地壓縮

2. 高維度的特徵更適合在網路的局部處理，並且在網路中增加非線性可以讓訓練更快

3. 空間聚合可以先通過低維度進行降維，不會影響模型能力

4. 增加網路的寬度與深度能夠提升效能，若是平衡兩者可以達到更好的效能

InceptionV3 基於 InceptionV2 做了以下這些改進

將卷積分解為不對稱卷積

由 InceptionV2 得知將大卷積核拆解為多個 3x3 卷積核可以減少計算量，那如果再進一步分解成更小的卷積核效果會怎麼樣? 因此 InceptionV3 嘗試將卷積核分解成不對稱的卷積核並比較其計算量

若將 3x3 卷積層分解為 1x3 及 3x1 卷積層，可以減少 33% 的計算量；但若是分解為兩個 2x2 的卷積層，只能減少 11% 的計算量

作者在實驗中發現不對稱卷積不適合用於前面層的卷積，而是在中等的特徵圖效果比較好，其中中等特徵圖的尺寸範圍在 12~20 之間

InceptionV3 在中間層卷積的中等尺寸 17x17 特徵圖使用 1x7 及 7x1 的卷積核，在降低參數量的同時，也增加了模型深度，獲得了不錯的結果

除此之外，作者根據網路設計原則 — 高維度的特徵更容易處理、有利於訓練，因此在 8x8 卷積層中採用增加網路寬度的結構，以產生高維度的特徵

輔助分類器的作用

InceptionV1 的架構有使用兩個輔助分類器為了提高模型的穩定性與收斂速度。但在實驗中，作者發現輔助分類器在訓練早期並沒有效果，而是在訓練後期，有輔助分類器的模型才開始超越未使用輔助分類器模型的準確度，達到穩定的效果

另外，作者拿掉較低層的輔助分類器，發現對模型並不會有負面的影響，因此作者推測輔助分類器有助於較低特徵的演變是不正確的。並且由於輔助分類器若具有 Batch Normalization 或是 Dropout 層，會使得模型效能更好，也因此認為輔助分類器有正則化的作用

下圖是 InceptionV3 用於 17x17 特徵圖的輔助分類器，有 Batch Normalization 層的話可以提升 0.4% 的 top-1 準確率

縮小特徵圖

通常縮小特徵圖有兩種方法: 下圖右邊架構的方式是先進行 Inception，再通過池化層來下採樣，但是計算量是左圖的三倍；下圖左邊架構則是先進行池化層來下採樣，再進行 Inception，但這個操作就會產生網路設計原則第一點的問題 — 特徵圖應該要緩慢縮減，若是急遽縮減會導致丟失大量特徵訊息，導致模型較難訓練