(ML) MobileNetV2: Inverted Residuals and Linear Bottlenecks

8 min readJun 4, 2023

在 MobileNetV2 中，作者使用了倒置殘差結構，其中快速連接位於狹窄的瓶頸層之間。他們採用輕量級深度卷積來過濾非線性源的特徵。同時，他們發現去除窄層中的非線性以保持表徵能力是非常重要的，並證明了這一改進可以提高性能。

Depthwise Separable Convolutions

(ML) MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

MobileNets…

medium.com

Linear Bottlenecks

簡單來說，Linear Bottlenecks 就是指在 MobileNetV1 最後做完 1x1 convolution 將激活函數 ReLU 拿掉，而為什麽這麼做，可以下方的 manifold of interest 介紹。

manifold of interest

在神經網絡中，每一層都會對輸入數據進行一些操作，比如卷積、激活、池化等等。這些操作產生的輸出值就被稱為該層的激活值。對於一個真實圖像的輸入集，每個層的激活值都形成了一個集合。我們可以把每個集合看作是一個流形（manifold）。這些流形反映了圖像的特徵，比如邊緣、紋理、形狀等等。長期以來，人們一直認為神經網絡中感興趣的流形可以嵌入到低維子空間中。

MobileNetV1 成功利用，通過寬度乘數參數在計算和精度之間進行有效權衡。按照這種直覺，寬度乘法器方法允許減少激活空間的維數，直到感興趣的流形跨越整個空間。然而，當我們回憶起深度卷積神經網絡實際上具有非線性的坐標變換（例如 ReLU）時，這種直覺就會失效。

Examples of ReLU transformations of low-dimensional manifolds embedded in higher-dimensional spaces

一開始在 2 維空間上建立一個 manifold of interest ，接下來會通過隨機矩陣 T 映射到 n 維空間後（manifold of interest 嵌入到更高維度的空間），接著進行 ReLU，最後再使用 T 的逆矩陣映射回原本的空間，也就是論文中所代表的圖。

在低（2、3）維度進行 ReLU 後，再映射回來原本的空間，可以發現原本螺旋的 manifold of interest 它被折疊了，並且其他部分訊息已經消失，反之可以發現在高（15、30）維度進行 ReLU 後，再映射回來原本的空間，雖然螺旋的 manifold of interest 較為不同，但是整體螺旋的結構仍然存在，儘管它是些許扭曲，所以很明顯在高維度應用非線性函數，manifold of interest 的訊息並不會流失太多。

Evolution of separable convolution blocks

(a) 為一般的常規卷積

(b) 為 MobileNetV1 所提出的 深度可分離卷積

(d) input tensor 會先通過 1 x 1 卷積進行升維，接下來使用 3 x 3 深度卷積（激活函數＝ReLU6），最後再使用 1 x 1 卷積進行降維（激活函數＝ReLU6）

The difference between residual block and inverted residual

(a) 為一般的殘差模塊，會先使用 1 x 1 卷積進行降維，再進行 3 x 3 卷積，最後再使用 1 x 1 卷積進行升維回復到原本的維度。

(b) 為相反的殘差模塊，因為與傳統的殘差模塊不同，會先使用 1 x 1 卷積進行升維，再進行 3 x 3 深度可分離卷積，最後再使用 1 x 1 卷積進行降維回復到原本的維度。

Model Architecture

最終的 Block 架構，input tensor 會先進行 1 x 1 卷積（激活函數＝ReLU6）進行升維（又稱 expansion layer，其中 t 為 expansion ratio = 6），再進行 3 x 3 深度可分離卷積（激活函數＝ReLU6），最後再使用 1 x 1 卷積進行降維