Single Shot MultiBox Detector (SSD) 論文閱讀

Published in

謦伊的閱讀筆記

11 min readJan 20, 2021

本文要介紹的物件檢測算法為 Single Shot MultiBox Detector (SSD)，是 ECCV2016 的文章。由名稱 Single Shot 可以看出 SSD 屬於 One-stage 的物件檢測演算法，而 MultiBox 則是為多框預測。SSD 可以在保持準確率的同時，提高檢測速度，相比 Faster RCNN 與 YOLOV1 來得快速並且更準確

📝 Paper: https://arxiv.org/pdf/1512.02325.pdf

🔖 github: SSD-Tensorflow

🔖 github: ssd_keras

SSD 的做法跟 YOLOV1 有兩項不同的改變，第一就是加入 Pyramidal Feature Hierarchy，採用不同大小的特徵圖來檢測: 在大特徵圖上檢測小物體，在小特徵圖上檢測大物體；第二是參考 Faster R-CNN 中的 Anchors，依據每個特徵圖的大小產生一系列的先驗框 (Prior boxes，SSD 稱為 Default boxes)

網路架構

SSD 的 Backbone 採用 VGG16，將 VGG16 的 pool5 層從 size=2x2, stride=2 更改為 size=3x3, stride=1，以及最後兩個全連接層 FC6、FC7 分別改為 3x3、1x1 卷積層，並且在 3x3 卷積層中使用 Atrous Algorithm (就是指 Dilated Convolution)。然後移除所有 dropout 層與 FC8 層，再增加四個卷積層 Conv8_2、Conv9_2、Conv10_2、Conv11_2

📚 Dilated Convolution 是指在不增加模型與參數複雜度下，擴大卷積的視野，在 pytorch 中可以設定 dilation 值

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, dilation)

下圖 (a) 為一般 3x3 的卷積層，感受野為 3x3；圖 (b) 為 2-dilated 卷積層，擴張一格，感受野為 7x7；圖 (c) 為 4-dilated 卷積層，擴張三格，感受野為 15x15

下圖卷積運算的 GIF，由圖可以更清楚 Dilated Convolution 運算的過程

SSD 在模型裡新增了以下輔助結構

Multi-scale feature maps for detection

SSD 加入了 Pyramidal Feature Hierarchy，即是在不同大小的特徵圖 (不同的感受野) 中檢測，SSD是首次使用這種架構的網路，在Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2中實現

下圖為在不同大小的特徵圖中檢測的過程，可以看到 Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2 的大小分別為 38x38、19x19、10x10、5x5、3x3、1x1，其中在 Conv4_3 後面還加了一層 L2 Normalization

❓ 為什麼只在 Conv4_3 做 L2 Normalization?

💬 因為 Conv4_3 特徵圖的尺寸較大 (38x38)，為了確保與後面特徵圖的尺寸差異不要太大，因此使用 L2 Normalization 在通道維度做歸一化，將特徵圖中的每個位置的值 norm scale 到 20，並且在反向傳播學習 scale 值

Convolutional predictors for detection

在剛剛的檢測過程圖以及網路架構圖中可以知道SSD 採用卷積層對不同大小的特徵圖進行檢測，與 YOLOV1 採用全連接層預測不同

做法是在不同的特徵圖中分別用兩個 3x3 卷積層進行卷積 (為了保持輸出與輸入的維度不變，卷積採用 stride=1, padding=1)，一個輸出分類置信度 (confidence)、另一個輸出位置訊息 (x, y, w, h)

Default boxes and aspect ratios

SSD 參考了 Faster R-CNN 中的 Anchors，在每個特徵圖上設置不同尺寸、長寬比的先驗框 (Prior boxes，SSD 稱為 Default boxes)，預測框會以這些先驗框為基準來預測，模型就不用另外去學習框的尺寸大小，可以降低一定程度的訓練難度

接著來講解 SSD 檢測過程的細節部分 — 在各個特徵圖上輸出檢測結果的運算過程

假設輸入為具有 p 通道的 mxn 特徵圖，使用 3x3xp 的卷積核進行卷積運算，會輸出 21 個分類置信度 (confidence)、及 4 個位置訊息 (x, y, w, h)，之所以有 21 個分類置信度是因為總共有20個分類 + 1 個背景

設定候選框為 k 個，表示每個特徵點上會產生 k 個預測框，因此輸出會是

m x n x k x (21+4)

然後來看下圖例子會更清楚~~ 下圖是假設候選框為3個，因此每個特徵點上會有 3 個預測框，localization 的通道輸出就會是 3x4 (4 個位置訊息) = 12，confidence 的通道輸出會是 3x21 (21 個類別) = 63

了解檢測過程後，要來介紹 SSD 在訓練時還做了哪些策略

Matching strategy

首先，要確定 ground truth 要跟哪些先驗框做匹配，一共有兩個步驟

第一步，先配對與每一個 ground truth 有最大的 jaccard overlap (就是指 IOU) 的 Default boxes，如此一來能保證每一個 ground truth 都有唯一的 Default boxes 對應

第二步，將剩餘的 Default boxes 與任一 ground truth 做匹配，若兩者的 jaccard overlap 大於閾值 (通常設定為 0.5)，則將兩者配對

由這兩步驟所配對到的 Default boxes 就是正樣本，反之為負樣本

Training objective

SSD 的損失函數為分類置信度損失 (confidence loss) 和位置損失 (localization loss) 的總和，其中 N 為匹配的 Default boxes 總數、α 為調整權重的參數

localization loss 為預測框 l 與真實框 g 的 smooth L1 loss，其中要先對真實框 g 做轉換

confidence loss 則是對多類別置信度做 softmax

Choosing scales and aspect ratios for default boxes

剛剛有說到匹配 ground truth 與 Default boxes 的步驟，現在要來說明各個特徵圖中 Default boxes 的尺寸大小設置

SSD 利用不同層的特徵圖來檢測不同尺度的物體: 在大特徵圖上檢測小物體，在小特徵圖上檢測大物體。假設有 m 個特徵圖用於檢測，則特徵圖的 scale 會由下列公式計算得到，其中論文設定 smin=0.2 表示最底層的特徵圖的 scale 值、smax=0.9 表示最高層的特徵圖的 scale 值

接著使用不同 ratios 計算 Default boxes 的長寬比，其中若 α=1 將會額外增加一個長寬比為1 的 Default boxes，因此每個特徵點共有六個 Default boxes (但是 Conv4_3、Conv10_2、Conv11_2 僅使用 4 個Default boxes，不使用 α=3, 1/3)

再來是 Default boxes 中心點計算

來算一下 Default boxes 的總數有多少~

前面有提到 Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2 的大小分別為 38x38、19x19、10x10、5x5、3x3、1x1，因此總共會有 38x38x4 + 19x19x6 + 10x10x6 + 5x5x6 + 3x3x4 + 1x1x4 = 8732 個框，跟 SSD 的網路架構圖上寫的框框總數一樣