論文閱讀_A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection_SDF2019

Z.H. Shen

Published in

馬鈴薯獵人的狂想曲

8 min readApr 18, 2022

Paper; Github code

Introduction

在惡劣的天氣條件下，相機影像的品質是有限的，例如受到大霧大雨的影響，鏡頭也可能會受到雨水的遮擋，在光線稀少的地方或是夜晚，影像的雜訊也會加大，影響以影像為基礎的物件辨識深度神經網路。

Van occluded by a water droplet on the lens

在網路中融合相機與投射的稀疏雷達點，提出 Camera Radar Fusion Network (CRF-Net)，自動學習在哪層網路進行相機和雷達點的融合最有利，並引入 BlackIn，是一種受 Dropout 所啟發的學習策略，將學習的重點放在特定感測器上。
在兩個數據集(TUM、nuScenes)上證明融合兩個不同型態的資料，優於僅使用圖像的網路。

雷達資料前處理

如何投射 2D 雷達數據到影像上?
如何進行相機與雷達感測器在空間上的校準?
如何處理 mmWave radar 回波中缺失的高度訊息?
如何處理雷達的稀疏性?
如何利用 Ground-truth filtering 的方式，來減少雷達的雜訊和 Cluster?

雷達感測器輸出是一個稀疏的 2D 點雲，並包括方位角、距離和雷達橫切面(RCS)，作者將雷達資料從 2D ground plane 轉換為垂直的圖像平面，將雷達反射的訊號，作為除 RGB 三通道之外的像素值，儲存於增強的圖像中。
但 2D 雷達不提供高度訊息，增加融合數據的難度，所以作者假定雷達檢測物的 3D 座標，是由車向行駛的地面所返回的，投影在垂直於該平面的方向上延伸，誘因作者的目標檢測物為汽車、卡車、摩托車、自行車和行人，為能覆蓋這五類的檢測物，所以假設雷達檢測物的高度拓展為 3m，並將之與攝影機資料作融合。
nuScenes 數據集，FOV 70 度，而 TUM 數據集，攝影機 FOV 為 185 度的魚眼相機，nuScenes 數據集中提供相機內、外部參數，將一個點從世界座標轉換為圖像座標，但魚眼鏡頭的非線性特性，不能用線性矩陣運算來映射，所以使用 “A Toolbox for Easily Calibrating Omnidirectional Cameras” 所提出的校準方法，將世界座標映射到 TUM 圖像座標。
毫米波雷達與 "光達、攝影機" 相比，數據密度變化更大，這對數據融合到一個共享網路結構中帶來挑戰；為了處理雷達的稀疏性，“Automotive radar and camera fusion using generative adversarial networks” 使用 Probabilistic grid maps 來生成雷達的連續資訊，而作者通過融合 13 個雷達週期(約一秒)，來增加雷達的數據密度，這種方法對 Ego-motion 帶來補償，但對 Target-vechicle motion 卻不能補償，且這種方法會給 Input data 帶來更多雜訊，例如移動中的物體，前幾個時間點與現在物體的位置不一致，但這是可以容忍的，因為額外的資料帶來訊息的增易。

Fig. 2: nuScenes sample with radar projection to the image
plane for the last 13 radar cycles. Radar channels are shown
in yellow. The red color shift depicts increasing distances. Best
viewed in color.

圖 2a 顯示輸入到神經網路的範例場景，雷達通道(distance and RCS)被映射到相同位置，因此顯示相同顏色，但也返回許多與駕駛任務無關的物體(Ghost objects, Irrelevant objects and Ground detections)，這些被稱為 Clutter 或 Noise，在訓練和評估中，將圖 2a 與加上額外兩個過濾方法，也就是 Ground-truth noise filter 進行比較，在 nuScenes dataset 中，只有部分標記的物體被雷達檢測到，但應用 Annotation filter (AF) 後，每個 Ground truth 至少有一個雷達點，這是通過將 3D bounding boxes 與雷達點做關聯的結果，然後再應用 Ground-truth filter 刪除 ground-truth 3D bounding boxes 之外的所有雷達點，顯示為 2b。
但 Ground-truth noise filter 基於四個原因，過濾掉數據中相關的探測結果

nuScenes dataset 標記 GT 頻率為 2 Hz，沒有更高頻率的 GT BBox，有些目標物沒有被框出來。
雷達和攝影機的空間校準偏差
雷達和攝影機紀錄時間不同
雷達存在誤差，導致出現在 BBox 外。

網路融合架構

CRF-Net 神經網路架構是建立在 RetinaNet 上，以 VGG 為主幹，拓展該網路以處理增強圖像，網路的輸出是 2D bounding box 的座標和 Classification score，並在訓練時使用 Focal loss，另外 Baseline 的 RetinaNet 在 first convolutional layers 使用 VGG feature extractor。
一次雷達回波的訊息量，不同於單個像素的訊息量，一個物體到 ego-vechicle 的雷達點與一個單色像速作比較，更與駕駛任務相關。如果在前層網路的融合中，兩個感測器通過連接進行融合，我們應該假設不同數據在語意上是相似的，但由於不能證明這點，所以第一層網路的融合，可能不是最好的，在更深層的網路中，輸入資料被壓縮為更密集的表示形式，且理想情況下包含所有相關的輸入資訊，由於很難量化這兩種感測器所提供的訊息的抽象級別，因此設計網路時採用一種方式，使得網路能夠自行了解數據融合在哪個深度級別上，最大限度的減少整體損失。

High-level structure of CameraRadarFusionNet (CRFNet)

融合網路的主幹如圖中心分知所示，由 VGG blocks 所組成，通過 VGG blocks 來處理攝影機和雷達的資料，雷達資料通過 max-pooling 以相應的比例輸入到 VGG 網路的更深層，作為 FPN 的 C3~C5。
優化器通過調整不同層的雷達特性的權重，隱式的告訴網路，在哪個深度級別的雷達數據與影像的融合，有最大的影響。
本文提出一種新的相機與雷達多模態感測器融合訓練策略，該策略靈感來自於 Dropout，為了隨機的訓練步驟，不使用單個神經元，而是同時停用所有輸入的神經原來處理相機圖像的資料，以 0.2 的比率來完成所有的圖像訓練，作者稱這種技術為 BlackIn。
攝影機輸入數據的缺失使得網路更加依賴於雷達數據，目標是獨立於更密集的攝影機表示方法，像網路傳遞稀疏的雷達數據的資料的價值。

實驗與結果

訓練數據集: nuScenes 和 TUM。

與 Baselin(RetinaNet) 對比對:

實際效果的對比

Fig. 4: Detection comparison of the baseline network (a) and
the CRF-Net (b). The baseline network does not detect the
pedestrian on the left.

從圖上可以看出，在擋風玻璃反光的情況下，Baseline 沒有檢測到圖像左邊的行人，但 CRF-Net 檢測到了。
圖像處理效率比較上，Baseline 需要 33ms 來處理 360 x 640 圖像，CRF-Net 則為 43 ms，用於雷達投影和通道生成的數據處理總計需要 56 ms CPU time，處理 Ground-truth filter 所需時間可以忽略不計。
在 TUM dataset 中，以更高的解析度作為 Input，這導致時間增加，Baseline 需要 92ms，CRF-Net 需要 103ms，數據生成需要 333ms，在 TUM dataset 中，使用了更多的雷達數據，並且通過魚眼的投影方式進行投影，因此增加數據生成時間，但數據未做更進一步優化，僅提供目前當前狀況做為參考。

論文閱讀_A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection_SDF2019

Introduction

雷達資料前處理

網路融合架構

實驗與結果

Written by Z.H. Shen