論文閱讀_A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection_SDF2019
Introduction
- 在惡劣的天氣條件下,相機影像的品質是有限的,例如受到大霧大雨的影響,鏡頭也可能會受到雨水的遮擋,在光線稀少的地方或是夜晚,影像的雜訊也會加大,影響以影像為基礎的物件辨識深度神經網路。
- 在網路中融合相機與投射的稀疏雷達點,提出 Camera Radar Fusion Network (CRF-Net),自動學習在哪層網路進行相機和雷達點的融合最有利,並引入 BlackIn,是一種受 Dropout 所啟發的學習策略,將學習的重點放在特定感測器上。
- 在兩個數據集(TUM、nuScenes)上證明融合兩個不同型態的資料,優於僅使用圖像的網路。
雷達資料前處理
- 如何投射 2D 雷達數據到影像上?
- 如何進行相機與雷達感測器在空間上的校準?
- 如何處理 mmWave radar 回波中缺失的高度訊息?
- 如何處理雷達的稀疏性?
- 如何利用 Ground-truth filtering 的方式,來減少雷達的雜訊和 Cluster?
- 雷達感測器輸出是一個稀疏的 2D 點雲,並包括方位角、距離和雷達橫切面(RCS),作者將雷達資料從 2D ground plane 轉換為垂直的圖像平面,將雷達反射的訊號,作為除 RGB 三通道之外的像素值,儲存於增強的圖像中。
- 但 2D 雷達不提供高度訊息,增加融合數據的難度,所以作者假定雷達檢測物的 3D 座標,是由車向行駛的地面所返回的,投影在垂直於該平面的方向上延伸,誘因作者的目標檢測物為汽車、卡車、摩托車、自行車和行人,為能覆蓋這五類的檢測物,所以假設雷達檢測物的高度拓展為 3m,並將之與攝影機資料作融合。
- nuScenes 數據集,FOV 70 度,而 TUM 數據集,攝影機 FOV 為 185 度的魚眼相機,nuScenes 數據集中提供相機內、外部參數,將一個點從世界座標轉換為圖像座標,但魚眼鏡頭的非線性特性,不能用線性矩陣運算來映射,所以使用 “A Toolbox for Easily Calibrating Omnidirectional Cameras” 所提出的校準方法,將世界座標映射到 TUM 圖像座標。
- 毫米波雷達與 "光達、攝影機" 相比,數據密度變化更大,這對數據融合到一個共享網路結構中帶來挑戰;為了處理雷達的稀疏性,“Automotive radar and camera fusion using generative adversarial networks” 使用 Probabilistic grid maps 來生成雷達的連續資訊,而作者通過融合 13 個雷達週期(約一秒),來增加雷達的數據密度,這種方法對 Ego-motion 帶來補償,但對 Target-vechicle motion 卻不能補償,且這種方法會給 Input data 帶來更多雜訊,例如移動中的物體,前幾個時間點與現在物體的位置不一致,但這是可以容忍的,因為額外的資料帶來訊息的增易。
plane for the last 13 radar cycles. Radar channels are shown
in yellow. The red color shift depicts increasing distances. Best
viewed in color.
- 圖 2a 顯示輸入到神經網路的範例場景,雷達通道(distance and RCS)被映射到相同位置,因此顯示相同顏色,但也返回許多與駕駛任務無關的物體(Ghost objects, Irrelevant objects and Ground detections),這些被稱為 Clutter 或 Noise,在訓練和評估中,將圖 2a 與加上額外兩個過濾方法,也就是 Ground-truth noise filter 進行比較,在 nuScenes dataset 中,只有部分標記的物體被雷達檢測到,但應用 Annotation filter (AF) 後,每個 Ground truth 至少有一個雷達點,這是通過將 3D bounding boxes 與雷達點做關聯的結果,然後再應用 Ground-truth filter 刪除 ground-truth 3D bounding boxes 之外的所有雷達點,顯示為 2b。
- 但 Ground-truth noise filter 基於四個原因,過濾掉數據中相關的探測結果
- nuScenes dataset 標記 GT 頻率為 2 Hz,沒有更高頻率的 GT BBox,有些目標物沒有被框出來。
- 雷達和攝影機的空間校準偏差
- 雷達和攝影機紀錄時間不同
- 雷達存在誤差,導致出現在 BBox 外。
網路融合架構
- CRF-Net 神經網路架構是建立在 RetinaNet 上,以 VGG 為主幹,拓展該網路以處理增強圖像,網路的輸出是 2D bounding box 的座標和 Classification score,並在訓練時使用 Focal loss,另外 Baseline 的 RetinaNet 在 first convolutional layers 使用 VGG feature extractor。
- 一次雷達回波的訊息量,不同於單個像素的訊息量,一個物體到 ego-vechicle 的雷達點與一個單色像速作比較,更與駕駛任務相關。如果在前層網路的融合中,兩個感測器通過連接進行融合,我們應該假設不同數據在語意上是相似的,但由於不能證明這點,所以第一層網路的融合,可能不是最好的,在更深層的網路中,輸入資料被壓縮為更密集的表示形式,且理想情況下包含所有相關的輸入資訊,由於很難量化這兩種感測器所提供的訊息的抽象級別,因此設計網路時採用一種方式,使得網路能夠自行了解數據融合在哪個深度級別上,最大限度的減少整體損失。
- 融合網路的主幹如圖中心分知所示,由 VGG blocks 所組成,通過 VGG blocks 來處理攝影機和雷達的資料,雷達資料通過 max-pooling 以相應的比例輸入到 VGG 網路的更深層,作為 FPN 的 C3~C5。
- 優化器通過調整不同層的雷達特性的權重,隱式的告訴網路,在哪個深度級別的雷達數據與影像的融合,有最大的影響。
- 本文提出一種新的相機與雷達多模態感測器融合訓練策略,該策略靈感來自於 Dropout,為了隨機的訓練步驟,不使用單個神經元,而是同時停用所有輸入的神經原來處理相機圖像的資料,以 0.2 的比率來完成所有的圖像訓練,作者稱這種技術為 BlackIn。
- 攝影機輸入數據的缺失使得網路更加依賴於雷達數據,目標是獨立於更密集的攝影機表示方法,像網路傳遞稀疏的雷達數據的資料的價值。
實驗與結果
訓練數據集: nuScenes 和 TUM。
與 Baselin(RetinaNet) 對比對:
實際效果的對比
the CRF-Net (b). The baseline network does not detect the
pedestrian on the left.
- 從圖上可以看出,在擋風玻璃反光的情況下,Baseline 沒有檢測到圖像左邊的行人,但 CRF-Net 檢測到了。
- 圖像處理效率比較上,Baseline 需要 33ms 來處理 360 x 640 圖像,CRF-Net 則為 43 ms,用於雷達投影和通道生成的數據處理總計需要 56 ms CPU time,處理 Ground-truth filter 所需時間可以忽略不計。
- 在 TUM dataset 中,以更高的解析度作為 Input,這導致時間增加,Baseline 需要 92ms,CRF-Net 需要 103ms,數據生成需要 333ms,在 TUM dataset 中,使用了更多的雷達數據,並且通過魚眼的投影方式進行投影,因此增加數據生成時間,但數據未做更進一步優化,僅提供目前當前狀況做為參考。