日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

一個處理激光雷達故障在BEV空間做傳感器融合的框架

2022-06-02 01:12:48·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
arXiv上傳于2022年5月27號的論文“BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework“,來自北大和阿里的工作(也是NeurIPS論文格式?)。融合攝

arXiv上傳于2022年5月27號的論文“BEVFusion: A Simple and Robust LiDAR-Camera Fusion framework“,來自北大和阿里的工作(也是NeurIPS論文格式?)。

圖片


融合攝像頭和激光雷達的方法,依賴于激光雷達傳感器的點云,作為查詢來利用圖像空間的特征。然而,人們發(fā)現(xiàn),這種假設(shè)條件下,當前的融合框架不可能在激光雷達出現(xiàn)故障時產(chǎn)生任何預(yù)測,無論是輕微故障還是重大故障。這從根本上限制了實際自動駕駛場景的部署能力。


本文提出一個簡單融合框架,也稱為BEVFusion,包括兩個傳感器輸入工作流,其中攝像頭流不依賴于激光雷達數(shù)據(jù)的輸入,從而解決了以前方法的缺點。在模擬各種激光雷達故障的魯棒性訓練設(shè)置下,在nuScenes數(shù)據(jù)集上,將PointPillars和CenterPoint的平均精度(mAP)分別提高18.4%和7.1%,并實現(xiàn)了69.2%的mAP,優(yōu)于68.9%的TransFusion方法,該框架mAP超過所有基準方法在15.7%-28.9%之間。


代碼:https://github.com/ADLab-AutoDrive/BEVFusion.

在傳統(tǒng)的車載視覺感知系統(tǒng)的所有傳感器中,激光雷達和攝像頭通常是兩個最關(guān)鍵的傳感器,它們可以提供周圍世界精確的點云和圖像特征。然而,由于缺乏深度信息,通常很難在純圖像輸入上回歸目標3D邊框,同樣,當激光雷達接收不到足夠的點時,也很難在點云上對目標進行分類。


最近激光雷達和攝像頭的融合深度神經(jīng)網(wǎng)絡(luò),也是3D BEV感知,大部分工作可以總結(jié)如下:i)給定激光雷達點云的一個或幾個點、激光雷達-世界的變換矩陣和基本矩陣(攝像頭-世界);ii)將激光雷達點或提議,轉(zhuǎn)換到攝像頭世界用作查詢,選擇相應(yīng)的圖像特征。


然而,如果沒有了激光雷達傳感器的輸入,例如,目標特殊紋理使得激光雷達點反射率低,內(nèi)部數(shù)據(jù)傳輸造成系統(tǒng)故障,甚至硬件的限制使激光雷達FOV無法達到360度等,當前的融合方法無法產(chǎn)生有意義的結(jié)果。


激光雷達-攝像頭融合的理想框架應(yīng)該是,無論是否存在其他模態(tài),每個單模態(tài)模型都不應(yīng)該失敗,但擁有這兩種模態(tài)將進一步提高感知精度。


如圖所示:(a) 點級融合機制,將圖像特征投影到原始激光雷達點云上;(b)特征級融合機制,將激光雷達特征或提議投影到每個視圖圖像提取RGB信息;(c) BEVFusion框架有兩個獨立的工作流,將來自攝像頭和激光雷達傳感器的原始輸入編碼為相同BEV空間的特征;然后,一個簡單的模塊融合這些BEV級特征,再傳遞到任務(wù)預(yù)測頭。

圖片


Lift Splat Shot(LSS)作為攝像頭工作流,將多視圖圖像特征投影到3D 自車坐標系生成相機BEV特征。同樣,對于激光雷達工作流,選擇三種流行模型,PointPillars, CenterPoint 和 TransFusion,將激光雷達特征編碼到BEV空間。


如圖是BEVFusion框架概覽圖:

圖片


圖像視圖編碼器由基本特征提取的2D主干和尺度可變目標表征的頸部模塊組成。與LSS不同,使用更具代表性的Dual Swin Tiny作為主干網(wǎng)絡(luò),用標準FPN獲取多尺度分辨率特征。為了更好地協(xié)調(diào)這些特征,提出特征自適應(yīng)模塊(ADP,Adaptive Module)來優(yōu)化上采樣的特征。具體來說,在級聯(lián)之前對每個上采樣特征應(yīng)用自適應(yīng)平均池化和一個1×1卷積。


視角投影模塊把圖像特征轉(zhuǎn)換為3D自車坐標,即LSS提出的3D視圖投影,用于構(gòu)建攝像頭BEV特征。其以圖像-視圖特征為輸入,以分類方式對深度進行致密預(yù)測。然后,根據(jù)攝像頭外參和預(yù)測的圖像深度,導出圖像視圖特征在預(yù)定義的點云中渲染,并獲取偽voxel。


BEV編碼器模塊進一步編碼voxel特征進入BEV空間,其采用空間到通道(S2C)操作將從4D張量轉(zhuǎn)換為3D張量,通過重定形(reshaping)保留語義信息并降低成本,而不是采用池化運算或用步長2疊加3D卷積來壓縮z維度。然后,四個3×3卷積層逐步將信道維數(shù)降低,并提取高層語義信息。與LSS中基于下采樣低分辨率特征提取高級特征不同,該編碼器直接處理全分辨率攝像頭BEV特征,可保留空間信息。


給定相同空間維度下的兩個特征,一個直觀的想法是連接起來,并用可學習的靜態(tài)權(quán)重將其融合。受Squeeze-and-Excitation機制的啟發(fā),設(shè)計一個通道注意模塊選擇重要的融合特征。如圖是提出的動態(tài)融合模塊架構(gòu):

圖片


實驗結(jié)果如下:

一般性方法比較如下表1-2所示。

圖片圖片


下面采用兩種數(shù)據(jù)增強策略:i)設(shè)置有限視野(FOV)范圍(?π/3, π/3), (?π/2,π/2),來模擬激光雷達傳感器的故障情況;ii)為了模擬目標故障,使用一種丟棄策略,其中每幀有0.5次機會丟棄目標,每個目標有0.5次機會丟棄其激光雷達點。


nuScenes數(shù)據(jù)集為激光雷達點云提供視野(FOV)范圍為(?π、 π)。為了模擬激光雷達傳感器的故障情況,采用了第一種魯棒增強策略。如下表3所示,顯然隨著激光雷達視野的變窄,檢測性能會下降。

圖片


然而,激光雷達存在損壞的情況下融合攝像頭流時,BEVFusion模型通常比僅使用激光雷達的對應(yīng)模型更加魯棒,如圖所示:(a) 在兩種設(shè)置的BEV可視化點云,即有限視野(FOV)和激光雷達無法接收目標反射點,其中橙框表示目標點被丟棄,藍框是邊框,紅圈框是誤報預(yù)測。(b) 展示Transfusion方法和三種場景情況下的預(yù)測,顯然當缺少激光雷達輸入時,當前的融合方法不可避免地會失敗,而BEVFusion框架可在攝像頭數(shù)據(jù)流恢復(fù)這些目標。

圖片


值得注意的是,PointPillars,當激光雷達FOV在(?π/2, π/2), (?π/3,π/3),mAP 增長分別是24.4% and 25.1% ;至于Transfusion-L,BEVFusion對其激光雷達流的改進幅度很大,mAP超過18.6%和NDS超過5.3%。


TransFusion 提出的普通激光雷達相機融合方法(LC)嚴重依賴激光雷達數(shù)據(jù),當NDS降低時,mAP增益限制在3.3%以下。結(jié)果表明,在訓練和推理過程中融合攝像頭流在很大程度上彌補了激光雷達傳感器的不足。


激光雷達存在無法從目標接收反射點的常見情況。例如,在雨天,一些常見目標的反射率低于激光雷達閾值,因此導致目標檢測故障的問題。為了模擬這樣的場景,采用第二種魯棒增強策略。


如表4所示,當直接評估無魯棒性增強訓練的檢測器時,BEVFusion比TransFusion僅使用激光雷達流和普通激光雷達攝像頭融合方法顯示出更高的精度。

圖片

在魯棒增強訓練集上微調(diào)檢測器時,BEVFusion將PointPillars、CenterPoint和Transmission-L的mAP分別提高了28.9%、22.7%和15.7%。具體而言,TransFusion的普通融合方法mAP增益僅為2.6%,小于微調(diào)前的性能,估計原因是缺乏前景激光雷達點導致在增強數(shù)據(jù)集上的訓練過程中出現(xiàn)錯誤監(jiān)督信號。結(jié)果表明,在訓練和推理過程中融合攝像頭流在很大程度上彌補了目標激光雷達點的不足。


進一步驗證對以下攝像頭故障的魯棒性:i)前攝像頭缺失,而其他攝像頭保留;ii)除前攝像頭外,所有攝像頭均缺失;iii)50%的攝像頭幀卡住。


如表5所示,在上述情況下,BEVFusion仍優(yōu)于僅使用攝像頭的方法和其他激光雷達-攝像頭融合方法。結(jié)果表明,BEVFusion對攝像機故障具有魯棒性。

圖片


分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25