日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

RadSegNet: 雷達攝像頭融合

2022-08-15 09:44:19·  來源:計算機視覺深度學(xué)習(xí)和自動駕駛  
 
arXiv論文“RadSegNet: A Reliable Approach to Radar Camera Fusion“,22年8月8日,來自UCSD的工作。用于自動駕駛的感知系統(tǒng)在極端天氣條件下難以表現(xiàn)出魯棒性

arXiv論文“RadSegNet: A Reliable Approach to Radar Camera Fusion“,22年8月8日,來自UCSD的工作。

圖片


用于自動駕駛的感知系統(tǒng)在極端天氣條件下難以表現(xiàn)出魯棒性,因為主要傳感器的激光雷達和攝像機等性能會下降。為了解決這個問題,攝像機-雷達融合系統(tǒng)為全天候可靠的高質(zhì)量感知提供了機會。攝像機提供豐富的語義信息,而雷達可以在所有天氣條件下克服遮擋工作。


當攝像機輸入退化時,最先進的融合方法表現(xiàn)不佳,本質(zhì)上導(dǎo)致失去全天候的可靠性。與這些方法相反,RadSegNet,用獨立信息提取的設(shè)計理念,真正實現(xiàn)在所有條件下的感知可靠性,包括遮擋和惡劣天氣。在基準Astyx數(shù)據(jù)集上開發(fā)并驗證了提出的系統(tǒng),并在RADIATE數(shù)據(jù)集上進一步驗證。與最先進的方法相比,RadSegNet在Astyx數(shù)據(jù)集,平均精度得分提高27%,在RADIATE數(shù)據(jù)集,提高41.46%。

在良好的條件下,系統(tǒng)應(yīng)能夠使用來自攝像機的豐富紋理和語義信息,以及來自雷達的所有目標的深度和大小等有用信息,而在良好天氣出現(xiàn)遮擋或遠處目標或惡劣天氣下的圖像退化而導(dǎo)致攝像機不可靠的情況下,系統(tǒng)仍應(yīng)能夠可靠地使用雷達數(shù)據(jù)。


RadSegNet,主要通過兩個設(shè)計原則來實現(xiàn)所需的功能。第一個原則是基于這樣一種認識,即對于雷達,BEV表示法比透視圖具有多個優(yōu)勢,尤其是在遮擋的情況下。因此,作為其核心,RadSegNet用雷達BEV表示進行檢測,對雷達中存在的所有信息進行編碼。接下來,注意到攝像頭中豐富的紋理和語義信息主要用于清晰地識別場景中的目標。因此,從攝像機RGB圖像中獨立提取語義特征。


然而,將從攝像機提取的語義信息傳播到雷達數(shù)據(jù)仍然是一項具有挑戰(zhàn)性的任務(wù),因為攝像機沒有深度信息。為了克服這一挑戰(zhàn),RadSegNet創(chuàng)建一種語義點網(wǎng)格(SPG,semantic-point-grid)表示,將攝像機圖像中的語義信息編碼到雷達點云中。為了將語義與雷達點相關(guān)聯(lián),SPG查找每個雷達點的攝像頭像素對應(yīng)關(guān)系,而不是將攝像頭圖像投影到雷達BEV。因此,SPG編碼從攝像機中提取信息,添加到雷達中,并在此增強的雷達表示上檢測,這樣提取所需的獨立信息。


即使在攝像機輸入不可靠的情況下,RadSegNet仍然可以用雷達數(shù)據(jù)可靠地工作。請注意,這些條件包括惡劣天氣以及晴朗天氣下的遮擋和遠距離,在這種情況下,攝像機數(shù)據(jù)可能變得不可靠。


如圖所示是攝像機輸入增加人工霧時雷達攝像機融合架構(gòu)的性能。AVOD融合作為基準方法(“Low-level sensor fusion network for 3d vehicle detection using radar range-azimuth heatmap and monocular image“. ACCV‘2020)顯著惡化,而RadSegNet方法即使在霧中也能繼續(xù)提供魯棒的結(jié)果。藍色盒是真值和紅色盒是預(yù)測結(jié)果。

圖片


如圖所示是RadSegNet一覽:利用來自SPG模塊的編碼來檢測目標,編碼由來自語義分割網(wǎng)絡(luò)的語義特征以及基于雷達點的特征和占用網(wǎng)格生成。這些編碼圖被連接并通過邊框檢測網(wǎng)絡(luò)。

圖片


雷達用與激光雷達相同的反射飛行時間(ToF)分析來生成點,但工作波長不同。雖然激光雷達用納米波長信號,由于表面散射,其分辨率非常高,但雷達用毫米波,其中反射功率分為鏡面反射和漫射散射。原始雷達數(shù)據(jù)雖然密集,但包含背景熱噪聲或多徑噪聲。


雷達數(shù)據(jù)通常也會受到恒虛警率(CFAR)濾波的影響,從而產(chǎn)生輕量稀疏的點云輸出。因此,雷達點云中的目標邊緣定義不如激光雷達點云清晰。例如,在雷達點云中,源自墻壁的點群可能具有與源自汽車的點群相似的空間擴展。直接從雷達點云中學(xué)習(xí)任何基于形狀的特征,想?yún)^(qū)分感興趣的目標(汽車、行人等)和背景目標,這種效應(yīng)使其具有挑戰(zhàn)性。


然而,與此同時,由于毫米波段傳輸?shù)囊蛩兀走_還提供了以下獨特的優(yōu)勢:a)比激光雷達提供更長的感知距離,因為波長更高的信號具有更低的自由空間功率衰減。這允許雷達波傳播更長的距離。b) 能夠看穿遮擋的車輛,因為其信號會從地面反彈,能夠感知完全遮擋的車輛。c) 全天候傳感器,因為毫米波的波長更大,能夠在霧、雪和雨等不利條件下不受影響地穿透。


用于表示輸入數(shù)據(jù)的視圖對目標檢測任務(wù)的深度學(xué)習(xí)體系結(jié)構(gòu)的性能有重大影響。研究表明,只需將數(shù)據(jù)從透視攝像機視圖轉(zhuǎn)換為3D/BEV視圖,即可獲得性能提升。


這背后的原因是,在透視圖中,存在深度的尺度多義以及遮擋造成的目標重疊。在2D透視圖圖像上進行2D卷積等局部計算,可以用同一內(nèi)核處理不同深度的目標。這使目標檢測任務(wù)更難學(xué)習(xí)。另一方面,BEV表示法能夠在不同深度清晰地分離目標,在部分和完全遮擋目標的情況下具有明顯優(yōu)勢。


BEV占用網(wǎng)格為了生成BEV表示,通過折疊高度維將雷達點投影到2-D平面上。然后將該平面離散為占用網(wǎng)格。每個網(wǎng)格元素是一個指示變量,如果它包含雷達點,則其值為1,否則表示為0。該BEV占用網(wǎng)格還保留無序點云點之間的空間關(guān)系,并以更結(jié)構(gòu)化的格式存儲雷達數(shù)據(jù)。


BEV占用網(wǎng)格為雷達提供了最佳表示,并為未排序的雷達點云提供了次序。然而,BEV網(wǎng)格也將傳感空間離散為網(wǎng)格,從而消化細化邊框所需的有用信息。為了保留這些信息,將基于點的特征作為附加通道添加到BEV網(wǎng)格中。具體來說,添加笛卡爾坐標、多普勒信息和強度信息作為附加特征。


為了對高度信息進行編碼,將高度維度(y)分為7個不同的級別,并創(chuàng)建7個通道,每個高度bin一個通道,從而生成高度直方圖。笛卡爾坐標(x,y,z)有助于細化預(yù)測的邊框。n通道包含該網(wǎng)格元素中存在的點數(shù)。n的數(shù)值通常與表面積和反射功率成比例,這有助于細化邊框。

先說攝像頭語義特征。

攝像頭圖像中豐富的紋理和語義信息對于理解場景和識別場景中的目標非常有用。這一信息與雷達很好地互補,在雷達中,點云的不均勻性使得學(xué)習(xí)識別目標特征更加困難。在惡劣條件下保持可靠性的同時,用這種互補性質(zhì)的關(guān)鍵點是,首先以場景語義的形式從攝像頭圖像中提取有用信息,然后用來增強從雷達獲得的BEV表示。


與每個目標集的特征融合相比,該方法在兩種模式的信息提取之間保持了清晰的分離,因此即使一個輸入退化,也能可靠地執(zhí)行。用魯棒的預(yù)訓(xùn)練語義分割網(wǎng)絡(luò)從場景中存在目標的攝像頭圖像中獲得語義掩碼。然而,仍然需要在不存在攝像頭圖像深度信息的情況下將該信息添加到雷達BEV表征中。


如何將語義添加到SPG呢?

將基于攝像頭的語義與雷達點相關(guān)聯(lián),需要為語義分割網(wǎng)絡(luò)的每個輸出目標類創(chuàng)建單獨圖。這些圖的大小與BEV占用網(wǎng)格相同,并做為語義特征通道。為了獲得每個網(wǎng)格元素的語義特征通道值,首先將雷達點變換為攝像機坐標。接下來,在攝像頭圖像中找到距離該變換點最近的像素,并用該像素的語義分割輸出作為SPG語義特征通道值。


如果多個雷達點屬于同一網(wǎng)格元素,則對所有生成的語義通道值進行平均。這些特征通道包含從攝像機中提取的語義信息,有助于從雷達BEV占用網(wǎng)格中檢測目標。它們有效地減少了雷達可能產(chǎn)生的誤報預(yù)測,因為由于在雷達數(shù)據(jù)中固有的不均勻性,雷達在識別目標時可能會糊涂。


如圖顯示如何用雷達BEV網(wǎng)格對汽車類的語義特征進行編碼的示例。

圖片


請注意,RadSegNet中用的攝像頭融合形式?jīng)]有過濾掉任何雷達點,同時更好地利用了兩種模式帶來的優(yōu)勢。這意味著,在基于攝像機的特征信息較少的情況下,場景中的所有目標對雷達仍然可見,從而防止性能大幅下降。來自攝像機的紋理和高分辨率信息被濃縮成語義特征,這有助于雷達的全天候、遠距離和遮擋的魯棒感知。

通過SPG編碼生成的每個BEV圖都被傳遞到深度神經(jīng)網(wǎng)絡(luò)中,用于特征提取和邊框預(yù)測。對于主干特征提取,用帶跳連接的編碼器-解碼器網(wǎng)絡(luò)。在編碼階段用4級下采樣層,每個階段用3個卷積層來提取不同尺度的特征,然后在上采樣階段通過跳連接來組合所有中間特征生成最終的特征集。用基于錨點框(SSD)的檢測架構(gòu),分類和回歸頭生成預(yù)測。分類頭預(yù)測輸出邊框的置信度得分,回歸頭學(xué)習(xí)如何細化其維度。


圖像分割網(wǎng)絡(luò)用來自DeeplabV3+實現(xiàn)提供的預(yù)訓(xùn)練語義分割模型。在Cityscapes數(shù)據(jù)集上訓(xùn)練的ResNet-101模型進行語義分割任務(wù)。選擇CenterFusion作為基線之一,一種基于透視圖的攝像頭-雷達融合方法。在這種方法中,創(chuàng)建雷達點云的特征圖,并將其與相應(yīng)的基于圖像的特征圖一起處理執(zhí)行檢測。另外一個是CenterNet,純攝像機方法。CenterNet本質(zhì)上是CenterFusion,沒有相應(yīng)的雷達數(shù)據(jù)。預(yù)訓(xùn)練的網(wǎng)絡(luò)比在Astyx數(shù)據(jù)集上從頭訓(xùn)練網(wǎng)絡(luò)表現(xiàn)更好。


基于多視圖聚合的基線方法是一個雷達R-A熱圖和攝像頭融合的方法,用AVOD架構(gòu)執(zhí)行雷達-攝像頭融合。稱為AVOD融合,這也是傳感器融合的SOTA方法。

實驗結(jié)果如下:

圖片


圖片


圖片


圖片


圖片

Astyx數(shù)據(jù)集結(jié)果


圖片


RADIATE 數(shù)據(jù)集結(jié)果


圖片

Astyx數(shù)據(jù)集結(jié)果


圖片Astyx數(shù)據(jù)集結(jié)果


圖片Astyx數(shù)據(jù)集結(jié)果


圖片Astyx數(shù)據(jù)集結(jié)果


圖片Astyx數(shù)據(jù)集結(jié)果



分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25