日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

自動(dòng)駕駛中基于深度學(xué)習(xí)的雷達(dá)與視覺(jué)融合用于三維物體檢測(cè)綜述

2025-04-11 10:29:28·  來(lái)源:同濟(jì)智能汽車(chē)研究所  
 

編者按:在自動(dòng)駕駛不斷邁向高階智能的進(jìn)程中,4D雷達(dá)以其全天候感知能力日益成為關(guān)鍵傳感器。本文提出的MAFF-Net,針對(duì)4D雷達(dá)點(diǎn)云稀疏、噪聲大、幾何信息不足等難題,創(chuàng)新性地引入稀疏柱體注意力、聚類(lèi)查詢交叉注意力及柱面去噪輔助模塊,構(gòu)建多輔助特征融合網(wǎng)絡(luò),實(shí)現(xiàn)高精度、實(shí)時(shí)性的3D目標(biāo)檢測(cè)。大量實(shí)驗(yàn)證明,MAFF-Net在多個(gè)主流數(shù)據(jù)集上均超越現(xiàn)有方法,甚至優(yōu)于16線激光雷達(dá),展示出強(qiáng)大的泛化能力與應(yīng)用潛力。該成果為推動(dòng)雷達(dá)主導(dǎo)的智能感知系統(tǒng)發(fā)展提供了堅(jiān)實(shí)支撐。

本文譯自:

《MAFF-Net: Enhancing 3D Object Detection with 4D Radar via Multi-Assist Feature Fusion》

文章來(lái)源:


IEEE Robotics and Automation Letters, vol. 10, no. 5, pp. 4284-4291, May 2025.


作者:

X. Bi, C. Weng, P. Tong, B. Fan and A. Eichberge

作者單位:

同濟(jì)大學(xué)

原文鏈接:

https://ieeexplore.ieee.org/document/10923711


摘要:感知系統(tǒng)對(duì)于自動(dòng)駕駛汽車(chē)的安全運(yùn)行至關(guān)重要,尤其是在三維物體檢測(cè)方面。盡管基于激光雷達(dá)的方法會(huì)受到惡劣天氣條件的限制,但 4D 雷達(dá)具有全天候工作的潛力。然而,4D 雷達(dá)在點(diǎn)云中存在極端稀疏、噪聲大以及幾何信息有限等挑戰(zhàn)。為了解決這些問(wèn)題,我們提出了 MAFF-Net,這是一種專(zhuān)門(mén)用于僅使用單個(gè) 4D 雷達(dá)進(jìn)行三維物體檢測(cè)的新型多輔助特征融合網(wǎng)絡(luò)。我們引入了稀疏柱狀注意力(SPA)模塊,以減輕稀疏性的影響,同時(shí)確保足夠的感受野。此外,我們?cè)O(shè)計(jì)了簇查詢交叉注意力(CQCA)模塊,在交叉注意力融合過(guò)程中使用基于速度的聚類(lèi)特征作為查詢。這有助于網(wǎng)絡(luò)豐富潛在物體的特征表示,同時(shí)減少由角度分辨率和多徑效應(yīng)引起的測(cè)量誤差。此外,我們開(kāi)發(fā)了圓柱去噪輔助(CDA)模塊以減少噪聲干擾,提高三維邊界框預(yù)測(cè)的準(zhǔn)確性。在 VoD 和 TJ4DRadSet 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,MAFF-Net 達(dá)到了最先進(jìn)的性能,優(yōu)于 16 層激光雷達(dá)系統(tǒng),并且運(yùn)行速度超過(guò)每秒 17.9 幀,使其適用于自動(dòng)駕駛汽車(chē)中的實(shí)時(shí)檢測(cè)。

關(guān)鍵詞:目標(biāo)檢測(cè),自動(dòng)駕駛導(dǎo)航,4D 雷達(dá),點(diǎn)云,深度學(xué)習(xí)方法

Ⅰ 簡(jiǎn)介

目前,自動(dòng)駕駛汽車(chē)作為一種能夠提升駕駛安全性和效率的變革性交通工具已嶄露頭角[1]。為了成功避開(kāi)障礙物并預(yù)防交通事故,作為自動(dòng)駕駛感知系統(tǒng)核心模塊的三維物體檢測(cè)技術(shù)因能提供全面的場(chǎng)景理解而得到了迅速發(fā)展[2]。然而,在極端天氣條件下,涉及自動(dòng)駕駛汽車(chē)的交通事故仍在不斷增多。這些條件凸顯了3D物體檢測(cè)有效性方面持續(xù)存在的挑戰(zhàn)[3]。光學(xué)傳感器,如激光雷達(dá)和攝像頭,在惡劣天氣條件下特別容易受到影響,導(dǎo)致檢測(cè)性能顯著下降。在此背景下,利用電磁波工作的雷達(dá)在自動(dòng)駕駛汽車(chē)感知系統(tǒng)中越來(lái)越受到關(guān)注,這得益于其成本效益高、全天候可操作性強(qiáng)以及精確測(cè)速的能力。特別是隨著高分辨率4D雷達(dá)傳感器的出現(xiàn),雷達(dá)已成為在惡劣天氣條件下實(shí)現(xiàn)可靠3D物體檢測(cè)的有前景的解決方案。

4D雷達(dá)數(shù)據(jù)格式大致可分為4D張量[4]和點(diǎn)云[5]、[6]。由于點(diǎn)云格式具有緊湊的表示形式和高效的處理能力,它們已成為自動(dòng)駕駛汽車(chē)中實(shí)時(shí)3D物體檢測(cè)的首選。此外,4D雷達(dá)點(diǎn)云數(shù)據(jù)與激光雷達(dá)的相似性使得原本為激光雷達(dá)開(kāi)發(fā)的深度學(xué)習(xí)方法可以直接應(yīng)用于4D雷達(dá)[7]、[8]。然而,如圖1所示,4D雷達(dá)點(diǎn)云比激光雷達(dá)點(diǎn)云稀疏得多,在相同視場(chǎng)內(nèi),點(diǎn)的數(shù)量?jī)H為激光雷達(dá)的約1%,并且存在大量噪聲,主要是由于斑點(diǎn)噪聲和多徑反射[9]。因此,直接將基于激光雷達(dá)的3D物體檢測(cè)方法應(yīng)用于4D雷達(dá)數(shù)據(jù)通常效果不佳。盡管最近的方法,如SMURF[10]、RadarPillars[11]和MUFASA[12]提出了有前景的方法來(lái)縮小這一差距,但它們的檢測(cè)性能仍不盡如人意。

為應(yīng)對(duì)這些挑戰(zhàn),我們深入研究了4D雷達(dá)點(diǎn)云數(shù)據(jù)的特征,并提出了一種多輔助特征融合網(wǎng)絡(luò)(MAFFNet),這是一種專(zhuān)門(mén)針對(duì)4D雷達(dá)數(shù)據(jù)的3D物體檢測(cè)網(wǎng)絡(luò)。MAFF-Net旨在高效且準(zhǔn)確地檢測(cè)稀疏且有噪聲的4D雷達(dá)點(diǎn)云中的3D物體。我們的貢獻(xiàn)可總結(jié)如下:

我們提出了一種稀疏柱注意力(SPA)模塊,該模塊通過(guò)將稀疏柱與嵌入特征進(jìn)行交互來(lái)提取全局特征,在保證足夠感受野的同時(shí),保持了效率和實(shí)時(shí)性能。

我們?cè)O(shè)計(jì)了一種集群查詢交叉注意力(CQCA)模塊,該模塊利用由空間和速度信息聚類(lèi)形成的特征圖作為交叉注意力融合中的查詢,從而提高了目標(biāo)檢測(cè)性能并減輕了噪聲影響。

我們引入了一個(gè)圓柱形去噪輔助(CDA)模塊,該模塊通過(guò)結(jié)合圓柱形約束和提議的位置信息有效地聚合特征,進(jìn)一步減少了噪聲干擾。

實(shí)驗(yàn)結(jié)果表明,我們的MAFF-Net超過(guò)了現(xiàn)有的最先進(jìn)的4D雷達(dá)3D物體檢測(cè)方法,展現(xiàn)出強(qiáng)大的泛化能力,并滿足了自動(dòng)駕駛汽車(chē)的實(shí)時(shí)檢測(cè)要求。

圖片

圖1:來(lái)自代爾夫特視圖(VoD)數(shù)據(jù)集的4D雷達(dá)和激光雷達(dá)點(diǎn)云的比較[5]。第一列顯示場(chǎng)景圖像,第二列顯示激光雷達(dá)點(diǎn),第三列展示單掃描4D雷達(dá)點(diǎn)


Ⅱ 相關(guān)作品


A.基于攝像頭的三維物體檢測(cè)

在近期的研究中,基于相機(jī)的三維物體檢測(cè)得到了廣泛的研究。特別是“提升、投影、射擊”(LSS)[13]框架的引入,將多視角信息統(tǒng)一到鳥(niǎo)瞰圖(BEV)中,顯著提升了基于相機(jī)的三維物體檢測(cè)性能。此外,受DETR[14]和可變形DETR[15]的啟發(fā),基于Transformer的方法也逐漸嶄露頭角[16]。這些方法通常采用Swin Transformer [17]作為特征提取的骨干網(wǎng)絡(luò),利用注意力[18]機(jī)制實(shí)現(xiàn)有效的全局特征交互,從而提高檢測(cè)性能。特別是最近引入的RoPE-2D[19]進(jìn)一步增強(qiáng)了特征提取過(guò)程中的位置信息建模?;谶@些見(jiàn)解,我們將這些技術(shù)應(yīng)用于點(diǎn)云的BEV特征圖,以實(shí)現(xiàn)有效的全局特征交互并擴(kuò)大感受野,從而提高檢測(cè)精度。然而,由于深度估計(jì)的不確定性,基于相機(jī)圖像的三維物體檢測(cè)性能仍然有限[20]。

B.利用激光雷達(dá)的三維物體檢測(cè)

由于在深度估計(jì)方面的準(zhǔn)確性,基于激光雷達(dá)的三維物體檢測(cè)方法已在自動(dòng)駕駛汽車(chē)感知任務(wù)中得到廣泛應(yīng)用。這些方法主要可以分為三種:基于點(diǎn)的方法[21]、基于體素的方法[8]、[22]以及點(diǎn)-體素混合方法[23]?;隗w素的方法因其出色的實(shí)時(shí)性能而在工業(yè)界得到了廣泛應(yīng)用。然而,點(diǎn)-體素混合方法在精度和效率之間取得了更好的平衡,提供了一種更優(yōu)的解決方案。盡管這些方法顯著提升了基于激光雷達(dá)的三維物體檢測(cè)性能,但在惡劣天氣條件下的局限性仍然存在,這引發(fā)了人們對(duì)自動(dòng)駕駛汽車(chē)系統(tǒng)整體安全性的擔(dān)憂。

C.利用4D雷達(dá)的3D物體檢測(cè)

雷達(dá)已成為自動(dòng)駕駛汽車(chē)中不可或缺的傳感器,因其成本低、探測(cè)距離遠(yuǎn)、能測(cè)量多普勒速度以及在惡劣天氣下仍表現(xiàn)穩(wěn)健而備受重視,支持諸如分割[24]、[25]、檢測(cè),尤其是三維物體檢測(cè)等任務(wù)。四維雷達(dá)能提供更密集的點(diǎn)云和高度信息,使其作用不再僅僅是多模態(tài)三維物體檢測(cè)框架中的輔助模式。

諸如TJ4DRadSet[6]和VoD[5]等自動(dòng)駕駛汽車(chē)數(shù)據(jù)集極大地推動(dòng)了基于4D雷達(dá)的3D物體檢測(cè)的發(fā)展。這些數(shù)據(jù)集使用最初為激光雷達(dá)設(shè)計(jì)的3D物體檢測(cè)網(wǎng)絡(luò)(如SECOND[7]和PointPillars[8])設(shè)定了基準(zhǔn),證明了基于體素的方法在4D雷達(dá)上的有效性。然而,4D雷達(dá)點(diǎn)云比激光雷達(dá)點(diǎn)云更稀疏且更嘈雜,這使得準(zhǔn)確捕捉物體幾何形狀尤為困難,并導(dǎo)致檢測(cè)性能降低。為了彌補(bǔ)這一差距,研究人員正在探索各種方法來(lái)增強(qiáng)4D雷達(dá)特征。例如,SMURF[10]集成了一個(gè)核密度估計(jì)分支,通過(guò)減少測(cè)量誤差來(lái)緩解稀疏性和噪聲問(wèn)題。RadarPillars[11]利用速度特征并引入PillarAttention來(lái)處理稀疏數(shù)據(jù),從而提高檢測(cè)性能。MUFASA[12]利用GeoSPA和DEMVA來(lái)捕捉每個(gè)雷達(dá)點(diǎn)云幀內(nèi)的復(fù)雜局部和全局信息,從而提升特征提取性能。

此外,將4D雷達(dá)與其他傳感器(如攝像頭)集成對(duì)于3D物體檢測(cè)至關(guān)重要。無(wú)論是通過(guò)鳥(niǎo)瞰圖融合[20]、[26]還是多階段深度融合[27],4D雷達(dá)分支的性能直接影響融合系統(tǒng)的有效性。特別是在其他傳感器可能失效的惡劣天氣條件下,4D雷達(dá)的性能對(duì)于保持系統(tǒng)的穩(wěn)健性至關(guān)重要。需要進(jìn)一步努力從4D雷達(dá)數(shù)據(jù)中分析和提取有意義的特征,以實(shí)現(xiàn)更準(zhǔn)確的3D邊界框預(yù)測(cè)。本研究旨在開(kāi)發(fā)一種新穎的方法,優(yōu)化從稀疏4D雷達(dá)點(diǎn)云中提取特征的過(guò)程,同時(shí)最大限度地減少噪聲。


Ⅲ 所提出方法


如圖2所示,所提出的MAFF-Net架構(gòu)從單個(gè)4D雷達(dá)點(diǎn)云中預(yù)測(cè)3D邊界框。MAFF-Net由三個(gè)部分組成:主分支、輔助分支和檢測(cè)頭。在主分支中,我們對(duì)使用基于柱的方法[8]從原始點(diǎn)云生成的BEV特征應(yīng)用稀疏柱注意力(SPA),以確保全局交互和足夠的感受野。輔助分支引入了聚類(lèi)查詢交叉注意力(CQCA),利用聚類(lèi)特征輔助(CFA)生成用于交叉注意力融合(CAF)的BEV查詢,這有助于減少噪聲并識(shí)別潛在對(duì)象。我們還設(shè)計(jì)了圓柱去噪輔助(CDA),這是一種受圓柱約束啟發(fā)的采樣策略,利用提議的位置信息過(guò)濾噪聲和背景點(diǎn)。最后,融合的BEV特征與關(guān)鍵點(diǎn)位置處的聚類(lèi)點(diǎn)云特征聚合,多任務(wù)檢測(cè)頭預(yù)測(cè)3D邊界框。

圖片

圖2:所提出的用于三維物體檢測(cè)的MAFF-Net總體框架

A.稀疏柱體注意力(SPA)

由柱狀特征編碼生成的二維偽圖像(即柱狀BEV特征)的稀疏特性導(dǎo)致有效特征數(shù)量有限。盡管多級(jí)下采樣能夠改善全局信息整合以提升目標(biāo)檢測(cè)效果,但其存在丟失小目標(biāo)細(xì)節(jié)的風(fēng)險(xiǎn)。為此,提出稀疏柱狀注意力(SPA)模塊(圖3),該模塊利用柱狀特征的局部稀疏性,并融合旋轉(zhuǎn)位置編碼(RoPE)以增強(qiáng)空間感知能力。

具體而言,首先通過(guò)統(tǒng)一體素尺寸的柱狀變換,將稀疏且不規(guī)則的點(diǎn)云轉(zhuǎn)換為結(jié)構(gòu)化柱狀BEV特征。非空柱體基于幾何關(guān)系擴(kuò)展特征后,聚合為局部二維張量。為增強(qiáng)空間感知并支持?jǐn)?shù)據(jù)增強(qiáng),將RoPE嵌入BEV特征圖的二維空間域中。RoPE通過(guò)可學(xué)習(xí)的縮放因子沿通道維度編碼位置信息,其公式如下:

圖片

其中表示信道數(shù)的一半,表示信道索引,其范圍為

然后,在鳥(niǎo)瞰圖特征圖的空間域內(nèi)生成標(biāo)準(zhǔn)化的二維網(wǎng)格坐標(biāo)。我們對(duì)特征圖的每個(gè)坐標(biāo)應(yīng)用旋轉(zhuǎn)編碼,沿通道維度C將特征進(jìn)行分割分為兩部分,分別記作。由此得出的RoPE公式如下:

圖片圖片

圖3:SPA模塊的結(jié)構(gòu)

為了提高計(jì)算效率,采用一個(gè)稀疏掩碼來(lái)捕捉非空特征。這些非空特征是通過(guò)將RoPE加到柱狀BEV特征的展平結(jié)果上,再應(yīng)用稀疏掩碼獲得的。這種方法降低了提取BEV特征圖的計(jì)算復(fù)雜度,從降低到了。

隨后,應(yīng)用標(biāo)準(zhǔn)的自注意力機(jī)制來(lái)學(xué)習(xí)關(guān)鍵、查詢和值,因?yàn)樽宰⒁饬C(jī)制能夠有效地捕捉長(zhǎng)程依賴(lài)關(guān)系,從而豐富特征表示。最后,通過(guò)稀疏掩碼索引和重塑來(lái)恢復(fù)柱狀BEV特征。

B.聚類(lèi)查詢交叉注意力(CQCA)

為解決4D雷達(dá)點(diǎn)云中的噪聲和異常值問(wèn)題,我們?cè)O(shè)計(jì)了聚類(lèi)查詢交叉注意力(CQCA)模塊,如圖4所示,用于過(guò)濾干擾點(diǎn)并幫助網(wǎng)絡(luò)學(xué)習(xí)有效的物體位置。該模塊包括聚類(lèi)特征輔助(CFA)和交叉注意力融合(CAF)。

圖片

圖4:CQCA模塊的圖示說(shuō)明

在關(guān)鍵特征提取CFA中,我們首先從原始雷達(dá)點(diǎn)云中提取三個(gè)關(guān)鍵特征()用于目標(biāo)檢測(cè):,其中表示目標(biāo)的絕對(duì)徑向速度。選擇這些特征的原因在于其能夠有效聚類(lèi)目標(biāo)并去除噪聲點(diǎn)。相較于雷達(dá)散射截面積RCS的不穩(wěn)定性,在聚類(lèi)任務(wù)中更具實(shí)用性。由于雷達(dá)點(diǎn)云通常聚集在目標(biāo)周?chē)?,我們?cè)O(shè)計(jì)了一種基于增長(zhǎng)的聚類(lèi)算法GCA,其原理類(lèi)似于DBSCAN,通過(guò)鳥(niǎo)瞰圖BEV平面坐標(biāo)對(duì)點(diǎn)云進(jìn)行聚類(lèi)。GCA的核心改進(jìn)在于引入對(duì)聚類(lèi)點(diǎn)進(jìn)行過(guò)濾,因?yàn)橥痪垲?lèi)內(nèi)的點(diǎn)通常具有一致的速度。在DBSCAN中,參數(shù)Eps定義搜索半徑,MinPts指定形成聚類(lèi)所需的最小點(diǎn)數(shù),而本方法基于4D雷達(dá)的角分辨率與點(diǎn)云密度動(dòng)態(tài)調(diào)整這些參數(shù)。此外,我們抑制大型聚類(lèi)以消除建筑物或圍欄等靜態(tài)物體產(chǎn)生的冗余點(diǎn)云。

最終,GCA的輸出結(jié)合了各聚類(lèi)的點(diǎn)數(shù)、類(lèi)別標(biāo)簽及三個(gè)關(guān)鍵特征,生成新點(diǎn)云,其中五個(gè)維度分別對(duì)應(yīng)聚類(lèi)規(guī)模、類(lèi)別標(biāo)簽及特征。該表征隨后被投影至尺寸為的BEV地圖中,經(jīng)過(guò)二維卷積層Conv2D、批量歸一化BN及ReLU激活函數(shù)CBR的多級(jí)處理后,生成與柱狀BEV特征張量尺寸一致的聚類(lèi)BEV特征。上述CFA流程可通過(guò)以下公式表示:

圖片

其中Cat表示連接操作。

在交叉注意力融合(CAF)模塊中,受ICAFusion啟發(fā),通過(guò)CAF機(jī)制融合柱狀BEV特征與聚類(lèi)BEV特征。其中,聚類(lèi)BEV特征通過(guò)噪聲抑制與目標(biāo)區(qū)域增強(qiáng),生成扁平化特征向量作為注意力查詢;而柱狀BEV特征對(duì)應(yīng)的扁平化特征向量則作為關(guān)鍵與值。通過(guò)標(biāo)準(zhǔn)注意力機(jī)制,模型學(xué)習(xí)可訓(xùn)練權(quán)重(訓(xùn)練初始值設(shè)為1),引導(dǎo)網(wǎng)絡(luò)聚焦于關(guān)鍵特征區(qū)域。隨后,將融合后的特征向量重構(gòu)為BEV特征圖,并引入壓縮激勵(lì)層(SE)強(qiáng)化對(duì)融合特征的通道注意力。最終,將SE層處理后的特征圖與聚類(lèi)BEV特征拼接(Cat),經(jīng)CBR模塊處理得到融合BEV特征。該過(guò)程可形式化表示為下述方程:

圖片

其中是中間計(jì)算向量。

最后,在對(duì)融合的BEV特征進(jìn)行處理后,采用二維骨干網(wǎng)絡(luò)和區(qū)域建議網(wǎng)絡(luò)(RPN)生成三維建議。具體來(lái)說(shuō),與PointPillars中使用的RPN類(lèi)似,利用多尺度特征融合模塊和2D檢測(cè)頭來(lái)生成高質(zhì)量的3D建議。

C.柱面去噪輔助(CDA)

考慮到交通場(chǎng)景的多樣性,將整個(gè)場(chǎng)景采樣為關(guān)鍵點(diǎn)以優(yōu)化融合后的鳥(niǎo)瞰圖特征。然而,由于斑點(diǎn)和多徑反射,4D雷達(dá)檢測(cè)到許多噪聲點(diǎn),這些點(diǎn)對(duì)于特征表示和目標(biāo)檢測(cè)幾乎沒(méi)有實(shí)際意義。因此,提出一種圓柱形去噪輔助(CDA)模塊,它在采樣空間施加圓柱形約束,從而在3D物體周?chē)申P(guān)鍵點(diǎn),有效提升了特征表示的質(zhì)量。

在CDA模塊中,我們輸入聚類(lèi)點(diǎn)云的3D坐標(biāo)以及3D體義,其中表示3D中心坐標(biāo),而、分別代表3D體義的長(zhǎng)度、寬度和高度。接下來(lái),如圖5(a)所示,我們將坐標(biāo)轉(zhuǎn)換到每個(gè)3D提議的中心,并使用圓柱體擬合3D物體的空間,具體如下:

圖片

其中分別表示圓柱體的半徑和高度,而表示提議的最大擴(kuò)展比例的超數(shù)。

由于圓柱形的三維空間區(qū)域包含了三維提議,因此我們可以直接從聚類(lèi)點(diǎn)云中選擇圓柱體內(nèi)的所有點(diǎn)作為關(guān)鍵點(diǎn),使用如下簡(jiǎn)單的條件公式:

圖片

其中,。如圖5(b)所示,我們利用圓柱體從聚類(lèi)后的點(diǎn)云中獲取了一定數(shù)量的去噪關(guān)鍵點(diǎn)。然而,為了實(shí)現(xiàn)滿足固定總數(shù)的均勻采樣,我們從原始點(diǎn)中采樣剩余的個(gè)關(guān)鍵點(diǎn)。剩余的關(guān)鍵點(diǎn)通過(guò)最遠(yuǎn)點(diǎn)采樣算法進(jìn)行采樣。在圖5(c)中,我們展示了球形去噪輔助(SDA)的范圍更大,但可能包含不相關(guān)的點(diǎn),這可能會(huì)妨礙有效的去噪。消融研究證實(shí)了這一點(diǎn),突顯了該方法的優(yōu)越性。

通過(guò)排除噪聲點(diǎn),CDA策略能獲取更多屬于3D物體的關(guān)鍵點(diǎn)。通過(guò)點(diǎn)柱集抽象,在關(guān)鍵點(diǎn)位置聚合來(lái)自聚類(lèi)點(diǎn)云和融合的BEV特征的信息,然后沿通道維度連接這些特征以生成柱點(diǎn)特征。這種特征結(jié)合了基于體素和基于點(diǎn)的方法的優(yōu)勢(shì),能夠?qū)崿F(xiàn)高質(zhì)量的3D物體檢測(cè)。最后,我們將基于RPN的3D提議與通過(guò)RoI網(wǎng)格池化操作獲得的柱點(diǎn)特征一起輸入到檢測(cè)頭中。

圖片

圖5:不同去噪策略下的關(guān)鍵點(diǎn)采樣示意圖:(a)去噪前的關(guān)鍵點(diǎn);(b)CDA去噪后關(guān)鍵點(diǎn);(c)SDA去噪后關(guān)鍵點(diǎn)

D.檢測(cè)頭

在CDA模塊之后,采用ROIHead來(lái)進(jìn)行精確的3D邊界框預(yù)測(cè)。這些預(yù)測(cè)包括諸如方向角、三維尺寸(寬度、長(zhǎng)度和高度)、中心點(diǎn)以及置信度得分等關(guān)鍵要素。MAFF-Net旨在基于這些預(yù)測(cè)的3D邊界框生成分類(lèi)得分。檢測(cè)頭由兩個(gè)主要部分組成:分類(lèi)損失  和回歸損失  。為了平衡網(wǎng)絡(luò)內(nèi)正負(fù)樣本的分布,我們?cè)跈z測(cè)器的損失計(jì)算中應(yīng)用了焦點(diǎn)損失的一種變體?;貧w損失  則通過(guò)平滑  損失來(lái)計(jì)算。最后,我們MAFF-Net的整體損失函數(shù)可以定義為:

圖片


Ⅳ 實(shí)驗(yàn)與分析


A.數(shù)據(jù)集和評(píng)估指標(biāo)

我們使用流行的VoD[5]和TJ4DRadSet[6]數(shù)據(jù)集評(píng)估了我們方法的性能,這兩個(gè)數(shù)據(jù)集均提供點(diǎn)云格式的4D雷達(dá)數(shù)據(jù)。

VoD[5]數(shù)據(jù)集提供了三種類(lèi)型的4D雷達(dá)點(diǎn)云:?jiǎn)螔呙?、三掃描和五掃描。我們使用五掃描?shù)據(jù)來(lái)檢測(cè)三類(lèi)對(duì)象:汽車(chē)、行人和騎自行車(chē)的人。按照VoD評(píng)估腳本,我們分析了整個(gè)標(biāo)注區(qū)域和駕駛走廊。整個(gè)標(biāo)注區(qū)域涵蓋了相機(jī)視場(chǎng)內(nèi)50米范圍內(nèi)所有標(biāo)注的對(duì)象,而駕駛走廊僅關(guān)注與車(chē)輛行駛路徑相關(guān)的目標(biāo)。評(píng)估指標(biāo)包括每類(lèi)對(duì)象的3D平均精度()、平均3DAP()和平均BEVAP()。交并比(IoU)閾值分別為:汽車(chē)0.5,行人和騎自行車(chē)的人0.25。

TJ4DRadSet[6]數(shù)據(jù)集為開(kāi)放高速公路場(chǎng)景中較遠(yuǎn)距離的物體提供了3D邊界框標(biāo)注。其評(píng)估指標(biāo)與VoD數(shù)據(jù)集類(lèi)似,但允許根據(jù)傳感器距離指定評(píng)估區(qū)域。我們重點(diǎn)關(guān)注雷達(dá)70米范圍內(nèi)的物體,對(duì)于汽車(chē)和卡車(chē),交并比(IoU)閾值設(shè)為0.5,對(duì)于行人和騎自行車(chē)者設(shè)為0.25。

B.實(shí)驗(yàn)設(shè)置

我們使用基于PyTorch的開(kāi)源3D檢測(cè)工具箱OpenPCDet[37]構(gòu)建了我們的MAFF-Net模型。

超參數(shù)設(shè)置:對(duì)于VoD數(shù)據(jù)集,4D雷達(dá)點(diǎn)云的范圍為[0,51.2]米、[-25.6,25.6]米和[-3,2]米,而TJ4DRadSet數(shù)據(jù)集的范圍為[0,69.12]米、[-39.68,39.68]米和[-4,2]米。在這兩個(gè)數(shù)據(jù)集中,每個(gè)柱體覆蓋0.16平方米,每個(gè)柱體最多支持16個(gè)點(diǎn)。

在我們的MAFF-Net模型中,所有模塊的C和E均設(shè)為64。對(duì)于CDA,VoD數(shù)據(jù)集的最大擴(kuò)展半徑為2米,TJ4DRadSet數(shù)據(jù)集為2.5米。在CQCA中,Eps和MinPts根據(jù)雷達(dá)性能進(jìn)行調(diào)整。對(duì)于VoD數(shù)據(jù)集,Eps為0.4米,MinPts為10個(gè)點(diǎn);而對(duì)于TJ4DRadSet數(shù)據(jù)集,Eps為2米,MinPts為4個(gè)點(diǎn)。BEV特征圖的分辨率由4D雷達(dá)點(diǎn)云的稀疏特性決定,以平衡物體大小和精度。對(duì)于VoD數(shù)據(jù)集,其設(shè)置為320×320,而對(duì)于TJ4DRadSet數(shù)據(jù)集,則為496×432。

此外,在CQCA中由RPN生成的3D提議中,我們以正負(fù)提議1:1的比例隨機(jī)抽取了128個(gè)提議。在CDA中,采樣的關(guān)鍵點(diǎn)總數(shù)設(shè)為1024。

訓(xùn)練詳情:我們?cè)谝慌_(tái)配備Intel Corei9-13900K處理器、64GB內(nèi)存和NVIDIA RTX4090 24GB顯卡的Ubuntu22.04服務(wù)器上使用PyTorch1.10.1框架實(shí)現(xiàn)了該模型。訓(xùn)練過(guò)程歷經(jīng)60個(gè)周期,批量大小為4,采用Adam優(yōu)化器,學(xué)習(xí)率為0.01,并使用余弦退火學(xué)習(xí)率衰減策略。推理速度的測(cè)量是在批量大小為1、單個(gè)NVIDIA RTX 4090 顯卡以及FP16精度下進(jìn)行的。

我們采用了數(shù)據(jù)增強(qiáng)方法,包括隨機(jī)軸翻轉(zhuǎn)(50%的概率)、全局縮放(0.95至1.05)以及隨機(jī)軸旋轉(zhuǎn)(±0.7854π弧度)。

C.與最新技術(shù)水平的比較

視頻點(diǎn)播結(jié)果。在表1中,我們?cè)谝曨l點(diǎn)播驗(yàn)證集上將MAFF-Net與現(xiàn)有方法進(jìn)行了比較。MAFF-Net超過(guò)了當(dāng)前的最先進(jìn)方法,確立了新的基準(zhǔn)。MAFF-Net在整個(gè)標(biāo)注區(qū)域的指標(biāo)分別提高了3.62%和1.60%。在駕駛走廊中,這些指標(biāo)的提升分別為2.00%和1.93%。值得注意的是,MAFF-Net在檢測(cè)行人等小物體方面表現(xiàn)出色,平均精度(AP)至少提高了4.64%。這些結(jié)果表明MAFFNet能夠從稀疏點(diǎn)云中提取物體特征并提高檢測(cè)精度。此外,結(jié)果還表明PV-RCNN(V)優(yōu)于PV-RCNN(PP),這表明基于Pillar的骨干網(wǎng)絡(luò)比基于Voxel的骨干網(wǎng)絡(luò)在從4D雷達(dá)點(diǎn)云中提取特征方面更有效。為了進(jìn)一步說(shuō)明MAFF-Net的突破性性能及其對(duì)自動(dòng)駕駛的潛在意義,我們將其與基于LiDAR的3D物體檢測(cè)方法進(jìn)行了比較。如表3所示,我們采用PointPillars作為L(zhǎng)iDAR方法的基準(zhǔn),因?yàn)樗鼧?gòu)成了我們方法的基礎(chǔ)。在實(shí)驗(yàn)中,我們對(duì)來(lái)自VoD數(shù)據(jù)集的64層LiDAR數(shù)據(jù)進(jìn)行了下采樣。

表1:在VoD[5]驗(yàn)證集上與最先進(jìn)的方法的比較

圖片

PV-RCNN(V)和PV-RCNN(PP)分別使用SECOND[7]和PointPillars[8]作為骨干網(wǎng)絡(luò)。?符號(hào)表示基線模型,而?表示從參考來(lái)源得出的推理速度。最佳值以粗體顯示。

表2:在TJ4DRadSet[6]測(cè)試集上與最先進(jìn)的方法進(jìn)行的比較

圖片

PV-RCNN(V)和PV-RCNN(PP)分別使用SECOND[7]和PointPillars[8]作為骨干網(wǎng)絡(luò)。?符號(hào)表示基線模型,而?表示從參考來(lái)源得出的推理速度。最佳值以粗體顯示。

表3:4D雷達(dá)與LiDAR在VoD[5]驗(yàn)證集上的結(jié)果對(duì)比

圖片

表示模態(tài),表示激光雷達(dá),表示4D雷達(dá),Spe表示規(guī)格。輸入點(diǎn)數(shù)指的是在相同視場(chǎng)內(nèi)從激光雷達(dá)和4D雷達(dá)輸入到模型中的點(diǎn)的數(shù)量。

將其分別縮減為32層、16層和8層版本進(jìn)行評(píng)估。結(jié)果表明,即使輸入點(diǎn)更少,MAFF-Net仍能使4D雷達(dá)在檢測(cè)精度上優(yōu)于16層激光雷達(dá)。因此,隨著4D雷達(dá)技術(shù)的進(jìn)步,它有可能成為自動(dòng)駕駛汽車(chē)中3D物體檢測(cè)的主要傳感器。

TJ4DRadSet結(jié)果:為了進(jìn)一步驗(yàn)證MAFF-Net的有效性和泛化能力,我們?cè)赥J4DRadSet數(shù)據(jù)集上訓(xùn)練了該模型,測(cè)試集上的結(jié)果見(jiàn)表2。實(shí)驗(yàn)結(jié)果表明,MAFF-Net的比最先進(jìn)的方法高出2.39%。對(duì)于,MAFFNet達(dá)到41.59%,創(chuàng)造了新的最先進(jìn)性能。

最后,為了評(píng)估MAFF-Net在自動(dòng)駕駛中實(shí)時(shí)目標(biāo)檢測(cè)的潛力,我們?cè)赩oD和TJ4DRadSet數(shù)據(jù)集上對(duì)其推理速度進(jìn)行了評(píng)估。結(jié)果表明,MAFF-Net實(shí)現(xiàn)了最低17.9幀每秒(FPS)的推理速度,超過(guò)了4D雷達(dá)數(shù)據(jù)采集率(約15FPS)。此外,由于10FPS的幀率通常足以滿足實(shí)時(shí)應(yīng)用的需求[36],這些結(jié)果證實(shí)了MAFF-Net滿足實(shí)時(shí)目標(biāo)檢測(cè)的要求。

D.消融研究

為了驗(yàn)證MAFF-Net中每個(gè)模塊的有效性,我們?cè)赩oD驗(yàn)證集和TJ4DRadSet測(cè)試集上進(jìn)行了消融實(shí)驗(yàn),專(zhuān)門(mén)分析了SPA、CQCA和CDA模塊的貢獻(xiàn)。

MAFF-Net在PV-RCNN[23]的基礎(chǔ)上,通過(guò)整合第二部分所述的幾個(gè)關(guān)鍵模塊得以構(gòu)建。以PV-RCNN(PP)作為基準(zhǔn)模型,表4顯示,每個(gè)模塊都顯著提升了整個(gè)標(biāo)注區(qū)域和駕駛走廊的網(wǎng)絡(luò)性能,尤其是在指標(biāo)上,各類(lèi)別的表現(xiàn)均有提升。值得注意的是,SPA和CQCA模塊極大地提高了對(duì)行人和騎車(chē)人等小物體的檢測(cè)能力。這些結(jié)果表明,SPA和CQCA模塊能夠有效地抑制噪聲,并從稀疏點(diǎn)云中提取關(guān)鍵特征。將PV-RCNN中的最遠(yuǎn)點(diǎn)采樣模塊替換為所提出的CDA模塊,可進(jìn)一步提升性能,這表明CDA在抑制噪聲和從4D雷達(dá)點(diǎn)云中選擇關(guān)鍵點(diǎn)方面具有更出色的能力,從而提高了3D邊界框預(yù)測(cè)的準(zhǔn)確性。此外,對(duì)這三個(gè)模塊的不同組合進(jìn)行分析,發(fā)現(xiàn)它們之間存在協(xié)同作用,從而實(shí)現(xiàn)了整體性能的平衡和提升。

表4:在VoD[5]驗(yàn)證集和TJ4DRadSet[6]測(cè)試集上進(jìn)行的消融研究,以PV-RCNN(PP)[23]作為基線

圖片圖片

圖6:在VoD驗(yàn)證集(第一行)和TJ4DRadSet測(cè)試集(第二行)上的可視化結(jié)果。每行展示一個(gè)數(shù)據(jù)幀,包含圖像和雷達(dá)點(diǎn)(灰色點(diǎn)),彩色軸表示自動(dòng)駕駛車(chē)輛的位置。綠色框表示真實(shí)值,紅色框表示預(yù)測(cè)值。(a)顯示圖像;(b)展示PointPillars結(jié)果;(c)展示PV-RCNN(PP)基線結(jié)果;(d)展示在基線基礎(chǔ)上添加SPA模塊的結(jié)果;(e)展示在基線基礎(chǔ)上添加CQCA模塊的結(jié)果;(f)展示MAFF-Net(我們的方法)的結(jié)果

表5:以PointPillars[8]為基準(zhǔn)在VoD[5]驗(yàn)證集上的消融研究

圖片

表6:在VoD[5]驗(yàn)證集上進(jìn)行的去噪策略實(shí)驗(yàn),以PV-RCNN(PP)[23]作為基準(zhǔn)

圖片

為了進(jìn)一步驗(yàn)證SPA和CQCA模塊的有效性,我們以Point-Pillars[8]為基準(zhǔn)進(jìn)行了消融實(shí)驗(yàn)。表5表明,這兩個(gè)模塊均提升了檢測(cè)性能,這與PV-RCNN(PP)實(shí)驗(yàn)的結(jié)果一致。

為了評(píng)估圓柱形關(guān)鍵點(diǎn)采樣相對(duì)于球形關(guān)鍵點(diǎn)采樣在4D雷達(dá)數(shù)據(jù)中的優(yōu)勢(shì),我們對(duì)CDA和SDA方法進(jìn)行了比較。如表6所示,CDA在整體性能上優(yōu)于SDA。

圖6展示了MAFF-Net在VoD和TJ4DRadSet數(shù)據(jù)集上的可視化示例結(jié)果定性結(jié)果表明,MAFF-Net在各種場(chǎng)景下對(duì)物體的3D邊界框預(yù)測(cè)精度上優(yōu)于PointPillars和PV-RCNN(PP)。具體而言,SPA模塊通過(guò)全局特征交互增強(qiáng)了對(duì)被遮擋物體的檢測(cè),而CQCA模塊則提高了物體定位精度并減少了誤報(bào)。

總體而言,實(shí)驗(yàn)結(jié)果證實(shí)了MAFF-Net中每個(gè)模塊的有效性,并突顯了噪聲抑制、全局特征提取以及關(guān)鍵點(diǎn)選擇對(duì)于基于4D雷達(dá)點(diǎn)云的3D物體檢測(cè)的重要性。


Ⅴ 結(jié)論

在這項(xiàng)工作中,我們提出了MAFF-Net,這是一種新穎的基于4D雷達(dá)的3D物體檢測(cè)器,旨在應(yīng)對(duì)稀疏、嘈雜且語(yǔ)義有限的雷達(dá)點(diǎn)云所帶來(lái)的挑戰(zhàn)。MAFF-Net通過(guò)利用空間和幾何約束有效地抑制噪聲并提取有意義的特征。在VoD和TJ4DRadSet數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MAFFNet達(dá)到了最先進(jìn)的性能,超過(guò)了16層的激光雷達(dá)方法,同時(shí)保持了實(shí)時(shí)推理速度。未來(lái)的研究將整合相機(jī)圖像數(shù)據(jù)以增強(qiáng)雷達(dá)特征,從而實(shí)現(xiàn)更準(zhǔn)確和高效的3D物體檢測(cè)。


參考文獻(xiàn)


圖片圖片
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25