自動(dòng)駕駛中基于深度學(xué)習(xí)的雷達(dá)與視覺(jué)融合用于三維物體檢測(cè)綜述

2025-04-11 10:29:28· 來(lái)源：同濟(jì)智能汽車(chē)研究所

編者按：在自動(dòng)駕駛不斷邁向高階智能的進(jìn)程中，4D雷達(dá)以其全天候感知能力日益成為關(guān)鍵傳感器。本文提出的MAFF-Net，針對(duì)4D雷達(dá)點(diǎn)云稀疏、噪聲大、幾何信息不足等難題，創(chuàng)新性地引入稀疏柱體注意力、聚類(lèi)查詢交叉注意力及柱面去噪輔助模塊，構(gòu)建多輔助特征融合網(wǎng)絡(luò)，實(shí)現(xiàn)高精度、實(shí)時(shí)性的3D目標(biāo)檢測(cè)。大量實(shí)驗(yàn)證明，MAFF-Net在多個(gè)主流數(shù)據(jù)集上均超越現(xiàn)有方法，甚至優(yōu)于16線激光雷達(dá)，展示出強(qiáng)大的泛化能力與應(yīng)用潛力。該成果為推動(dòng)雷達(dá)主導(dǎo)的智能感知系統(tǒng)發(fā)展提供了堅(jiān)實(shí)支撐。

本文譯自：

《MAFF-Net: Enhancing 3D Object Detection with 4D Radar via Multi-Assist Feature Fusion》

文章來(lái)源：

IEEE Robotics and Automation Letters, vol. 10, no. 5, pp. 4284-4291, May 2025.

作者：

X. Bi, C. Weng, P. Tong, B. Fan and A. Eichberge

作者單位：

同濟(jì)大學(xué)

原文鏈接：

https://ieeexplore.ieee.org/document/10923711

摘要：感知系統(tǒng)對(duì)于自動(dòng)駕駛汽車(chē)的安全運(yùn)行至關(guān)重要，尤其是在三維物體檢測(cè)方面。盡管基于激光雷達(dá)的方法會(huì)受到惡劣天氣條件的限制，但 4D 雷達(dá)具有全天候工作的潛力。然而，4D 雷達(dá)在點(diǎn)云中存在極端稀疏、噪聲大以及幾何信息有限等挑戰(zhàn)。為了解決這些問(wèn)題，我們提出了 MAFF-Net，這是一種專(zhuān)門(mén)用于僅使用單個(gè) 4D 雷達(dá)進(jìn)行三維物體檢測(cè)的新型多輔助特征融合網(wǎng)絡(luò)。我們引入了稀疏柱狀注意力（SPA）模塊，以減輕稀疏性的影響，同時(shí)確保足夠的感受野。此外，我們?cè)O(shè)計(jì)了簇查詢交叉注意力（CQCA）模塊，在交叉注意力融合過(guò)程中使用基于速度的聚類(lèi)特征作為查詢。這有助于網(wǎng)絡(luò)豐富潛在物體的特征表示，同時(shí)減少由角度分辨率和多徑效應(yīng)引起的測(cè)量誤差。此外，我們開(kāi)發(fā)了圓柱去噪輔助（CDA）模塊以減少噪聲干擾，提高三維邊界框預(yù)測(cè)的準(zhǔn)確性。在 VoD 和 TJ4DRadSet 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明，MAFF-Net 達(dá)到了最先進(jìn)的性能，優(yōu)于 16 層激光雷達(dá)系統(tǒng)，并且運(yùn)行速度超過(guò)每秒 17.9 幀，使其適用于自動(dòng)駕駛汽車(chē)中的實(shí)時(shí)檢測(cè)。

關(guān)鍵詞：目標(biāo)檢測(cè)，自動(dòng)駕駛導(dǎo)航，4D 雷達(dá)，點(diǎn)云，深度學(xué)習(xí)方法

Ⅰ 簡(jiǎn)介

目前，自動(dòng)駕駛汽車(chē)作為一種能夠提升駕駛安全性和效率的變革性交通工具已嶄露頭角[1]。為了成功避開(kāi)障礙物并預(yù)防交通事故，作為自動(dòng)駕駛感知系統(tǒng)核心模塊的三維物體檢測(cè)技術(shù)因能提供全面的場(chǎng)景理解而得到了迅速發(fā)展[2]。然而，在極端天氣條件下，涉及自動(dòng)駕駛汽車(chē)的交通事故仍在不斷增多。這些條件凸顯了3D物體檢測(cè)有效性方面持續(xù)存在的挑戰(zhàn)[3]。光學(xué)傳感器，如激光雷達(dá)和攝像頭，在惡劣天氣條件下特別容易受到影響，導(dǎo)致檢測(cè)性能顯著下降。在此背景下，利用電磁波工作的雷達(dá)在自動(dòng)駕駛汽車(chē)感知系統(tǒng)中越來(lái)越受到關(guān)注，這得益于其成本效益高、全天候可操作性強(qiáng)以及精確測(cè)速的能力。特別是隨著高分辨率4D雷達(dá)傳感器的出現(xiàn)，雷達(dá)已成為在惡劣天氣條件下實(shí)現(xiàn)可靠3D物體檢測(cè)的有前景的解決方案。

4D雷達(dá)數(shù)據(jù)格式大致可分為4D張量[4]和點(diǎn)云[5]、[6]。由于點(diǎn)云格式具有緊湊的表示形式和高效的處理能力，它們已成為自動(dòng)駕駛汽車(chē)中實(shí)時(shí)3D物體檢測(cè)的首選。此外，4D雷達(dá)點(diǎn)云數(shù)據(jù)與激光雷達(dá)的相似性使得原本為激光雷達(dá)開(kāi)發(fā)的深度學(xué)習(xí)方法可以直接應(yīng)用于4D雷達(dá)[7]、[8]。然而，如圖1所示，4D雷達(dá)點(diǎn)云比激光雷達(dá)點(diǎn)云稀疏得多，在相同視場(chǎng)內(nèi)，點(diǎn)的數(shù)量?jī)H為激光雷達(dá)的約1%，并且存在大量噪聲，主要是由于斑點(diǎn)噪聲和多徑反射[9]。因此，直接將基于激光雷達(dá)的3D物體檢測(cè)方法應(yīng)用于4D雷達(dá)數(shù)據(jù)通常效果不佳。盡管最近的方法，如SMURF[10]、RadarPillars[11]和MUFASA[12]提出了有前景的方法來(lái)縮小這一差距，但它們的檢測(cè)性能仍不盡如人意。

為應(yīng)對(duì)這些挑戰(zhàn)，我們深入研究了4D雷達(dá)點(diǎn)云數(shù)據(jù)的特征，并提出了一種多輔助特征融合網(wǎng)絡(luò)（MAFFNet），這是一種專(zhuān)門(mén)針對(duì)4D雷達(dá)數(shù)據(jù)的3D物體檢測(cè)網(wǎng)絡(luò)。MAFF-Net旨在高效且準(zhǔn)確地檢測(cè)稀疏且有噪聲的4D雷達(dá)點(diǎn)云中的3D物體。我們的貢獻(xiàn)可總結(jié)如下：

我們提出了一種稀疏柱注意力（SPA）模塊，該模塊通過(guò)將稀疏柱與嵌入特征進(jìn)行交互來(lái)提取全局特征，在保證足夠感受野的同時(shí)，保持了效率和實(shí)時(shí)性能。

我們?cè)O(shè)計(jì)了一種集群查詢交叉注意力（CQCA）模塊，該模塊利用由空間和速度信息聚類(lèi)形成的特征圖作為交叉注意力融合中的查詢，從而提高了目標(biāo)檢測(cè)性能并減輕了噪聲影響。

我們引入了一個(gè)圓柱形去噪輔助（CDA）模塊，該模塊通過(guò)結(jié)合圓柱形約束和提議的位置信息有效地聚合特征，進(jìn)一步減少了噪聲干擾。

實(shí)驗(yàn)結(jié)果表明，我們的MAFF-Net超過(guò)了現(xiàn)有的最先進(jìn)的4D雷達(dá)3D物體檢測(cè)方法，展現(xiàn)出強(qiáng)大的泛化能力，并滿足了自動(dòng)駕駛汽車(chē)的實(shí)時(shí)檢測(cè)要求。

圖1：來(lái)自代爾夫特視圖（VoD）數(shù)據(jù)集的4D雷達(dá)和激光雷達(dá)點(diǎn)云的比較[5]。第一列顯示場(chǎng)景圖像，第二列顯示激光雷達(dá)點(diǎn)，第三列展示單掃描4D雷達(dá)點(diǎn)

Ⅱ 相關(guān)作品

A.基于攝像頭的三維物體檢測(cè)

在近期的研究中，基于相機(jī)的三維物體檢測(cè)得到了廣泛的研究。特別是“提升、投影、射擊”（LSS）[13]框架的引入，將多視角信息統(tǒng)一到鳥(niǎo)瞰圖（BEV）中，顯著提升了基于相機(jī)的三維物體檢測(cè)性能。此外，受DETR[14]和可變形DETR[15]的啟發(fā)，基于Transformer的方法也逐漸嶄露頭角[16]。這些方法通常采用Swin Transformer [17]作為特征提取的骨干網(wǎng)絡(luò)，利用注意力[18]機(jī)制實(shí)現(xiàn)有效的全局特征交互，從而提高檢測(cè)性能。特別是最近引入的RoPE-2D[19]進(jìn)一步增強(qiáng)了特征提取過(guò)程中的位置信息建模?；谶@些見(jiàn)解，我們將這些技術(shù)應(yīng)用于點(diǎn)云的BEV特征圖，以實(shí)現(xiàn)有效的全局特征交互并擴(kuò)大感受野，從而提高檢測(cè)精度。然而，由于深度估計(jì)的不確定性，基于相機(jī)圖像的三維物體檢測(cè)性能仍然有限[20]。

B.利用激光雷達(dá)的三維物體檢測(cè)

由于在深度估計(jì)方面的準(zhǔn)確性，基于激光雷達(dá)的三維物體檢測(cè)方法已在自動(dòng)駕駛汽車(chē)感知任務(wù)中得到廣泛應(yīng)用。這些方法主要可以分為三種：基于點(diǎn)的方法[21]、基于體素的方法[8]、[22]以及點(diǎn)-體素混合方法[23]?；隗w素的方法因其出色的實(shí)時(shí)性能而在工業(yè)界得到了廣泛應(yīng)用。然而，點(diǎn)-體素混合方法在精度和效率之間取得了更好的平衡，提供了一種更優(yōu)的解決方案。盡管這些方法顯著提升了基于激光雷達(dá)的三維物體檢測(cè)性能，但在惡劣天氣條件下的局限性仍然存在，這引發(fā)了人們對(duì)自動(dòng)駕駛汽車(chē)系統(tǒng)整體安全性的擔(dān)憂。

C.利用4D雷達(dá)的3D物體檢測(cè)

雷達(dá)已成為自動(dòng)駕駛汽車(chē)中不可或缺的傳感器，因其成本低、探測(cè)距離遠(yuǎn)、能測(cè)量多普勒速度以及在惡劣天氣下仍表現(xiàn)穩(wěn)健而備受重視，支持諸如分割[24]、[25]、檢測(cè)，尤其是三維物體檢測(cè)等任務(wù)。四維雷達(dá)能提供更密集的點(diǎn)云和高度信息，使其作用不再僅僅是多模態(tài)三維物體檢測(cè)框架中的輔助模式。

諸如TJ4DRadSet[6]和VoD[5]等自動(dòng)駕駛汽車(chē)數(shù)據(jù)集極大地推動(dòng)了基于4D雷達(dá)的3D物體檢測(cè)的發(fā)展。這些數(shù)據(jù)集使用最初為激光雷達(dá)設(shè)計(jì)的3D物體檢測(cè)網(wǎng)絡(luò)（如SECOND[7]和PointPillars[8]）設(shè)定了基準(zhǔn)，證明了基于體素的方法在4D雷達(dá)上的有效性。然而，4D雷達(dá)點(diǎn)云比激光雷達(dá)點(diǎn)云更稀疏且更嘈雜，這使得準(zhǔn)確捕捉物體幾何形狀尤為困難，并導(dǎo)致檢測(cè)性能降低。為了彌補(bǔ)這一差距，研究人員正在探索各種方法來(lái)增強(qiáng)4D雷達(dá)特征。例如，SMURF[10]集成了一個(gè)核密度估計(jì)分支，通過(guò)減少測(cè)量誤差來(lái)緩解稀疏性和噪聲問(wèn)題。RadarPillars[11]利用速度特征并引入PillarAttention來(lái)處理稀疏數(shù)據(jù)，從而提高檢測(cè)性能。MUFASA[12]利用GeoSPA和DEMVA來(lái)捕捉每個(gè)雷達(dá)點(diǎn)云幀內(nèi)的復(fù)雜局部和全局信息，從而提升特征提取性能。

此外，將4D雷達(dá)與其他傳感器（如攝像頭）集成對(duì)于3D物體檢測(cè)至關(guān)重要。無(wú)論是通過(guò)鳥(niǎo)瞰圖融合[20]、[26]還是多階段深度融合[27]，4D雷達(dá)分支的性能直接影響融合系統(tǒng)的有效性。特別是在其他傳感器可能失效的惡劣天氣條件下，4D雷達(dá)的性能對(duì)于保持系統(tǒng)的穩(wěn)健性至關(guān)重要。需要進(jìn)一步努力從4D雷達(dá)數(shù)據(jù)中分析和提取有意義的特征，以實(shí)現(xiàn)更準(zhǔn)確的3D邊界框預(yù)測(cè)。本研究旨在開(kāi)發(fā)一種新穎的方法，優(yōu)化從稀疏4D雷達(dá)點(diǎn)云中提取特征的過(guò)程，同時(shí)最大限度地減少噪聲。

Ⅲ 所提出方法

如圖2所示，所提出的MAFF-Net架構(gòu)從單個(gè)4D雷達(dá)點(diǎn)云中預(yù)測(cè)3D邊界框。MAFF-Net由三個(gè)部分組成：主分支、輔助分支和檢測(cè)頭。在主分支中，我們對(duì)使用基于柱的方法[8]從原始點(diǎn)云生成的BEV特征應(yīng)用稀疏柱注意力（SPA），以確保全局交互和足夠的感受野。輔助分支引入了聚類(lèi)查詢交叉注意力（CQCA），利用聚類(lèi)特征輔助（CFA）生成用于交叉注意力融合（CAF）的BEV查詢，這有助于減少噪聲并識(shí)別潛在對(duì)象。我們還設(shè)計(jì)了圓柱去噪輔助（CDA），這是一種受圓柱約束啟發(fā)的采樣策略，利用提議的位置信息過(guò)濾噪聲和背景點(diǎn)。最后，融合的BEV特征與關(guān)鍵點(diǎn)位置處的聚類(lèi)點(diǎn)云特征聚合，多任務(wù)檢測(cè)頭預(yù)測(cè)3D邊界框。

圖2：所提出的用于三維物體檢測(cè)的MAFF-Net總體框架

A.稀疏柱體注意力（SPA）

由柱狀特征編碼生成的二維偽圖像（即柱狀BEV特征）的稀疏特性導(dǎo)致有效特征數(shù)量有限。盡管多級(jí)下采樣能夠改善全局信息整合以提升目標(biāo)檢測(cè)效果，但其存在丟失小目標(biāo)細(xì)節(jié)的風(fēng)險(xiǎn)。為此，提出稀疏柱狀注意力（SPA）模塊（圖3），該模塊利用柱狀特征的局部稀疏性，并融合旋轉(zhuǎn)位置編碼（RoPE）以增強(qiáng)空間感知能力。

具體而言，首先通過(guò)統(tǒng)一體素尺寸的柱狀變換，將稀疏且不規(guī)則的點(diǎn)云轉(zhuǎn)換為結(jié)構(gòu)化柱狀BEV特征。非空柱體基于幾何關(guān)系擴(kuò)展特征后，聚合為局部二維張量。為增強(qiáng)空間感知并支持?jǐn)?shù)據(jù)增強(qiáng)，將RoPE嵌入BEV特征圖的二維空間域中。RoPE通過(guò)可學(xué)習(xí)的縮放因子沿通道維度編碼位置信息，其公式如下：

其中表示信道數(shù)的一半，表示信道索引，其范圍為。

然后，在鳥(niǎo)瞰圖特征圖的空間域內(nèi)生成標(biāo)準(zhǔn)化的二維網(wǎng)格坐標(biāo)。我們對(duì)特征圖的每個(gè)坐標(biāo)應(yīng)用旋轉(zhuǎn)編碼，沿通道維度C將特征進(jìn)行分割分為兩部分，分別記作和。由此得出的RoPE公式如下：

圖3：SPA模塊的結(jié)構(gòu)

為了提高計(jì)算效率，采用一個(gè)稀疏掩碼來(lái)捕捉非空特征。這些非空特征是通過(guò)將RoPE加到柱狀BEV特征的展平結(jié)果上，再應(yīng)用稀疏掩碼獲得的。這種方法降低了提取BEV特征圖的計(jì)算復(fù)雜度，從降低到了。

隨后，應(yīng)用標(biāo)準(zhǔn)的自注意力機(jī)制來(lái)學(xué)習(xí)關(guān)鍵、查詢和值，因?yàn)樽宰⒁饬C(jī)制能夠有效地捕捉長(zhǎng)程依賴(lài)關(guān)系，從而豐富特征表示。最后，通過(guò)稀疏掩碼索引和重塑來(lái)恢復(fù)柱狀BEV特征。

B.聚類(lèi)查詢交叉注意力（CQCA）

為解決4D雷達(dá)點(diǎn)云中的噪聲和異常值問(wèn)題，我們?cè)O(shè)計(jì)了聚類(lèi)查詢交叉注意力（CQCA）模塊，如圖4所示，用于過(guò)濾干擾點(diǎn)并幫助網(wǎng)絡(luò)學(xué)習(xí)有效的物體位置。該模塊包括聚類(lèi)特征輔助（CFA）和交叉注意力融合（CAF）。

圖4：CQCA模塊的圖示說(shuō)明

在關(guān)鍵特征提取CFA中，我們首先從原始雷達(dá)點(diǎn)云中提取三個(gè)關(guān)鍵特征()用于目標(biāo)檢測(cè)：，其中表示目標(biāo)的絕對(duì)徑向速度。選擇這些特征的原因在于其能夠有效聚類(lèi)目標(biāo)并去除噪聲點(diǎn)。相較于雷達(dá)散射截面積RCS的不穩(wěn)定性，在聚類(lèi)任務(wù)中更具實(shí)用性。由于雷達(dá)點(diǎn)云通常聚集在目標(biāo)周?chē)?，我們?cè)O(shè)計(jì)了一種基于增長(zhǎng)的聚類(lèi)算法GCA，其原理類(lèi)似于DBSCAN，通過(guò)鳥(niǎo)瞰圖BEV平面坐標(biāo)對(duì)點(diǎn)云進(jìn)行聚類(lèi)。GCA的核心改進(jìn)在于引入對(duì)聚類(lèi)點(diǎn)進(jìn)行過(guò)濾，因?yàn)橥痪垲?lèi)內(nèi)的點(diǎn)通常具有一致的速度。在DBSCAN中，參數(shù)Eps定義搜索半徑，MinPts指定形成聚類(lèi)所需的最小點(diǎn)數(shù)，而本方法基于4D雷達(dá)的角分辨率與點(diǎn)云密度動(dòng)態(tài)調(diào)整這些參數(shù)。此外，我們抑制大型聚類(lèi)以消除建筑物或圍欄等靜態(tài)物體產(chǎn)生的冗余點(diǎn)云。

最終，GCA的輸出結(jié)合了各聚類(lèi)的點(diǎn)數(shù)、類(lèi)別標(biāo)簽及三個(gè)關(guān)鍵特征，生成新點(diǎn)云，其中五個(gè)維度分別對(duì)應(yīng)聚類(lèi)規(guī)模、類(lèi)別標(biāo)簽及特征。該表征隨后被投影至尺寸為的BEV地圖中，經(jīng)過(guò)二維卷積層Conv2D、批量歸一化BN及ReLU激活函數(shù)CBR的多級(jí)處理后，生成與柱狀BEV特征張量尺寸一致的聚類(lèi)BEV特征。上述CFA流程可通過(guò)以下公式表示：

其中Cat表示連接操作。

在交叉注意力融合（CAF）模塊中，受ICAFusion啟發(fā)，通過(guò)CAF機(jī)制融合柱狀BEV特征與聚類(lèi)BEV特征。其中，聚類(lèi)BEV特征通過(guò)噪聲抑制與目標(biāo)區(qū)域增強(qiáng)，生成扁平化特征向量作為注意力查詢；而柱狀BEV特征對(duì)應(yīng)的扁平化特征向量則作為關(guān)鍵與值。通過(guò)標(biāo)準(zhǔn)注意力機(jī)制，模型學(xué)習(xí)可訓(xùn)練權(quán)重（訓(xùn)練初始值設(shè)為1），引導(dǎo)網(wǎng)絡(luò)聚焦于關(guān)鍵特征區(qū)域。隨后，將融合后的特征向量重構(gòu)為BEV特征圖，并引入壓縮激勵(lì)層（SE）強(qiáng)化對(duì)融合特征的通道注意力。最終，將SE層處理后的特征圖與聚類(lèi)BEV特征拼接（Cat），經(jīng)CBR模塊處理得到融合BEV特征。該過(guò)程可形式化表示為下述方程：

其中和是中間計(jì)算向量。

最后，在對(duì)融合的BEV特征進(jìn)行處理后，采用二維骨干網(wǎng)絡(luò)和區(qū)域建議網(wǎng)絡(luò)（RPN）生成三維建議。具體來(lái)說(shuō)，與PointPillars中使用的RPN類(lèi)似，利用多尺度特征融合模塊和2D檢測(cè)頭來(lái)生成高質(zhì)量的3D建議。

C.柱面去噪輔助（CDA）

考慮到交通場(chǎng)景的多樣性，將整個(gè)場(chǎng)景采樣為關(guān)鍵點(diǎn)以優(yōu)化融合后的鳥(niǎo)瞰圖特征。然而，由于斑點(diǎn)和多徑反射，4D雷達(dá)檢測(cè)到許多噪聲點(diǎn)，這些點(diǎn)對(duì)于特征表示和目標(biāo)檢測(cè)幾乎沒(méi)有實(shí)際意義。因此，提出一種圓柱形去噪輔助（CDA）模塊，它在采樣空間施加圓柱形約束，從而在3D物體周?chē)申P(guān)鍵點(diǎn)，有效提升了特征表示的質(zhì)量。

在CDA模塊中，我們輸入聚類(lèi)點(diǎn)云的3D坐標(biāo)以及3D體義，其中表示3D中心坐標(biāo)，而、和分別代表3D體義的長(zhǎng)度、寬度和高度。接下來(lái)，如圖5(a)所示，我們將坐標(biāo)轉(zhuǎn)換到每個(gè)3D提議的中心，并使用圓柱體擬合3D物體的空間，具體如下：

其中和分別表示圓柱體的半徑和高度，而表示提議的最大擴(kuò)展比例的超數(shù)。

由于圓柱形的三維空間區(qū)域包含了三維提議，因此我們可以直接從聚類(lèi)點(diǎn)云中選擇圓柱體內(nèi)的所有點(diǎn)作為關(guān)鍵點(diǎn)，使用如下簡(jiǎn)單的條件公式：

其中，。如圖5(b)所示，我們利用圓柱體從聚類(lèi)后的點(diǎn)云中獲取了一定數(shù)量的去噪關(guān)鍵點(diǎn)。然而，為了實(shí)現(xiàn)滿足固定總數(shù)的均勻采樣，我們從原始點(diǎn)中采樣剩余的個(gè)關(guān)鍵點(diǎn)。剩余的關(guān)鍵點(diǎn)通過(guò)最遠(yuǎn)點(diǎn)采樣算法進(jìn)行采樣。在圖5(c)中，我們展示了球形去噪輔助（SDA）的范圍更大，但可能包含不相關(guān)的點(diǎn)，這可能會(huì)妨礙有效的去噪。消融研究證實(shí)了這一點(diǎn)，突顯了該方法的優(yōu)越性。

通過(guò)排除噪聲點(diǎn)，CDA策略能獲取更多屬于3D物體的關(guān)鍵點(diǎn)。通過(guò)點(diǎn)柱集抽象，在關(guān)鍵點(diǎn)位置聚合來(lái)自聚類(lèi)點(diǎn)云和融合的BEV特征的信息，然后沿通道維度連接這些特征以生成柱點(diǎn)特征。這種特征結(jié)合了基于體素和基于點(diǎn)的方法的優(yōu)勢(shì)，能夠?qū)崿F(xiàn)高質(zhì)量的3D物體檢測(cè)。最后，我們將基于RPN的3D提議與通過(guò)RoI網(wǎng)格池化操作獲得的柱點(diǎn)特征一起輸入到檢測(cè)頭中。

圖5：不同去噪策略下的關(guān)鍵點(diǎn)采樣示意圖：（a）去噪前的關(guān)鍵點(diǎn)；（b）CDA去噪后關(guān)鍵點(diǎn)；（c）SDA去噪后關(guān)鍵點(diǎn)

D.檢測(cè)頭

在CDA模塊之后，采用ROIHead來(lái)進(jìn)行精確的3D邊界框預(yù)測(cè)。這些預(yù)測(cè)包括諸如方向角、三維尺寸（寬度、長(zhǎng)度和高度）、中心點(diǎn)以及置信度得分等關(guān)鍵要素。MAFF-Net旨在基于這些預(yù)測(cè)的3D邊界框生成分類(lèi)得分。檢測(cè)頭由兩個(gè)主要部分組成：分類(lèi)損失和回歸損失。為了平衡網(wǎng)絡(luò)內(nèi)正負(fù)樣本的分布，我們?cè)跈z測(cè)器的損失計(jì)算中應(yīng)用了焦點(diǎn)損失的一種變體?；貧w損失則通過(guò)平滑損失來(lái)計(jì)算。最后，我們MAFF-Net的整體損失函數(shù)可以定義為：

Ⅳ 實(shí)驗(yàn)與分析

A.數(shù)據(jù)集和評(píng)估指標(biāo)

我們使用流行的VoD[5]和TJ4DRadSet[6]數(shù)據(jù)集評(píng)估了我們方法的性能，這兩個(gè)數(shù)據(jù)集均提供點(diǎn)云格式的4D雷達(dá)數(shù)據(jù)。

VoD[5]數(shù)據(jù)集提供了三種類(lèi)型的4D雷達(dá)點(diǎn)云：?jiǎn)螔呙?、三掃描和五掃描。我們使用五掃描?shù)據(jù)來(lái)檢測(cè)三類(lèi)對(duì)象：汽車(chē)、行人和騎自行車(chē)的人。按照VoD評(píng)估腳本，我們分析了整個(gè)標(biāo)注區(qū)域和駕駛走廊。整個(gè)標(biāo)注區(qū)域涵蓋了相機(jī)視場(chǎng)內(nèi)50米范圍內(nèi)所有標(biāo)注的對(duì)象，而駕駛走廊僅關(guān)注與車(chē)輛行駛路徑相關(guān)的目標(biāo)。評(píng)估指標(biāo)包括每類(lèi)對(duì)象的3D平均精度()、平均3DAP()和平均BEVAP()。交并比（IoU）閾值分別為：汽車(chē)0.5，行人和騎自行車(chē)的人0.25。

TJ4DRadSet[6]數(shù)據(jù)集為開(kāi)放高速公路場(chǎng)景中較遠(yuǎn)距離的物體提供了3D邊界框標(biāo)注。其評(píng)估指標(biāo)與VoD數(shù)據(jù)集類(lèi)似，但允許根據(jù)傳感器距離指定評(píng)估區(qū)域。我們重點(diǎn)關(guān)注雷達(dá)70米范圍內(nèi)的物體，對(duì)于汽車(chē)和卡車(chē)，交并比（IoU）閾值設(shè)為0.5，對(duì)于行人和騎自行車(chē)者設(shè)為0.25。

B.實(shí)驗(yàn)設(shè)置

我們使用基于PyTorch的開(kāi)源3D檢測(cè)工具箱OpenPCDet[37]構(gòu)建了我們的MAFF-Net模型。

超參數(shù)設(shè)置：對(duì)于VoD數(shù)據(jù)集，4D雷達(dá)點(diǎn)云的范圍為[0,51.2]米、[-25.6,25.6]米和[-3,2]米，而TJ4DRadSet數(shù)據(jù)集的范圍為[0,69.12]米、[-39.68,39.68]米和[-4,2]米。在這兩個(gè)數(shù)據(jù)集中，每個(gè)柱體覆蓋0.16平方米，每個(gè)柱體最多支持16個(gè)點(diǎn)。

在我們的MAFF-Net模型中，所有模塊的C和E均設(shè)為64。對(duì)于CDA，VoD數(shù)據(jù)集的最大擴(kuò)展半徑為2米，TJ4DRadSet數(shù)據(jù)集為2.5米。在CQCA中，Eps和MinPts根據(jù)雷達(dá)性能進(jìn)行調(diào)整。對(duì)于VoD數(shù)據(jù)集，Eps為0.4米，MinPts為10個(gè)點(diǎn)；而對(duì)于TJ4DRadSet數(shù)據(jù)集，Eps為2米，MinPts為4個(gè)點(diǎn)。BEV特征圖的分辨率由4D雷達(dá)點(diǎn)云的稀疏特性決定，以平衡物體大小和精度。對(duì)于VoD數(shù)據(jù)集，其設(shè)置為320×320，而對(duì)于TJ4DRadSet數(shù)據(jù)集，則為496×432。

此外，在CQCA中由RPN生成的3D提議中，我們以正負(fù)提議1:1的比例隨機(jī)抽取了128個(gè)提議。在CDA中，采樣的關(guān)鍵點(diǎn)總數(shù)設(shè)為1024。

訓(xùn)練詳情：我們?cè)谝慌_(tái)配備Intel Corei9-13900K處理器、64GB內(nèi)存和NVIDIA RTX4090 24GB顯卡的Ubuntu22.04服務(wù)器上使用PyTorch1.10.1框架實(shí)現(xiàn)了該模型。訓(xùn)練過(guò)程歷經(jīng)60個(gè)周期，批量大小為4，采用Adam優(yōu)化器，學(xué)習(xí)率為0.01，并使用余弦退火學(xué)習(xí)率衰減策略。推理速度的測(cè)量是在批量大小為1、單個(gè)NVIDIA RTX 4090 顯卡以及FP16精度下進(jìn)行的。

我們采用了數(shù)據(jù)增強(qiáng)方法，包括隨機(jī)軸翻轉(zhuǎn)（50%的概率）、全局縮放（0.95至1.05）以及隨機(jī)軸旋轉(zhuǎn)（±0.7854π弧度）。

C.與最新技術(shù)水平的比較

視頻點(diǎn)播結(jié)果。在表1中，我們?cè)谝曨l點(diǎn)播驗(yàn)證集上將MAFF-Net與現(xiàn)有方法進(jìn)行了比較。MAFF-Net超過(guò)了當(dāng)前的最先進(jìn)方法，確立了新的基準(zhǔn)。MAFF-Net在整個(gè)標(biāo)注區(qū)域的和指標(biāo)分別提高了3.62%和1.60%。在駕駛走廊中，這些指標(biāo)的提升分別為2.00%和1.93%。值得注意的是，MAFF-Net在檢測(cè)行人等小物體方面表現(xiàn)出色，平均精度（AP）至少提高了4.64%。這些結(jié)果表明MAFFNet能夠從稀疏點(diǎn)云中提取物體特征并提高檢測(cè)精度。此外，結(jié)果還表明PV-RCNN(V)優(yōu)于PV-RCNN（PP），這表明基于Pillar的骨干網(wǎng)絡(luò)比基于Voxel的骨干網(wǎng)絡(luò)在從4D雷達(dá)點(diǎn)云中提取特征方面更有效。為了進(jìn)一步說(shuō)明MAFF-Net的突破性性能及其對(duì)自動(dòng)駕駛的潛在意義，我們將其與基于LiDAR的3D物體檢測(cè)方法進(jìn)行了比較。如表3所示，我們采用PointPillars作為L(zhǎng)iDAR方法的基準(zhǔn)，因?yàn)樗鼧?gòu)成了我們方法的基礎(chǔ)。在實(shí)驗(yàn)中，我們對(duì)來(lái)自VoD數(shù)據(jù)集的64層LiDAR數(shù)據(jù)進(jìn)行了下采樣。

表1：在VoD[5]驗(yàn)證集上與最先進(jìn)的方法的比較

PV-RCNN(V)和PV-RCNN（PP）分別使用SECOND[7]和PointPillars[8]作為骨干網(wǎng)絡(luò)。?符號(hào)表示基線模型，而?表示從參考來(lái)源得出的推理速度。最佳值以粗體顯示。

表2：在TJ4DRadSet[6]測(cè)試集上與最先進(jìn)的方法進(jìn)行的比較

表3：4D雷達(dá)與LiDAR在VoD[5]驗(yàn)證集上的結(jié)果對(duì)比

表示模態(tài)，表示激光雷達(dá)，表示4D雷達(dá)，Spe表示規(guī)格。輸入點(diǎn)數(shù)指的是在相同視場(chǎng)內(nèi)從激光雷達(dá)和4D雷達(dá)輸入到模型中的點(diǎn)的數(shù)量。

將其分別縮減為32層、16層和8層版本進(jìn)行評(píng)估。結(jié)果表明，即使輸入點(diǎn)更少，MAFF-Net仍能使4D雷達(dá)在檢測(cè)精度上優(yōu)于16層激光雷達(dá)。因此，隨著4D雷達(dá)技術(shù)的進(jìn)步，它有可能成為自動(dòng)駕駛汽車(chē)中3D物體檢測(cè)的主要傳感器。

TJ4DRadSet結(jié)果：為了進(jìn)一步驗(yàn)證MAFF-Net的有效性和泛化能力，我們?cè)赥J4DRadSet數(shù)據(jù)集上訓(xùn)練了該模型，測(cè)試集上的結(jié)果見(jiàn)表2。實(shí)驗(yàn)結(jié)果表明，MAFF-Net的比最先進(jìn)的方法高出2.39%。對(duì)于，MAFFNet達(dá)到41.59%，創(chuàng)造了新的最先進(jìn)性能。

最后，為了評(píng)估MAFF-Net在自動(dòng)駕駛中實(shí)時(shí)目標(biāo)檢測(cè)的潛力，我們?cè)赩oD和TJ4DRadSet數(shù)據(jù)集上對(duì)其推理速度進(jìn)行了評(píng)估。結(jié)果表明，MAFF-Net實(shí)現(xiàn)了最低17.9幀每秒（FPS）的推理速度，超過(guò)了4D雷達(dá)數(shù)據(jù)采集率（約15FPS）。此外，由于10FPS的幀率通常足以滿足實(shí)時(shí)應(yīng)用的需求[36]，這些結(jié)果證實(shí)了MAFF-Net滿足實(shí)時(shí)目標(biāo)檢測(cè)的要求。

D.消融研究

為了驗(yàn)證MAFF-Net中每個(gè)模塊的有效性，我們?cè)赩oD驗(yàn)證集和TJ4DRadSet測(cè)試集上進(jìn)行了消融實(shí)驗(yàn)，專(zhuān)門(mén)分析了SPA、CQCA和CDA模塊的貢獻(xiàn)。

MAFF-Net在PV-RCNN[23]的基礎(chǔ)上，通過(guò)整合第二部分所述的幾個(gè)關(guān)鍵模塊得以構(gòu)建。以PV-RCNN（PP）作為基準(zhǔn)模型，表4顯示，每個(gè)模塊都顯著提升了整個(gè)標(biāo)注區(qū)域和駕駛走廊的網(wǎng)絡(luò)性能，尤其是在和指標(biāo)上，各類(lèi)別的表現(xiàn)均有提升。值得注意的是，SPA和CQCA模塊極大地提高了對(duì)行人和騎車(chē)人等小物體的檢測(cè)能力。這些結(jié)果表明，SPA和CQCA模塊能夠有效地抑制噪聲，并從稀疏點(diǎn)云中提取關(guān)鍵特征。將PV-RCNN中的最遠(yuǎn)點(diǎn)采樣模塊替換為所提出的CDA模塊，可進(jìn)一步提升性能，這表明CDA在抑制噪聲和從4D雷達(dá)點(diǎn)云中選擇關(guān)鍵點(diǎn)方面具有更出色的能力，從而提高了3D邊界框預(yù)測(cè)的準(zhǔn)確性。此外，對(duì)這三個(gè)模塊的不同組合進(jìn)行分析，發(fā)現(xiàn)它們之間存在協(xié)同作用，從而實(shí)現(xiàn)了整體性能的平衡和提升。

表4：在VoD[5]驗(yàn)證集和TJ4DRadSet[6]測(cè)試集上進(jìn)行的消融研究，以PV-RCNN(PP)[23]作為基線

圖6：在VoD驗(yàn)證集（第一行）和TJ4DRadSet測(cè)試集（第二行）上的可視化結(jié)果。每行展示一個(gè)數(shù)據(jù)幀，包含圖像和雷達(dá)點(diǎn)（灰色點(diǎn)），彩色軸表示自動(dòng)駕駛車(chē)輛的位置。綠色框表示真實(shí)值，紅色框表示預(yù)測(cè)值。（a）顯示圖像；（b）展示PointPillars結(jié)果；（c）展示PV-RCNN（PP）基線結(jié)果；（d）展示在基線基礎(chǔ)上添加SPA模塊的結(jié)果；（e）展示在基線基礎(chǔ)上添加CQCA模塊的結(jié)果；（f）展示MAFF-Net（我們的方法）的結(jié)果

表5：以PointPillars[8]為基準(zhǔn)在VoD[5]驗(yàn)證集上的消融研究

表6：在VoD[5]驗(yàn)證集上進(jìn)行的去噪策略實(shí)驗(yàn)，以PV-RCNN（PP）[23]作為基準(zhǔn)

為了進(jìn)一步驗(yàn)證SPA和CQCA模塊的有效性，我們以Point-Pillars[8]為基準(zhǔn)進(jìn)行了消融實(shí)驗(yàn)。表5表明，這兩個(gè)模塊均提升了檢測(cè)性能，這與PV-RCNN（PP）實(shí)驗(yàn)的結(jié)果一致。

為了評(píng)估圓柱形關(guān)鍵點(diǎn)采樣相對(duì)于球形關(guān)鍵點(diǎn)采樣在4D雷達(dá)數(shù)據(jù)中的優(yōu)勢(shì)，我們對(duì)CDA和SDA方法進(jìn)行了比較。如表6所示，CDA在整體性能上優(yōu)于SDA。

圖6展示了MAFF-Net在VoD和TJ4DRadSet數(shù)據(jù)集上的可視化示例結(jié)果定性結(jié)果表明，MAFF-Net在各種場(chǎng)景下對(duì)物體的3D邊界框預(yù)測(cè)精度上優(yōu)于PointPillars和PV-RCNN（PP）。具體而言，SPA模塊通過(guò)全局特征交互增強(qiáng)了對(duì)被遮擋物體的檢測(cè)，而CQCA模塊則提高了物體定位精度并減少了誤報(bào)。

總體而言，實(shí)驗(yàn)結(jié)果證實(shí)了MAFF-Net中每個(gè)模塊的有效性，并突顯了噪聲抑制、全局特征提取以及關(guān)鍵點(diǎn)選擇對(duì)于基于4D雷達(dá)點(diǎn)云的3D物體檢測(cè)的重要性。

Ⅴ 結(jié)論

在這項(xiàng)工作中，我們提出了MAFF-Net，這是一種新穎的基于4D雷達(dá)的3D物體檢測(cè)器，旨在應(yīng)對(duì)稀疏、嘈雜且語(yǔ)義有限的雷達(dá)點(diǎn)云所帶來(lái)的挑戰(zhàn)。MAFF-Net通過(guò)利用空間和幾何約束有效地抑制噪聲并提取有意義的特征。在VoD和TJ4DRadSet數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，MAFFNet達(dá)到了最先進(jìn)的性能，超過(guò)了16層的激光雷達(dá)方法，同時(shí)保持了實(shí)時(shí)推理速度。未來(lái)的研究將整合相機(jī)圖像數(shù)據(jù)以增強(qiáng)雷達(dá)特征，從而實(shí)現(xiàn)更準(zhǔn)確和高效的3D物體檢測(cè)。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：imc/GRAS/AP首次聯(lián)袂亮相ATE India 盛會(huì)
上一篇：基于不同控制算法的半主動(dòng)懸架仿真研究

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車(chē)輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車(chē)→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車(chē)輛避撞專(zhuān)利公布	• 全球首個(gè)！電動(dòng)汽車(chē)電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

自動(dòng)駕駛中基于深度學(xué)習(xí)的雷達(dá)與視覺(jué)融合用于三維物體檢測(cè)綜述

微信公眾號(hào)

Ⅲ 所提出方法

Ⅳ 實(shí)驗(yàn)與分析

參考文獻(xiàn)

編輯推薦

最新資訊

“汽車(chē)爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車(chē)備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車(chē)前照燈配光性能的工