日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

自動(dòng)駕駛中基于深度學(xué)習(xí)的雷達(dá)與視覺(jué)融合用于三維物體檢測(cè)的綜述

2025-01-01 15:31:28·  來(lái)源:同濟(jì)智能汽車(chē)研究所  
 
雷達(dá)生成的感興趣區(qū)域(ROI)策略,即直接將雷達(dá)點(diǎn)投影到二維圖像平面上,可以扁平化點(diǎn)云的深度維度,可能導(dǎo)致傳感器最初捕獲的一些三維空間信息的損失[33]。因此,這類(lèi)方法更適用于不需要深度值的二維 物體檢測(cè)。對(duì)于三維物體檢測(cè),越來(lái)越多的工作集中在 視覺(jué)生成的感興趣區(qū)域方案上。CenterFusion [32]引入了 一個(gè)柱擴(kuò)展步驟來(lái)解決雷達(dá)點(diǎn)高度信息不準(zhǔn)確的問(wèn)題。 然后,它使用基于圓錐的方法將雷達(dá)檢測(cè)與相應(yīng)的物體提議相關(guān)聯(lián),補(bǔ)充圖像特征并回歸物體屬性。ClusterFus ion [33]也在第一階段從輸入圖像生成初步的三維物體檢測(cè),然后利用雷達(dá)點(diǎn)來(lái)細(xì)化初步檢測(cè)的速度、深度、方向和屬性預(yù)測(cè)。然而,這些方法往往依賴于從圖像中獲取的物體在世界坐標(biāo)系中的初步位置,由于缺乏深度信息,這必然會(huì)導(dǎo)致相當(dāng)大的不確定性。因此,基于這些不精確的位置對(duì)雷達(dá)點(diǎn)進(jìn)行采樣,并直接丟棄未關(guān)聯(lián)的雷達(dá)點(diǎn), 對(duì)檢測(cè)精度產(chǎn)生了負(fù)面影響。CRAFT[4]通過(guò)軟關(guān)聯(lián)將從圖像生成的3D提議與極坐標(biāo)系中的雷達(dá)點(diǎn)進(jìn)行關(guān)聯(lián)。隨后,通過(guò)連續(xù)的基于交叉注意力的特征融合層,它自適應(yīng)地交換相機(jī)和雷達(dá)之間的空間上下文信息,以解決錯(cuò)誤的關(guān)聯(lián),從而顯著提高檢測(cè)精度。上述方法都表明, 最大化3D提議和雷達(dá)點(diǎn)之間的正確關(guān)聯(lián)數(shù)量似乎是ROI-based RV融合框架中的關(guān)鍵步驟。然而,由于雷達(dá)點(diǎn)的稀疏性以及它們?nèi)狈Ω叨刃畔?,?yōu)化這一關(guān)鍵步驟對(duì)提高模型性能的影響有限。得益于現(xiàn)代雷達(dá)技術(shù)的進(jìn)步,雷達(dá)傳感器的分辨率也逐漸提高,導(dǎo)致雷達(dá)點(diǎn)云比以前更密集。這一進(jìn)步使得將現(xiàn)有的成熟基于 LiDAR的架構(gòu)[20]-[23]應(yīng)用于處理雷達(dá)數(shù)據(jù)成為可能[24]、 [25]。盡管如此,與LiDAR點(diǎn)云相比,雷達(dá)點(diǎn)云仍然非常稀疏,并且缺乏足夠的語(yǔ)義信息。因此,基于ROI的融合框架在性能上存在局限性。無(wú)論哪種模態(tài)生成感興趣區(qū)域,由于缺乏深度或高度信息,都可能發(fā)生顯著的檢測(cè)錯(cuò)誤,直接影響最終的物體檢測(cè)結(jié)果。然而,這些融合框架也提供了一些好處,因?yàn)樗鼈兛梢圆糠值販p少物體檢測(cè)的搜索范圍,從而節(jié)省計(jì)算資源。

表二 當(dāng)前配備攝像頭和雷達(dá)裝置的駕駛數(shù)據(jù)集

圖片

圖片

圖 3.基于投資回報(bào)率的雷達(dá)視覺(jué)融合框架((a):雷達(dá)生成的感興趣區(qū)域;(b): 視覺(jué)生成的感興趣區(qū)域)

B. 端到端融合

端到端融合策略同時(shí)處理來(lái)自攝像頭和雷達(dá)的數(shù)據(jù)。通過(guò)在一個(gè)統(tǒng)一的框架內(nèi)整合兩種模態(tài)的特征,并利用它們的互補(bǔ)優(yōu)勢(shì),感知性能變得更加穩(wěn)健。這種方法是目前最突出的融合管道之一。端到端RV融合的基本框架如圖4所示。我們進(jìn)一步將這種方法分為兩個(gè)部分:基于 3D包圍框預(yù)測(cè)和基于鳥(niǎo)瞰圖(BEV)。

a) 基于 3D 邊界框預(yù)測(cè):得益于成熟的現(xiàn)代 2D 檢測(cè)技術(shù)的發(fā)展,許多自動(dòng)駕駛?cè)诤峡蚣苤苯蛹{入單獨(dú)的輸入分支,用于將雷達(dá)數(shù)據(jù)處理到先進(jìn)的 2D 檢測(cè)網(wǎng)絡(luò) 中,并在網(wǎng)絡(luò)中間融合雷達(dá)特征與圖像特征。例如,[34] 為 SSD 檢測(cè)框架添加了用于雷達(dá)輸入數(shù)據(jù)的額外分支, 而[13]和[35]基于 YOLO 系列網(wǎng)絡(luò)擴(kuò)展了輸入通道,以同時(shí)提取圖像和雷達(dá)特征。CRF-Net [36]采用 VGG16 作為模型骨干,利用輔助分支提取雷達(dá)特征在不同級(jí)別上。毫無(wú)疑問(wèn),實(shí)現(xiàn)3D物體檢測(cè)任務(wù)的最簡(jiǎn)單方法是移植現(xiàn)有的成熟2D計(jì)算機(jī)視覺(jué)框架,并將其移植到3D檢測(cè)頭上,這在實(shí)踐中確實(shí)如此。在3D物體檢測(cè)發(fā)展的早期階段,研究人員專注于利用各種卷積神經(jīng)網(wǎng)絡(luò)(CNNs)同時(shí)從圖像和雷達(dá)數(shù)據(jù)中提取特征。然而,與 2D物體檢測(cè)不同,3D物體檢測(cè)模型需要在三維空間中回歸3D包圍框,包括長(zhǎng)度、寬度和高度信息。在[37]中,使用3D區(qū)域提議網(wǎng)絡(luò)基于相機(jī)圖像和雷達(dá)圖像生成提議。GRIF Net[3]預(yù)先定義了不同高度和大小的3D錨點(diǎn)框,并將它們投影到相機(jī)透視視圖和雷達(dá)鳥(niǎo)瞰視圖上。然后,它利用3D區(qū)域提議網(wǎng)絡(luò)(RPN)生成3D提議。然而,這兩 種方法并沒(méi)有有效地利用相機(jī)特征和雷達(dá)特征之間的相關(guān)性。它們只是直接從兩個(gè)傳感器的特征和連接融合特征中學(xué)習(xí)3D包圍框的參數(shù)。最近,注意力機(jī)制的引入進(jìn)一步提高了計(jì)算機(jī)視覺(jué)模型的性能。為了解決雷達(dá)和相機(jī)特征之間的幾何對(duì)應(yīng)關(guān)系的不確定性,作者在[47]中提出了一 種光線約束的交叉注意力機(jī)制,以更好地利用雷達(dá)距離測(cè)量來(lái)改善相機(jī)深度預(yù)測(cè)。SparseFusion3D [48]基于 DETR3D [49]的架構(gòu),通過(guò)使用雷達(dá)點(diǎn)初始化對(duì)象查詢,并將從對(duì)象查詢解碼出的3D參考點(diǎn)投影到圖像空間以提取圖像特征??傮w而言,基于3D框預(yù)測(cè)的方法從2D目標(biāo)檢測(cè)網(wǎng)絡(luò)中的許多優(yōu)秀思想中汲取了靈感。然而,預(yù)測(cè)3D框需要估計(jì)與三維空間密切相關(guān)的更多參數(shù),這往往 需要更多的計(jì)算資源和更復(fù)雜的算法。

圖片

圖 4. 一般端到端的 RV 融合框架

b) 基于鳥(niǎo)瞰視圖(BEV)的:最近,由于其能夠提供全景和無(wú)遮擋的感知視角,鳥(niǎo)瞰視圖感知方案在三維物體檢測(cè)中逐漸占據(jù)主導(dǎo)地位?;邙B(niǎo)瞰視圖的方法將物體檢測(cè)簡(jiǎn)化為從頂向下的二維圖像操作,使得能夠利用計(jì)算機(jī)視覺(jué)領(lǐng)域的豐富技術(shù)和算法,同時(shí)也提高了計(jì)算效率 。許多研究考慮利用具有強(qiáng)大深度感知的雷達(dá)檢測(cè)來(lái)協(xié)助將圖像特征從透視視圖轉(zhuǎn)換為鳥(niǎo)瞰視圖。在[39]中,作者利用預(yù)測(cè)的深度分布將圖像特征提升到三維空間,并利用雷達(dá)深度先驗(yàn)和雷達(dá)鳥(niǎo)瞰視圖占用率引導(dǎo)的雷達(dá)鳥(niǎo)瞰視圖占用率沿著高度通道將它們與圖像鳥(niǎo)瞰視圖特征連接起來(lái)。 然后,通過(guò)一個(gè)可變形交叉注意力模塊,他們自適應(yīng)地融合圖像鳥(niǎo)瞰視圖特征和雷達(dá)鳥(niǎo)瞰視圖特征,以處理嘈雜和模糊的雷達(dá)點(diǎn)。這項(xiàng)工作利用雷達(dá)的深度感知優(yōu)勢(shì)來(lái)補(bǔ)充單目深度估計(jì)網(wǎng)絡(luò)。然而,它依賴于兩個(gè)并行且獨(dú)立的視 圖變換,這不可避免地導(dǎo)致來(lái)自兩種模態(tài)的 BEV 特征在 空間上不一致。RCM-Fusin [38]采用 BEVFormer [14]作為 基準(zhǔn),并通過(guò)可變形自注意力機(jī)制[51]從雷達(dá) BEV 特征 圖中提取雷達(dá)位置信息創(chuàng)建了一個(gè)優(yōu)化的 BEV 查詢,從而整合了來(lái)自兩種模態(tài)的特征以實(shí)現(xiàn)隱式視圖變換。在 [50]中,作者使用交叉注意力將柱狀特征與來(lái)自雷達(dá)點(diǎn)云的稀疏深度編碼與相應(yīng)的深度缺失圖像列相關(guān)聯(lián),以在透視視圖中生成統(tǒng)一的幾何感知特征。然后,他們使用從雷達(dá) BEV 特征計(jì)算出的雷達(dá)加權(quán)深度一致性來(lái)細(xì)化初始的 BEV 查詢,解決了特征不一致或關(guān)聯(lián)的問(wèn)題。這些方法中的關(guān)鍵挑戰(zhàn)在于如何利用雷達(dá)點(diǎn)的深度信息來(lái)改進(jìn)透視視圖特征中對(duì)深度的感知,以及如何處理圖像和雷達(dá) BEV 特征之間的空間不一致性。HVDetFusion [40]是一個(gè) 兩階段檢測(cè)框架。在第一階段,它利用估計(jì)的深度將圖像特征從二維空間轉(zhuǎn)換到三維空間。然后,它使用第一個(gè)檢測(cè)頭獲得初步檢測(cè)結(jié)果,并將其作為先驗(yàn)信息來(lái)優(yōu)化初始 雷達(dá)數(shù)據(jù)中的誤檢。隨后,它將雷達(dá)檢測(cè)與圖像檢測(cè)相結(jié)合,并利用第二個(gè)檢測(cè)頭輸出融合檢測(cè)結(jié)果。這是目前在 nuScenes 排行榜上雷達(dá)-攝像頭融合三維目標(biāo)檢測(cè)的最先進(jìn)方法。


 Ⅳ 4D雷達(dá)在自動(dòng)駕駛系統(tǒng)中的應(yīng)用


隨著雷達(dá)技術(shù)的進(jìn)步,4D 雷達(dá)解決了傳統(tǒng)雷達(dá)在缺乏高度信息方面的不足,這引起了研究人員的關(guān)注,并逐漸探索如何在自動(dòng)駕駛汽車(chē)中應(yīng)用它。在[18]中,作者將 之前用于激光雷達(dá)三維數(shù)據(jù)的點(diǎn)柱應(yīng)用于四維雷達(dá)數(shù)據(jù), 以進(jìn)行多類(lèi)道路使用者檢測(cè)。MVFAN [42]是一個(gè)用于三 維物體檢測(cè)的端到端和單階段框架,利用雷達(dá)特征輔助骨干網(wǎng)絡(luò)來(lái)充分挖掘有價(jià)值的四維雷達(dá)數(shù)據(jù)。RCFusion [43] 在統(tǒng)一的 BEV 空間下實(shí)現(xiàn)了攝像頭和四維雷達(dá)特征的融合,引入了一個(gè)雷達(dá)柱狀網(wǎng)絡(luò)來(lái)生成雷達(dá)偽圖像。然后, 使用名為 IAM 的融合模塊自適應(yīng)地融合這兩種 BEV 特征類(lèi)型。此外 在目標(biāo)檢測(cè)方面,也有利用4D雷達(dá)進(jìn)行其他自動(dòng)駕駛?cè)蝿?wù)的研究。CenterRadarNet[44]是一個(gè)使用4D雷達(dá)的聯(lián)合3D目標(biāo)檢測(cè)和跟蹤框架,包括一個(gè)單階段3D目標(biāo)檢測(cè)器和在線重識(shí)別(re-ID)跟蹤器。4DRVO-Net[45] 是一種將攝像頭和4D雷達(dá)信息集成起來(lái)的4D雷達(dá)視覺(jué)里程計(jì)方法。它涉及設(shè)計(jì)一個(gè)自適應(yīng)4D雷達(dá)-攝像頭融合模塊(A-RCFM),該模塊根據(jù)4D雷達(dá)點(diǎn)特征自動(dòng)選擇圖像特征。[46]中提出的方法將圖像和4D雷達(dá)點(diǎn)云融合用于度量密集深度估計(jì)??傊?,4D雷達(dá)點(diǎn)云作為 一種比傳統(tǒng)3D雷達(dá)更穩(wěn)健的傳感器數(shù)據(jù),具有更高的密度和與LiDAR相比的額外多普勒信息,值得進(jìn)一步探索。然而,與3D雷達(dá)類(lèi)似,4D雷達(dá)點(diǎn)云仍然相對(duì)稀疏。建立4D雷達(dá)點(diǎn)云和圖像之間的準(zhǔn)確關(guān)聯(lián)和特征交互仍然是一個(gè)重大挑戰(zhàn)。



   Ⅴ 未來(lái)趨勢(shì)    

通過(guò)本文的回顧與分析,我們認(rèn)為在自動(dòng)駕駛的背景下,房車(chē)的融合感知具有以下發(fā)展趨勢(shì):

a) 端到端自主駕駛:端到端自主駕駛直接將原始傳 感器數(shù)據(jù)作為輸入,并將感知、路徑規(guī)劃、控制和決策等任務(wù)集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。它直接輸出控制車(chē)輛行為所需的指令,而無(wú)需手動(dòng)設(shè)計(jì)復(fù)雜的中間表示或處理步驟。這項(xiàng)技術(shù)消除了傳統(tǒng)自主駕駛系統(tǒng)中的復(fù)雜模塊結(jié)構(gòu),簡(jiǎn)化了系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)過(guò)程。此外,由于它能夠自動(dòng)發(fā)現(xiàn)傳感器數(shù)據(jù)中的復(fù)雜模式和特征,它能夠更好地理解環(huán)境并做出更準(zhǔn)確的決策。

b) 4D雷達(dá)的應(yīng)用:隨著4D毫米波雷達(dá)技術(shù)的進(jìn)步, 它正朝著更高的分辨率和更遠(yuǎn)的探測(cè)范圍發(fā)展。由于其成本優(yōu)勢(shì),未來(lái)它可能會(huì)在一些大規(guī)模生產(chǎn)的智能汽車(chē)中取代傳統(tǒng)的雷達(dá)和激光雷達(dá)。這帶來(lái)了4D雷達(dá)和視覺(jué)之間更簡(jiǎn)潔和高效的融合解決方案的需求。研究中的挑戰(zhàn)和趨勢(shì)包括如何深度整合兩種異構(gòu)多模態(tài)數(shù)據(jù)源,以及如何在保持精度的前提下提高感知系統(tǒng) 的實(shí)時(shí)性能。

c) 協(xié)同感知:協(xié)同感知是指多個(gè)自動(dòng)駕駛車(chē)輛交換信息并合作,共同感知周?chē)h(huán)境并做出決策的過(guò)程。這一創(chuàng)新感知概念使路上的車(chē)輛能夠?qū)崿F(xiàn)實(shí)時(shí)和全面的環(huán)境感知。它不僅提高了自動(dòng)駕駛系統(tǒng)的安全性和可靠性,還優(yōu)化了整個(gè)交通系統(tǒng)的效率,與智能交通發(fā)展的要求無(wú)縫對(duì)接。

   Ⅵ 結(jié)論    

感知作為自動(dòng)駕駛系統(tǒng)中的三個(gè)關(guān)鍵模塊之一,在處理來(lái)自多個(gè)傳感器的信息以及提取其他兩個(gè)模塊 (控制和決策)所需的相關(guān)環(huán)境數(shù)據(jù)方面發(fā)揮著至關(guān) 重要的作用。作為量產(chǎn)車(chē)輛中最常見(jiàn)的低成本傳感器, 攝像頭和雷達(dá)具有豐富的語(yǔ)義信息和全天候運(yùn)行特性,它們的互補(bǔ)優(yōu)勢(shì)可以實(shí)現(xiàn)相對(duì)理想的感知性能。在本文中,我們首先分析了幾種傳感器的優(yōu)缺點(diǎn),然后介紹了現(xiàn)有的公開(kāi)數(shù)據(jù)集,這些數(shù)據(jù)集同時(shí)包含了雷達(dá)和攝像頭,包括最新的4D雷達(dá)數(shù)據(jù)集。然后我們?cè)敿?xì)回顧了基于RV融合的3D目標(biāo)檢測(cè)的現(xiàn)狀?;谏疃葘W(xué)習(xí)的3D目標(biāo)檢測(cè)技術(shù)分為兩種策略:基于ROI和端到端。為了跟上最新的技術(shù),我們介紹了4D雷達(dá)在自動(dòng)駕駛行業(yè)中的最新應(yīng)用。最后,我們分析了自動(dòng)駕駛 RV融合感知發(fā)展的可能趨勢(shì),以供讀者參考。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25