日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

最新的“視覺為中心的BEV感知”綜述論文

2022-08-17 09:44:12·  來源:計算機視覺深度學(xué)習(xí)和自動駕駛  作者:黃浴  
 
最近在IEEE T-PAMI投稿的一篇BEV綜述論文“ Vision-Centric BEV Perception: A Survey“,在arXiv上傳于2022年8月4日,作者來自上海科技大學(xué)、香港中文大學(xué)、香

最近在IEEE T-PAMI投稿的一篇BEV綜述論文“ Vision-Centric BEV Perception: A Survey“,在arXiv上傳于2022年8月4日,作者來自上海科技大學(xué)、香港中文大學(xué)、香港科技大學(xué)、上海AI實驗室和贏徹科技(掛名在肯塔基大學(xué)和馬里蘭大學(xué))。

圖片


以視覺為中心的BEV感知,由于固有的優(yōu)點,如呈現(xiàn)的世界自然表示和融合的友好模式,最近受到了工業(yè)界和學(xué)術(shù)界的越來越多關(guān)注。隨著深度學(xué)習(xí)的快速發(fā)展,人們提出了許多方法來解決以視覺為中心的BEV感知問題。然而,目前還沒有關(guān)于這一新興研究領(lǐng)域的綜述。為了促進(jìn)其未來的研究,本文全面綜述以視覺為中心的BEV感知及其擴展的最新進(jìn)展。該文對常用的算法進(jìn)行了系統(tǒng)的回顧和總結(jié),還提供了若干BEV感知任務(wù)的深入分析和比較結(jié)果,有助于啟發(fā)未來的研究方向。此外,還討論了實現(xiàn)細(xì)節(jié),其有助于相關(guān)算法的開發(fā)。

對于低成本的自動駕駛系統(tǒng),以視覺為中心的BEV感知是一個長期的挑戰(zhàn),因為攝像頭通常放置在自車上,與地面平行,面向外部。圖像在與BEV正交的透視圖(PV)中獲取,并且兩個視圖之間的變換是不適定問題。最早工作[用單應(yīng)矩陣以物理和數(shù)學(xué)方式將平坦地面從PV轉(zhuǎn)換為BEV。多年來,這種方法一直占據(jù)主導(dǎo)地位,直到平地硬約束無法滿足復(fù)雜真實場景的自主駕駛要求。隨著計算機視覺中數(shù)據(jù)驅(qū)動方法的發(fā)展,近年來出現(xiàn)了許多基于深度學(xué)習(xí)的方法,通過求解PV-BEV變換來促進(jìn)以視覺為中心的BEV感知。


基于視圖變換,當(dāng)前BEV視覺感知工作可分為兩大類:基于幾何的變換和基于網(wǎng)絡(luò)的變換。如圖1所示:

圖片

前者充分利用攝像頭的物理原理以可解釋的方式遷移視圖。除了經(jīng)典的基于homograph的方法外,通過顯式或隱式深度估計將2-D特征提升到3-D空間是主要的解決方案。對于圖像的每個像素,都存在一條來自攝影機的光線,該光線會遇到現(xiàn)實世界中的目標(biāo)。不是直接將像素映射到BEV,另一種方法是計算每個像素的深度分布,利用該分布將2D特征提升到3D,然后通過降維從3D獲得BEV表示。


這些方法對深度采用不同的假設(shè),例如精確值、射線上的均勻分布或射線上的類分布。深度監(jiān)督來自于最終的顯式深度值或任務(wù)監(jiān)督。對于后者,其方法采用神經(jīng)網(wǎng)絡(luò)作為PV到BEV的視圖投影。深度神經(jīng)網(wǎng)絡(luò)在解決計算機視覺任務(wù)方面取得了巨大進(jìn)展,它充當(dāng)了一個復(fù)雜的映射函數(shù),以不同的模式、維度、表示等將輸入轉(zhuǎn)換為輸出。簡單的想法是使用變分編碼器-解碼器(VE-D)或MLP將PV特征投影到BEV。上述方法在某種程度上采用了自下而上(bottom-up)的策略,以前向的方式處理轉(zhuǎn)換。另一種重要的基于網(wǎng)絡(luò)的方法采用自頂向下(top-down)的策略,通過交叉注意機制直接構(gòu)造BEV query并搜索前視圖像上的相應(yīng)特征。為了匹配不同的下游任務(wù),各種方法提出稀疏、密集或混合query。

以視覺為中心的BEV感知是,給定輸入圖像序列,算法需要將這些透視圖輸入轉(zhuǎn)換為BEV特征,并執(zhí)行感知任務(wù),如在BEV中檢測目標(biāo)的3D邊框或周圍環(huán)境的語義圖。與基于激光雷達(dá)的方法相比,以視覺為中心的方法可以從圖像中獲得更豐富的語義信息,并依靠對圖像的高級理解來推斷場景幾何結(jié)構(gòu),但缺乏精確的深度測量。為了獲得有效解決該問題的統(tǒng)一表示,最近的研究通常采用視圖轉(zhuǎn)換范式,將視角理解轉(zhuǎn)換為感知的BEV特征。

3-D目標(biāo)檢測是3-D感知的核心任務(wù)之一。根據(jù)不同的輸入數(shù)據(jù)模式,該任務(wù)可分為多個設(shè)置,包括基于圖像、基于激光雷達(dá)和基于多模態(tài)的3-D檢測。

基于圖像的3D檢測設(shè)置需要模型預(yù)測僅給定多個圖像的目標(biāo)類別和3-D邊框。以前的工作通常直接從透視圖特征進(jìn)行預(yù)測,這是一個簡單的過程,但在實踐中對多視圖攝像頭數(shù)據(jù)進(jìn)行復(fù)雜的后處理,難以利用來自多個視圖和時間連續(xù)幀的立體視覺線索。因此,最近基于BEV的方法在該領(lǐng)域引起了更多的關(guān)注,并在效率和性能方面取得了巨大的進(jìn)步。


如下表1是BEV 3D檢測的基準(zhǔn)方法:

圖片

添加圖片注釋,不超過 140 字(可選)


基于激光雷達(dá)的3-D檢測方法在3-D感知方面取得了巨大成功。由于激光雷達(dá)提供了對周圍3D環(huán)境的精確測量,它們比基于圖像的方法表現(xiàn)出更好的性能,并擁有許多豐富的研究經(jīng)驗。其可以分為基于點和基于體素的方法,基于體素方法在實踐中可以進(jìn)一步簡化為BEV感知。這些成功經(jīng)驗為視覺為中心的BEV感知發(fā)展提供了重要基礎(chǔ)。


RGB圖像包含關(guān)于目標(biāo)顏色、形狀和紋理的豐富信息,但不能提供精確的深度信息,這可以從激光雷達(dá)補充。雷達(dá)只能提供粗略的定位信號,而激光雷達(dá)可以感知物體的運動。如何有效利用這些傳感器是3D感知領(lǐng)域的一個長期問題。隨著視覺為中心的BEV感知發(fā)展,為視覺輸入提供了更加一致和統(tǒng)一的表示學(xué)習(xí)范式,因此組合來自不同模態(tài)的特征也更加方便。


基于BEV的地圖分割有兩條工作路線:即基于MLP的方法和基于Transformer的方法。除了地圖生成外,還需要檢測BEV的車道,以緩解透視的效應(yīng)。3DLaneNet是利用CNN以端到端方式預(yù)測車道3-D位置的開創(chuàng)性工作。GEN LaneNet首先將圖像投影到虛擬頂視圖中,然后設(shè)計兩步框架來回歸車道位置,這可以顯著改善不平路面的車道檢測。Persformer利用類似Transformer的架構(gòu)從前視圖特征生成更好的BEV特征,并同時預(yù)測2D和3D車道。

將透視圖轉(zhuǎn)換為BEV的一個傳統(tǒng)而直接的解決方案是,利用二者之間的自然幾何投影關(guān)系,稱為基于幾何的方法。根據(jù)如何彌合這兩個視圖之間的差距,以前的工作可以分為兩組:基于homograph的方法和基于深度(depth)的方法。前者的早期采用簡化幾何關(guān)系,其近期僅關(guān)注水平地面感知,而后者更適用于實際場景。

基于homograph的方法

3-D空間中的點可以通過透視映射變換到圖像空間,而將圖像像素投影到3-D空間的逆問題是病態(tài)的。逆透視映射(IPM),基于逆映射點位于水平面的附加約束,解決數(shù)學(xué)上不可能的映射問題。單應(yīng)矩陣可以從相機的內(nèi)和外參物理地導(dǎo)出。一些方法用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取PV圖像的語義特征,并估計圖像中的垂直消失點和地平面消失線(地平線),以確定單應(yīng)矩陣。


IPM運行后,許多下游感知任務(wù),如光流估計、檢測、分割、運動預(yù)測、規(guī)劃等,都可以基于BEV圖像完成。由于IPM嚴(yán)重依賴于平坦地面假設(shè),這些基于IPM的方法通常無法準(zhǔn)確檢測地平面上方的目標(biāo),如建筑物、車輛和行人。一些方法利用語義信息來減少失真。OGMs將PV中車輛的足跡(footprint)分割結(jié)果轉(zhuǎn)換為BEV,遵循h(huán)omography的平坦地面假設(shè),避免車身位于地面上方造成的變形。根據(jù)這一思想,BEVStitch使用兩個分支來分割車輛和道路的足跡,并分別通過IPM將其轉(zhuǎn)換為BEV,然后縫合到BEV上,構(gòu)建完整的路線圖。


有些方法在網(wǎng)絡(luò)訓(xùn)練階段使用IPM變換特征圖,而不是在預(yù)處理或后處理中應(yīng)用IPM。Cam2BEV通過應(yīng)用IPM變換每個視圖的特征圖,從多個車載攝像頭獲得整體BEV語義圖。MVNet基于IPM將2D特征投影到共享的BEV空間,聚集多視圖特征,并用大卷積核來解決行人檢測中的遮擋問題。3D LaneNet專注于單個圖像預(yù)測車道的3D布局,不假設(shè)攝像機高度,而是以監(jiān)督方式訓(xùn)練額外網(wǎng)絡(luò)分支來估計單應(yīng)矩陣。然后在特征圖的不同尺度上采用投影變換。


由于前向視圖和BEV之間存在較大間隙和嚴(yán)重變形,僅采用IPM不足以在BEV生成無失真圖像或語義圖。BridgeGAN將homography視圖作為中間視圖,并提出了一種基于多GAN的模型來學(xué)習(xí)PV和BEV之間的跨視圖轉(zhuǎn)換,其利用GAN來增強生成的BEV圖像真實性。MonoLayout利用GAN生成不可見位置的信息,并估計具有動態(tài)目標(biāo)的場景布局。


總結(jié):基于homograph方法主要基于PV和BEV之間平地面的物理映射,具有良好的可解釋性。IPM在下游感知任務(wù)的圖像投影或特征投影中起作用。為了減少地平面以上區(qū)域的失真,充分探索了語義信息,并廣泛使用GAN來提高BEV特征的質(zhì)量。由于從PV到BEV的實際轉(zhuǎn)換是不適定的,IPM的硬假設(shè)解決了部分問題。PV整個特征圖的有效BEV映射仍有待解決。


如圖2是這類方法的按時間順序概述:

圖片


PV-BEV變換的一種重要方法是基于深度預(yù)測?;谏疃鹊腜V-BEV方法自然建立在顯式3D表示上。與基于激光雷達(dá)的3-D檢測一樣,基于所使用的表示,這些方法可以分為兩種類型:基于點的方法和基于體素的方法。

基于點的視圖轉(zhuǎn)換

基于點的方法直接使用深度估計將像素轉(zhuǎn)換為點云,在連續(xù)3-D空間中散播。其更直接,更容易集成單目深度估計和基于激光雷達(dá)的3D檢測成熟經(jīng)驗。先驅(qū)工作,偽激光雷達(dá)(pseudo- LiDAR)首先將深度圖轉(zhuǎn)換為偽激光雷達(dá)點,然后輸入最先進(jìn)的基于激光雷達(dá)的3D檢測器。作為一項開創(chuàng)性的場景工作,Pseudo-LiDAR++通過立體視覺深度估計網(wǎng)絡(luò)和損失函數(shù)提高了深度精度。AM3D提出用互補的RGB特征裝飾偽激光雷達(dá)點云。

基于體素的視圖變換

與基于激光雷達(dá)的3-D檢測方法類似,純攝像頭方法也有兩種常見的選擇來表示變換后的3-D特征或幾何。與分布在連續(xù)3-D空間中的點云相比,體素通過離散3-D空間來構(gòu)造用于特征變換的均勻結(jié)構(gòu),為3-D場景理解提供了更有效的表示;后續(xù)基于BEV的模塊可以直接附加。盡管犧牲了局部空間精度,但在覆蓋大規(guī)模場景結(jié)構(gòu)信息方面其仍然更有效,并且與視圖轉(zhuǎn)換的端到端學(xué)習(xí)范式兼容。


具體而言,該方案通常使用深度引導(dǎo)直接在相應(yīng)的3D位置散射2D特征(而不是點)。先前的工作將2D特征圖與相應(yīng)的預(yù)測深度分布進(jìn)行外積(outer product)來實現(xiàn)這一目標(biāo)。早期的工作假設(shè)分布是均勻的,即沿射線的所有特征都相同,如OFT。這項工作建立了一個內(nèi)部表示,以確定圖像中哪些特征與正交BEV上的位置相關(guān)。在定義的均勻間隔3-D格(lattice)上,它構(gòu)建3-D體素特征圖,并在投影的相應(yīng)圖像特征圖區(qū)域累積特征來填充體素。然后,沿垂直軸對體素特征求和獲得正交特征圖,然后深度卷積神經(jīng)網(wǎng)絡(luò)提取BEV特征用于3-D目標(biāo)檢測。值得注意的是,對于圖像的每個像素,網(wǎng)絡(luò)對分配的3D點預(yù)測相同的表示,即預(yù)測沿深度的均勻分布。這類方法通常不需要深度監(jiān)督,并且可以在視圖轉(zhuǎn)換之后以端到端方式學(xué)習(xí)網(wǎng)絡(luò)中的深度或3D位置信息。


相反,另一種范式會明確預(yù)測深度分布,并以此仔細(xì)構(gòu)建3D特征,LSS代表了這種方法。其預(yù)測深度上的類分布(categorical distribution)和上下文向量,其外積確定透視光線每個點的特征,更好地接近真實深度分布。此外,它將來自所有攝像機的預(yù)測融合到場景的一個結(jié)合表征中,對標(biāo)定誤差更具魯棒性。BEVDet遵循這一LSS范式,提出了一種從BEV進(jìn)行全攝像機多視圖的3D檢測框架,包括圖像視圖編碼器、視圖transformer、BEV編碼器和檢測頭。其新版本BEVDet4D展示了基于多攝像機3D檢測的時域線索。具體而言,該方法保留前一幀的中間BEV特征,并將其與當(dāng)前幀生成的特征連接。

深度監(jiān)督

先前的研究表明,當(dāng)使用預(yù)測深度分布來提升2-D特征時,該分布精度非常重要。CaDDN用經(jīng)典方法對激光雷達(dá)點投影的稀疏深度圖進(jìn)行插值,并以此監(jiān)督深度分布的預(yù)測。這種監(jiān)督和鼓勵鋒利分布預(yù)測的損失函數(shù),在這種方法中至關(guān)重要。其他基于雙目的3D檢測方法DSGN和LIGA Stereo也依賴于類似的監(jiān)督,其中稀疏的激光雷達(dá)深度圖更有效。其他不用深度標(biāo)簽的方法,只能從稀疏實例標(biāo)注中學(xué)習(xí)此類3D位置或深度信息,僅靠網(wǎng)絡(luò)學(xué)習(xí),要困難得多。除了將深度監(jiān)督納入檢測框架之外,DD3D和MV-FCOS3D++指出,深度估計和單目3D檢測的預(yù)訓(xùn)練可以顯著增強2D主干的表征學(xué)習(xí)。許多基于BEV的方法也受益于這些預(yù)訓(xùn)練主干。

與基于IPM的方法相結(jié)合

PanopticSeg利用這兩個方法的優(yōu)點,提出一種用于全景分割的dense transformer模塊,其包括一個用IPM的flat transformer,然后進(jìn)行誤差校正,生成平面BEV特征,還有一個用3-D體格(volumetric lattice)建模中間3D空間的vertical transformer。

多視圖聚合做立體匹配

除了單目深度估計外,立體匹配還可以在純攝像頭感知中預(yù)測更精確的深度信息。它依賴于適當(dāng)多視圖設(shè)置自然形成的基線。其中,雙目設(shè)置是最常見和研究最深入的設(shè)置,其特點是重疊區(qū)域大,只有較小的水平偏移才能建立合適的多視圖設(shè)置。在以前工作的一個多視圖設(shè)置中,即安裝在自主車輛的環(huán)視攝像機,相鄰視圖之間的重疊區(qū)域通常非常小,因為主要目標(biāo)是用較少的攝像機覆蓋整個空間。在這種情況下,深度估計主要依賴于單目理解,基于BEV的方法僅在多視圖感知的簡單性和統(tǒng)一性方面具有優(yōu)勢。


相比之下,在雙目情況下的深度估計中具有更重要的優(yōu)點。最近的雙目方法,如DSGN和LIGA-Stereo,通常使用平面掃描(plane sweeping)表征進(jìn)行立體匹配和深度估計。然后,從平面掃描特征體中采樣體素和BEV特征,并執(zhí)行3D檢測。其他針對多視圖設(shè)置的方法,如ImVoxelNet,也顯示了這種基于體素的公式在室內(nèi)場景的有效性,其中重疊區(qū)域在相鄰區(qū)域也更大。此外,對于連續(xù)幀,兩個時域相鄰的圖像也可以滿足這些條件。DfM從理論上分析了這個問題,并采用類似的方法從視頻中實現(xiàn)更精確的單目3D檢測。


總結(jié):基于深度的視圖變換方法通?;陲@式3-D表示、量化體素或連續(xù)3-D空間的點云散射?;隗w素的方法使用均勻的深度向量或明確預(yù)測的深度分布將2D特征提升到3D體素空間,并執(zhí)行基于BEV的感知。相反,基于點的方法將深度預(yù)測轉(zhuǎn)換為偽激光雷達(dá)表示,然后用自定義網(wǎng)絡(luò)進(jìn)行3-D檢測。如下表2顯示了3-D檢測的結(jié)果。

圖片


如圖3是基于深度的方法時間順序概述:

圖片


總結(jié):

  • 早期的方法通常第一步用偽激光雷達(dá)表示,在第二步直接用3D探測器;然而,由于難以進(jìn)行可推廣的端到端訓(xùn)練,面臨著模型復(fù)雜度和性能低的問題。

  • 由于計算效率和靈活性,最近的方法更加關(guān)注基于體素的方法。這種表示已廣泛應(yīng)用于不同任務(wù)的純攝像機方法中。

  • 深度監(jiān)督對于這種基于深度的方法很重要,因為準(zhǔn)確的深度分布可以為特征PV轉(zhuǎn)換為BEV時提供基本線索。

  • 如DfM、BEVDet4D和MV-FCOS3D++所分析的,在時域建模中此類方法是一個有希望的方向。

基于幾何的方法明確建立在攝像機投影過程的物理原理上,將視圖從PV轉(zhuǎn)換為BEV,這是一種可解釋的解決方案。另一種選擇是以數(shù)據(jù)驅(qū)動的方式對視圖轉(zhuǎn)換進(jìn)行建模,有效地利用攝像頭幾何結(jié)構(gòu),其中神經(jīng)網(wǎng)絡(luò)充當(dāng)PV和BEV之間的映射函數(shù)。為了涵蓋單應(yīng)性等復(fù)雜變換,MLP和transformer基于網(wǎng)絡(luò)方法的兩個合適選擇。

基于MLP的視圖轉(zhuǎn)換

多層感知器(MLP)在某種程度上可以看作是一個復(fù)雜的映射函數(shù),其將輸入映射到具有不同模態(tài)、維度或表示的輸出。擺脫標(biāo)定攝像機設(shè)置包含的繼承感應(yīng)偏差,一些方法傾向于利用MLP學(xué)習(xí)攝像機標(biāo)定的隱式表示,實現(xiàn)在兩個不同視圖(即PV和BEV)之間轉(zhuǎn)換,如圖8是MLP的轉(zhuǎn)換方法按時間順序概述。

圖片


VED采用MLP瓶頸層的變分編碼器-解碼器架構(gòu),將駕駛場景的前視圖視覺信息轉(zhuǎn)換為2-D頂視圖笛卡爾坐標(biāo)系。它是第一個對單目圖像執(zhí)行端到端學(xué)習(xí)實時生成語義度量(semantic-metric)占用網(wǎng)格圖(occupancy grid map)的系統(tǒng)。出于對全局感受野的需求,VPN選擇兩層MLP,通過扁平-映射-重塑(flattening-mapping-reshaping)過程將每個PV特征圖轉(zhuǎn)換為BEV特征圖。然后,添加來自不同攝像機的所有特征圖,進(jìn)行多視圖融合。FishingNet基于VPN的視圖轉(zhuǎn)換模塊,將攝像機特征轉(zhuǎn)換為BEV空間,并與雷達(dá)和激光雷達(dá)數(shù)據(jù)進(jìn)行后融合,實現(xiàn)多模態(tài)感知和預(yù)測。


為了充分利用空間上下文并更好地關(guān)注行人等小目標(biāo),PON和STA-ST首先利用特征金字塔多分辨率地提取圖像特征。然后,通過MLP沿高度軸折疊圖像特征,沿深度軸擴展,執(zhí)行視圖變換。該設(shè)計的思路來自這樣一個觀察事實:雖然網(wǎng)絡(luò)需要大量垂直上下文將特征映射到BEV(由于遮擋、缺乏深度信息和未知的地面拓?fù)洌?,但在水平方向上BEV位置和圖像位置之間的關(guān)系可以用簡單的攝像頭幾何結(jié)構(gòu)建立。


HDMapNet采用了基于MLP的特征投影策略,目的是在BEV中生成矢量化地圖元素,并從周圍攝像機的圖像中嵌入實例和方向。單向投影(unidirectional projection)難以保證前向視圖信息的有效傳遞,因此額外MLP可以將特征從BEV投影回到PV,檢查其是否正確映射。受這種雙向投影的激勵,PYVA提出了一種循環(huán)自監(jiān)督方案,整合視圖投影。它還引入了一個基于注意的特征選擇過程,將兩個視圖關(guān)聯(lián)起來,為下游分割任務(wù)獲得更強的BEV特征。


HFT分析了基于攝像機模型的特征變換和無攝像機模型的特性變換的優(yōu)缺點。前者是基于IPM的方法,可以很容易地處理局部道路和停車場等區(qū)域的PV-BEV轉(zhuǎn)換,但這些方法依賴于平坦地面假設(shè),對地面以上的區(qū)域進(jìn)行變形。后者,基于MLP或基于注意的方法,可以避免采用這個基礎(chǔ),但收斂緩慢,沒有任何幾何先驗。為了從這兩種方法中獲益并避免其固有的缺點,HFT設(shè)計了一種混合特征變換,由兩個分支組成,分別利用幾何信息和捕獲全局上下文。


基于MLP的方法忽略了標(biāo)定攝像機的幾何先驗,并利用MLP作為通用映射函數(shù)來建模從PV到 BEV的轉(zhuǎn)換。雖然MLP在理論上是一種通用的近似器,但由于缺乏深度信息、遮擋等原因,視圖變換仍然難以推理。此外,多視圖圖像通常單獨變換,并以“后融合”的方式進(jìn)行集成,這使得基于MLP的方法無法利用重疊區(qū)域帶來的幾何潛力。如表3顯示了基于網(wǎng)絡(luò)(包括MLP)的的視圖轉(zhuǎn)換方法獲得的結(jié)果。

圖片


總結(jié)

  • 基于MLP的方法更多地關(guān)注單個圖像的情況,而多視圖融合還沒有得到充分的研究。

  • 基于MLP的方法通常被最近提出的基于transformer的方法所超越(見后一節(jié))。

基于Transformer的視圖轉(zhuǎn)換

除了MLP之外,transformer(具有交叉注意)也是一個現(xiàn)成的解決方案,用于將PV映射到 BEEV,無需明確利用攝像頭模型?;贛LP和基于Transformer的張量映射之間有三個主要區(qū)別。首先,由于加權(quán)矩陣在推理過程中是固定的,因此MLP學(xué)習(xí)的映射不依賴于數(shù)據(jù);相反,transformer中的交叉注意與數(shù)據(jù)相關(guān),其中加權(quán)矩陣與輸入數(shù)據(jù)相關(guān)。此數(shù)據(jù)相關(guān)性屬性使transformer更具表現(xiàn)力,但很難訓(xùn)練。其次,交叉注意是置換不變的(permutation-invariant),意思是transformer需要位置編碼來區(qū)分輸入順序;MLP對排列自然敏感。最后,基于transformer的方法采用自頂向下的策略,通過構(gòu)造query并通過注意機制搜索相應(yīng)的圖像特征,而不是像基于MLP的方法那樣以前向方式處理視圖變換。


特斯拉是第一個使用Transformer將PV特征投影到BEV平面。該方法首先使用位置編碼設(shè)計一組BEV query,然后通過BEV query和圖像特征之間的交叉注意機制執(zhí)行視圖轉(zhuǎn)換。從那時起,人們提出了許多方法來使用transformer,或者更具體地說,交叉注意來建模視圖轉(zhuǎn)換。根據(jù)transformer解碼器中可學(xué)習(xí)slots(稱為query)的粒度,將這些方法分為三類:基于稀疏query的方法、基于密集query的方法和基于混合 query的方法。如圖10是基于transformer轉(zhuǎn)換方法的按時間順序概述:

圖片


如下表4是基于transformer方法的語義分割結(jié)果展示:

圖片


下面分別討論三種基于transformer的視圖轉(zhuǎn)換方法。

基于稀疏query的方法

對于基于稀疏查詢的方法,查詢嵌入使網(wǎng)絡(luò)能夠直接產(chǎn)生稀疏感知結(jié)果,而無需顯式執(zhí)行圖像特征的密集變換。這種設(shè)計選擇對于以目標(biāo)為中心的感知任務(wù)(如3D目標(biāo)檢測)是很自然的,但將其擴展到密集感知任務(wù)(例如分割)并不簡單。


受2D檢測框架DETR的啟發(fā),STSU遵循基于稀疏查詢的框架,從單個圖像提取表示BEV空間中局部道路網(wǎng)絡(luò)的有向圖。該方法還用兩組稀疏查詢來聯(lián)合檢測3-D目標(biāo),一組用于中心線,另一組用于動態(tài)目標(biāo),其中網(wǎng)絡(luò)可以利用目標(biāo)和中心線之間的相關(guān)性。后續(xù)工作TopologyPL考慮道路網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),通過最小循環(huán)(minimal cycles)保持,改進(jìn)了STSU。同時,DETR3D提出了一個類似的范例,但側(cè)重于多攝像機輸入的3D檢測,并用基于幾何的特征采樣過程代替交叉注意。它首先從可學(xué)習(xí)的稀疏查詢中預(yù)測3-D參考點,然后使用標(biāo)定矩陣將參考點投影到圖像平面上,最后對相應(yīng)的多視圖多尺度圖像特征進(jìn)行采樣,進(jìn)行端到端的3-D邊框預(yù)測。為了緩解DETR3D中復(fù)雜的特征采樣過程,PETR將攝像機參數(shù)導(dǎo)出的3-D位置嵌入編碼到2-D多視圖特征中,這樣稀疏查詢可以直接與交叉注意中位置-覺察圖像特征進(jìn)行交互,實現(xiàn)更簡單、更優(yōu)雅的框架。如圖11提供了DETR3D和PETR的范例比較。

圖片


后續(xù)工作PETRv2將3D位置嵌入擴展到時域來利用時域信息。為了解決DETR3D中特征聚合不足的問題并改善重疊區(qū)域的感知結(jié)果,Graph-DETR3D通過圖結(jié)構(gòu)學(xué)習(xí)聚合每個目標(biāo)查詢的各種圖像信息來增強目標(biāo)表示。類似地,ORA3D專注于改善DETR3D重疊區(qū)域的性能。它通過立體視差監(jiān)督和對抗訓(xùn)練來規(guī)范重疊區(qū)域的表示學(xué)習(xí)。為了利用環(huán)視攝像機的視圖對稱性作為歸納偏差去簡化優(yōu)化并提高性能,PolarDETR提出3D檢測的極參數(shù)化,它重新制定了邊框參數(shù)化、網(wǎng)絡(luò)預(yù)測和損失計算,所有這些都在極坐標(biāo)系中。它還利用除投影參考點特征之外的上下文特征來緩解DETR3D中上下文信息不足的問題。

SRCN3D基于另一個2D檢測框架SparseRCNN設(shè)計了一種基于稀疏提議(sparse proposal)的多攝像機3D檢測方法,其中每個提議包含一個可學(xué)習(xí)的3D邊框和一個編碼實例特征的可學(xué)習(xí)特征向量。為了取代基于交叉注意的特征交互,提出稀疏特征采樣模塊和動態(tài)實例交互頭,從提議邊框中提取的RoI特征去更新提議的特征。

基于密集query的方法

對于基于密集查詢的方法,每個查詢都預(yù)先分配3D空間或BEV空間的空間位置。查詢數(shù)目由光柵化空間的空間分辨率決定,通常大于基于稀疏查詢方法。密集BEV表示可以通過密集查詢與多個下游任務(wù)(如3D檢測、分割和運動預(yù)測)圖像特征之間的交互來實現(xiàn)。


Tesla首先使用位置編碼和上下文概括在BEV空間中生成密集的BEV查詢,然后利用查詢和多視圖圖像特征之間的交叉注意進(jìn)行視圖轉(zhuǎn)換。在不考慮攝像機參數(shù)的情況下,執(zhí)行BEV查詢和圖像特征之間的普通交叉注意。為了促進(jìn)交叉注意的幾何推理,CVT提出一種攝像頭-覺察的交叉注意模塊,為圖像特征配備從攝像頭內(nèi)外參標(biāo)定中獲得的位置嵌入。由于每個transformer解碼器層的注意操作在大量query和key元素中有較大的內(nèi)存復(fù)雜度,通常限制圖像分辨率和BEV分辨率以減少內(nèi)存開銷,在許多情況下這可能會阻礙模型的可擴展性。


最近,人們做出了許多努力來解決基于密集查詢的方法的這個問題。可變形注意(deformable attention)結(jié)合了可變形卷積的稀疏空間采樣和注意機制的關(guān)系建模能力,只關(guān)注稀疏位置可以顯著減少普通注意的內(nèi)存開銷。BevSefFormer的視圖變換模塊以此進(jìn)行BEV分割,PersFormer的視圖轉(zhuǎn)換模塊以此做3D車道檢測。同時,BEVFormer還采用可變形注意,用于BEV平面的密集查詢與多視圖圖像特征之間的交互。它還設(shè)計一組歷史BEV查詢,并通過查詢和歷史查詢之間的可變形注意操作利用時域線索。


Ego3RT將密集查詢放置在極BEV網(wǎng)格上,并依靠可變形注意使查詢和多視圖圖像特征相互作用。然后,通過網(wǎng)格采樣將極BEV特征轉(zhuǎn)換為笛卡爾特征,用于下游任務(wù)。值得注意的是,BEVFormer和Ego3RT不是直接從BevSeFormer中的查詢特征預(yù)測參考點,而是利用攝像頭參數(shù)和查詢的預(yù)定義3D位置來計算2D參考點,用于變形注意中的特征采樣。


類似地,PersFormer依靠IPM計算圖像的參考點。通過這種設(shè)計,網(wǎng)絡(luò)可以利用幾何先驗,更好地識別圖像的適當(dāng)區(qū)域進(jìn)行引導(dǎo),但這有可能對標(biāo)定矩陣更加敏感。GKT展開投影2D參考點周圍的核區(qū)域,并將BEV查詢與相應(yīng)展開的核特征進(jìn)行交互,從而在攝像機標(biāo)定固定的情況下,實現(xiàn)從BEV查詢到像素位置的固定映射。該算子可以被視為可變形注意,具有固定采樣偏移和基于相似度的注意權(quán)重。然后,提出一種從BEV-2D的查找表(LUT)索引策略,用于快速推理。


CoBEVT沒有采用可變形注意,而是提出了一種稱為融合軸向注意(FAX)的新注意變型,以低計算復(fù)雜度推理高層次上下文信息和區(qū)域細(xì)節(jié)特征。具體地說,它首先將特征圖劃分為3D非重疊窗口,然后在每個局部窗內(nèi)進(jìn)行局部注意,并在不同窗口之間進(jìn)行全局注意。


另一種有希望減少內(nèi)存開銷的方法是,用3D幾何約束去簡化基于交叉注意的交互。Image2Map提出了一個單目BEV分割框架,首先假設(shè)單目圖像中的垂直掃描線與從攝像機中心開始的BEV平面光線之間存在1-1關(guān)系。然后,視圖轉(zhuǎn)換可以表示為一組1-D序列-序列的轉(zhuǎn)換問題,并通過transformer建模?;谶@種幾何約束,Image2Map避免了2D圖像特征圖和BEV查詢之間的密集交叉關(guān)注,相反,它只包含1-D序列-序列的轉(zhuǎn)換,形成了一個內(nèi)存友好、數(shù)據(jù)高效的體系結(jié)構(gòu)。


GitNet采用逐列 transformer模塊作為視圖變換第二步,增強由基于幾何視圖變換第一步獲得的初始BEV特征。Image2Map和GitNet都只處理單個圖像輸入。當(dāng)考慮360度圖像作為輸入時,需要進(jìn)行額外調(diào)整,來自不同攝像機的極射線對齊到自車坐標(biāo)系中,因為極射線的原點是不同的攝像機中心。PolarFormer設(shè)計了一個極坐標(biāo)對齊模塊,聚集來自多個攝像機的光線,生成結(jié)構(gòu)化極坐標(biāo)特征圖。提出一種多尺度極坐標(biāo)表示學(xué)習(xí)策略,用于處理極坐標(biāo)距離維度上的無約束目標(biāo)尺度變化。與PolarDETR類似,其邊框預(yù)測直接在極坐標(biāo)系中進(jìn)行。


LaRa首先將多視圖圖像特征編碼到潛空間中,然后通過交叉注意模塊查詢潛表示獲得BEV特征,從而控制計算量。緊湊的潛空間,和輸入大小和輸出分辨率進(jìn)行解耦,實現(xiàn)精確的計算預(yù)算控制。此外,提出一種基于射線的位置嵌入方法,該方法從標(biāo)定矩陣中導(dǎo)出,增強視覺特征,并引導(dǎo)特征和潛向量之間的交叉注意。

基于混合 query的方法

基于稀疏查詢的方法適用于以目標(biāo)為中心的任務(wù),但無法導(dǎo)出顯式密集BEV表示,不適用于密集感知任務(wù),如BEV分割。因此,PETRv2中設(shè)計了一種混合查詢策略,其中除了稀疏目標(biāo)查詢外,還提出了一種密集分割查詢,每個分割查詢負(fù)責(zé)分割特定的patch(即16×16的形狀)。

稀疏query和致密query的比較

盡管基于稀疏查詢的方法在目標(biāo)檢測任務(wù)上取得了很好的結(jié)果,但其3-D表示在自車坐標(biāo)系下沒有幾何結(jié)構(gòu)感,因此難以執(zhí)行密集預(yù)測任務(wù),如地圖分割。相反,具有顯式空間分布的稠密查詢?yōu)锽EV空間提供了稠密和統(tǒng)一的表示,很容易采用不同的感知頭。然而,由于大量BEV查詢的巨大計算成本,為了實現(xiàn)高分辨率的特征圖,必須提高注意機制的效率。在過去幾年中,高效transformer結(jié)構(gòu)受到了廣泛關(guān)注。然而,這些工作通常側(cè)重于自注意,其中Key和Query來自同一個元素集。如果Key和Query來自兩個未對齊的集合,其在交叉注意中的有效性,仍有待探索。

幾何線索

從概念上講,基于Transformer的方法可以僅依靠注意機制執(zhí)行視圖變換,并且不一定需要幾何先驗。早期的方法確實沒有將任何幾何信息(如標(biāo)定矩陣或像素深度)納入其transformer框架。然而,置換不變的性質(zhì)使transformer不確定圖像區(qū)域和BEV像素之間的空間關(guān)系,從而使網(wǎng)絡(luò)收斂速度變慢,并且訓(xùn)練需要大量數(shù)據(jù)?,F(xiàn)在有更多的方法試圖利用3D幾何約束實現(xiàn)快速收斂或數(shù)據(jù)效率。


給定查詢的3D坐標(biāo)(預(yù)定義或使用查詢特征預(yù)測),攝像機標(biāo)定矩陣定義了從BEV空間到圖像平面的映射,反之亦然,其為視覺特征和查詢的交互提供了良好的線索。因此,大多數(shù)基于transformer的方法都以各種方式利用了標(biāo)定矩陣。基于deformable attention的方法,通常依賴于攝像機投影矩陣來計算用于特征采樣的2D參考點,這有助于網(wǎng)絡(luò)關(guān)注圖像上的適當(dāng)區(qū)域并拋棄全局注意。


利用標(biāo)定矩陣的另一種有希望的方法是,根據(jù)攝像頭幾何結(jié)構(gòu)將每個圖像垂直掃描線預(yù)先分配給BEV射線,然后將全局交叉注意簡化為逐列注意。該策略還可以顯著節(jié)省計算量。此外,標(biāo)定矩陣可用于生成3-D位置嵌入,以幾何先驗豐富圖像特征,并幫助transformer通過隱式幾何推理學(xué)習(xí)從PV-BEV的映射。

雖然基于transformer的方法不一定需要逐像素深度進(jìn)行視圖變換,但深度信息對于transformer的幾何推理仍然很重要。在nuScenes 目標(biāo)檢測基準(zhǔn)上,大多數(shù)基于transformer的方法受益于深度預(yù)訓(xùn)練,其提供了有用的深度感知2D特征,用于建立查詢和圖像特征之間的關(guān)聯(lián)。深度預(yù)測也可以聯(lián)合優(yōu)化,幫助視覺為中心的3D檢測,其中真值深度可以從投影的激光雷達(dá)點或目標(biāo)方向的深度標(biāo)簽中得出。MonoDTR和MonoDETR都設(shè)計了一個單獨的模塊來生成深度感知特征,并預(yù)測transformer中位置編碼的像素深度。然后,MonoDTR使用transformer集成基于錨點檢測頭的上下文特征和深度特征,而MonoDETR通過備有深度交叉注意的transformer解碼器使目標(biāo)查詢與深度特征交互,修正transformer以實現(xiàn)深度-覺察,從而直接從2D圖像解碼3D預(yù)測。

總結(jié)

基于transformer的視圖投影變得越來越流行。除了作為一個視圖投影器,transformer還可以作為一個特征提取器來取代卷積主干,或者作為一個檢測頭來取代基于錨點的頭和無錨點的頭。隨著在自然語言處理(NLP)中開發(fā)大型transformer模型的趨勢,自主駕駛行業(yè)的研究人員也在探索大型和通用transformer的有效性,為了給感知和預(yù)測等多個任務(wù)提取強大表征。另一方面,基于transformer-解碼器的檢測頭和基于bipartite-matching的標(biāo)簽分配策略已常常用于基于圖像的3D檢測,因為不需要NMS等后處理。


nuScenes數(shù)據(jù)集是最常用的視覺為中心感知數(shù)據(jù)集,六個標(biāo)定攝像機覆蓋360度水平視場。下表5顯示基于transformer的視圖變換方法在nuScenes目標(biāo)檢測基準(zhǔn)上的結(jié)果。

圖片


總結(jié)

  • 當(dāng)考慮密集感知任務(wù)(如道路分割)時,通常采用密集查詢,因為基于稀疏查詢的方法沒有BEV空間的顯式表示。

  • 正如在基于深度的視圖轉(zhuǎn)換方法中所觀察到的,時域信息對于基于transformer的方法也是至關(guān)重要的。時域融合的方法在mAP和mAVE上通常比單幀方法表現(xiàn)更好。

  • 由于每個攝像機的感知范圍都是一個帶有徑向軸的楔形,因此建議不做基于垂直軸的笛卡爾參數(shù)化,而是做基于非垂直軸的極參數(shù)化,這將是進(jìn)一步研究的一個有趣方向。

交通場景的BEV表示,包括精確的位置和尺度信息,可以準(zhǔn)確地映射到真實的物理世界,這有助于許多下游任務(wù)。同時,BEV表示還充當(dāng)物理介質(zhì),為來自各種傳感器、時間戳和智體的數(shù)據(jù)提供可解釋的融合方式。BEV下的兩個主要擴展是:多任務(wù)學(xué)習(xí)策略和融合方法。

BEV下的多任務(wù)學(xué)習(xí)

從PV-BEV變換方法導(dǎo)出的緊湊有效的BEV表示,對許多下游任務(wù)都很友好,例如目標(biāo)檢測、地圖分割、預(yù)測和運動規(guī)劃。共享主干網(wǎng)可以大大節(jié)省計算成本并提高效率。因此,一些工作試圖使用統(tǒng)一的框架同時執(zhí)行多個任務(wù)。


借助多攝像機視頻的時空BEV表示,F(xiàn)IERY首先提出了一種在一個網(wǎng)絡(luò)結(jié)合感知和預(yù)測的框架。StretchBEV在每個時間戳對潛變量進(jìn)行采樣,并估計殘余變化,產(chǎn)生未來狀態(tài)。為了減少內(nèi)存開銷,BEVerse設(shè)計迭代流程,有效生成未來狀態(tài),并聯(lián)合推理3D檢測、語義地圖重建和運動預(yù)測任務(wù)。M2BEV還提出了一種基于BEV表示的多任務(wù)方法,并通過均勻深度假設(shè)簡化投影過程以節(jié)省內(nèi)存。


對于基于transformer的方法,為了不同感知任務(wù),STSU和PETRv2引入和共享圖像特征交互的任務(wù)特定查詢。BEVFormer首先通過密集BEV查詢將多視圖圖像投影到BEV平面上,然后在共享BEV特征圖上采用不同的任務(wù)特定頭,如Deformable DETR和掩碼解碼器,用于端到端的3D目標(biāo)檢測和地圖分割。Ego3RT和PolarFormer也采用了類似的策略。


雖然有幾項研究表明,CNN受益于與多個相關(guān)任務(wù)的聯(lián)合優(yōu)化,但3D目標(biāo)檢測和BEV分割的聯(lián)合訓(xùn)練通常不會帶來改善。檢測性能通常受到影響,不同類別之間對分割性能的改善并不一致。需要更多的努力來探索不同感知任務(wù)之間的依賴關(guān)系,實現(xiàn)聯(lián)合改進(jìn)。

BEV下的融合

BEV表示為多傳感器、多幀和多智體融合提供了一種方便的方法,通過利用綜合信息,極大地提高了自主駕駛中的感知能力。


  • 多模態(tài)融合


目前自動駕駛車輛通常配備三種傳感器,包括攝像頭、激光雷達(dá)和雷達(dá),執(zhí)行感知任務(wù)。不同的傳感器各有優(yōu)缺點,如表7所示。

圖片


攝像機拍攝的圖像具有豐富的外觀特征,如顏色、紋理和邊緣,但對光線敏感,缺乏深度信息。激光雷達(dá)點云包含精確的深度信息和豐富的幾何特征,但缺乏紋理信息。雷達(dá)的探測范圍比激光雷達(dá)長,可以直接捕捉運動目標(biāo)的速度,但點云非常稀疏且噪聲大,難以提取形狀和尺度等視覺特征。一種理想的感知解決方案是在一個網(wǎng)絡(luò)中集成和利用這些傳感器的優(yōu)點,實現(xiàn)高質(zhì)量的性能。然而,由于原始數(shù)據(jù)在表征上的巨大差異,合理有效的融合并不容易。


先前的圖像和點云融合策略可分為數(shù)據(jù)級融合和特征級融合。前者使用標(biāo)定矩陣將像素特征附加到點,反之亦然。后者在直接融合兩種高維特征之前,提取PV的圖像特征和3D或BEV的點云特征。隨著BEV感知算法的快速發(fā)展,一種更具可解釋性的圖像和點云融合方法是將圖像特征傳輸?shù)紹EV,并根據(jù)BEV上的物理對應(yīng)關(guān)系融合來自兩個模態(tài)數(shù)據(jù)的特征。


根據(jù)BEV下的精確融合方法,融合方法可進(jìn)一步分為三類。


第一類依靠深度制導(dǎo),在3D空間進(jìn)行融合。根據(jù)預(yù)測深度和幾何約束從圖像平面采樣特征來構(gòu)建體素空間。無需顯式攝像機投影,AutoAlign通過自監(jiān)督學(xué)習(xí)自適應(yīng)地對齊像素和3-D體素的語義一致性,并指導(dǎo)跨模態(tài)特征交互。這與AutoAlign中的全局注意不同。AutoAlignV2用確定性投影矩陣指導(dǎo)跨模態(tài)特征的自動對齊,并在模態(tài)之間實現(xiàn)稀疏采樣。然后,對于每個體素,直接建立圖像特征和相關(guān)點云特征之間的關(guān)系。Frustum PointNets 和 CenterFusion 也在3-D空間中進(jìn)行融合處理,利用截錐(frustum)投影將檢測到的2-D目標(biāo)圖像特征變換到相應(yīng)的3-D位置,然后分別與激光雷達(dá)檢測和雷達(dá)檢測進(jìn)行融合。


第二類方法從多模態(tài)輸入中提取的BEV特征,然后融合。BEVFusion在融合階段充分保留圖像的稠密語義信息和空間幾何信息,并提出一種有效的BEV池化操作來加速推理。RRF通過投影和雙線性采樣為圖像特征定義一個3D體,連接光柵化雷達(dá)BEV圖像,并降低垂直維度,最終得到BEV融合特征圖。FISHINGNet將攝像機、激光雷達(dá)和雷達(dá)的特征分別轉(zhuǎn)換為單一、通用、自頂向下的語義網(wǎng)格表示,然后將這些特征聚合為BEV的語義網(wǎng)格預(yù)測。


第三類BEV融合方法以3D檢測任務(wù)為目標(biāo),將3D參考點初始化為查詢,從所有可用模態(tài)中提取特征進(jìn)行融合。FUTR3D采用基于查詢的模態(tài)無關(guān)特征采樣器和transformer解碼器,用于傳感器融合的3D目標(biāo)檢測;該方法可以容易地適用于任何傳感器組合和設(shè)置。TransFusion用標(biāo)準(zhǔn)的3D和2D主干提取激光雷達(dá)BEV特征圖和圖像特征圖,并依賴前者進(jìn)行查詢初始化。接下來,沿垂直維度壓縮圖像特征,然后用交叉注意將特征投影到BEV平面,與激光雷達(dá)BEV特征融合。具體來說,這種方法是面向輸出的,通過注意機制自適應(yīng)地學(xué)習(xí)如何融合。


  • 時域融合


除了多模態(tài)融合外,時域融合是魯棒可靠感知系統(tǒng)的另一個關(guān)鍵組成部分,原因如下。首先,它累積連續(xù)觀測值,減輕攝像機視圖相關(guān)特性造成的自遮擋和外遮擋的影響,有助于檢測嚴(yán)重遮擋的目標(biāo)并生成可靠的道路圖。其次,時域線索是估計目標(biāo)的時域?qū)傩裕ㄈ缢俣?、加速度、轉(zhuǎn)向等)的必要條件,有助于分類和運動預(yù)測。第三,雖然從單個圖像進(jìn)行深度估計自然是不適定和困難的,但由連續(xù)圖像形成的立體幾何結(jié)構(gòu)為絕對深度估計提供了重要的指導(dǎo)和充分研究的理論基礎(chǔ)。


考慮到時域信息在連續(xù)圖像幀的好處,許多方法將原始輸入信號串聯(lián)起來,將圖像提取的特征串聯(lián)起來,或使用RNN或transformer進(jìn)行視頻理解,但很少采取這些步驟做3D感知。這是因為攝像頭隨著自車移動而改變姿態(tài),這意味著連續(xù)PV表征沒有嚴(yán)格的物理對應(yīng)關(guān)系。PV中時域特征的直接融合,對精確3D定位帶來改進(jìn)是有限的。幸運的是,BEV表示法很容易轉(zhuǎn)換為世界坐標(biāo)系,可以作為橋梁,以物理方式融合視覺為中心的連續(xù)數(shù)據(jù)。


BEVDet4D首先基于自運動將前一幀BEV特征圖warp到當(dāng)前幀,這樣特征放在同一坐標(biāo)系中,然后沿通道維度連接對齊的特征圖,饋送到檢測頭。這種基于級聯(lián)的時域融合策略簡單且可擴展,如Image2Map、FIREY和PolarFormer等。除級聯(lián)外,還用對稱聚合(symmetric aggregation)函數(shù),如max、mean,組合時間打包的特征。


當(dāng)運動目標(biāo)在不同的時間戳有不同的網(wǎng)格位置,具有相同物理位置但不同時間的BEV特征可能不屬于相同的目標(biāo)。因此,為了更好地建立不同時間相同目標(biāo)的關(guān)聯(lián),BEVFormer通過一個自注意層對特征之間的時域連接進(jìn)行建模,其中當(dāng)前BEV特征用作查詢,而warp的前BEV特征作為 Key和Value。


PETRv2沒有打包BEV特征圖,而是直接在PV和3-D坐標(biāo)圖上執(zhí)行包裹操作。它首先通過基于自運動將前幀的3D坐標(biāo)轉(zhuǎn)換為當(dāng)前幀來生成前幀的位置編碼。然后,將兩幀的2-D圖像特征和3-D坐標(biāo)連接在一起,用于transformer解碼器,其中稀疏目標(biāo)查詢能夠與當(dāng)前和以前的特征做交互獲得時域信息。類似地,UniFormer將先前幀的PV特征轉(zhuǎn)換為統(tǒng)一的虛擬視圖,并使用交叉注意去融合和集成所有歷史和當(dāng)前特征。


上述方法都側(cè)重于PV-BEV變換后BEV平面的時域融合。此外,雖然這些工作加入時域信息后顯著提高了定位精度,但沒有明確指出這種現(xiàn)象的理論基礎(chǔ)。相反,DfM從時域線索在深度估計發(fā)揮作用的理論分析開始,并選擇在前期階段利用這些線索,通過更好的深度估計促進(jìn)PV-BEV轉(zhuǎn)換。DfM不依賴于單個圖像的單目理解,而是集成來自時域相鄰圖像的立體幾何線索。為了處理立體視覺估計方法無法處理的情況,其提出了一種單目補償策略來自適應(yīng)平衡單目估計和立體視覺估計?;诰_的深度估計,DfM然后將2D圖像特征提升到3D空間,并檢測其3D目標(biāo)。


如表8所示,將模型從純空間3D空間提升到時-空4D空間可顯著提高整體檢測性能,尤其是速度和方向預(yù)測。然而,大多數(shù)時域模型最多只利用4個先前幀,而長期歷史信息在很大程度上被忽略。例如,當(dāng)幀數(shù)大于4時,BEVFormer的性能開始下降,這意味著遠(yuǎn)距離信息沒有得到很好的利用。

圖片


  • 多智體融合

最近文獻(xiàn)大多基于單智體系統(tǒng),在處理遮擋和檢測完整交通場景中的不穩(wěn)定目標(biāo)方面存在問題。車對車(V2V)通信技術(shù)有可能通過附近自主車輛之間廣播傳感器數(shù)據(jù)來提供同一場景的多視點。根據(jù)這一想法,CoBEVT首先設(shè)計了一個多智體多攝像頭感知框架,該框架可以協(xié)同生成BEV地圖預(yù)測。為了從多智體數(shù)據(jù)中融合攝像頭特征,它首先基于自車姿態(tài)和發(fā)送者的姿態(tài)對來自其他智體的BEV特征進(jìn)行幾何warp,然后用一個transformer和建議的融合軸向注意機制,融合來自多智體的接收BEV特征信息。然而,由于沒有多智體數(shù)據(jù)的可用真實世界數(shù)據(jù)集,因此所提出的框架僅在模擬數(shù)據(jù)集進(jìn)行了驗證,在真實世界的泛化能力仍然未知,需要進(jìn)一步檢查。

視覺為中心的感知方法通常涉及多種數(shù)據(jù)模式,并在類不平衡數(shù)據(jù)集上進(jìn)行實驗,因此需要各種數(shù)據(jù)增強方法,以幾何關(guān)系為保證為較少標(biāo)注的類提供訓(xùn)練技巧。此外,性能和效率之間的平衡也是一個重要問題,包括:感知分辨率、網(wǎng)絡(luò)設(shè)計、輔助任務(wù)和訓(xùn)練細(xì)節(jié)。

感知分辨率

由于始終從PV到BEV做視圖轉(zhuǎn)換,因此這兩個視圖的感知范圍設(shè)置實現(xiàn)了性能和效率的預(yù)期折衷。近年來,隨著圖形卡計算能力的快速發(fā)展,PV圖像分辨率和BEV網(wǎng)格大小顯著增加。如表9所示,增加這些感知分辨率可以顯著提高性能,但也會影響推理速度。盡管這些基于BEV的方法在nuScenes上取得了有希望的結(jié)果,甚至接近基于激光雷達(dá)的方法,但高輸入分辨率造成的高計算負(fù)擔(dān)仍然是部署的一個嚴(yán)重問題,值得進(jìn)一步探索。

圖片


此外,這里主要考慮網(wǎng)格大小對BEV感知分辨率的影響,因為感知范圍始終與基于激光雷達(dá)的檢測器設(shè)置一致。然而,在一些實際場景中,這些常見設(shè)置是不夠的,例如高速公路上的高速情況,這是另一個需要進(jìn)一步研究的問題。

網(wǎng)絡(luò)設(shè)計

檢測性能的另一個關(guān)鍵因素是不同的特征提取主干和檢測頭。這種方法通常缺乏足夠的語義監(jiān)督來理解透視圖。因此,大多數(shù)方法用基于單目方法預(yù)訓(xùn)練的PV主干進(jìn)行3D檢測或深度估計。使用額外深度數(shù)據(jù)預(yù)訓(xùn)練的大主干可以顯著提高3D檢測性能。至于檢測頭,除了基于激光雷達(dá)檢測的傳統(tǒng)錨點3D檢測頭、無錨點頭和CenterPoint頭之外,基于transformer的方法通常使用DETR3D或Deformable-DETR頭來實現(xiàn)完全端到端的設(shè)計。

輔助任務(wù)

由于在訓(xùn)練過程中可以利用各種數(shù)據(jù)模式,如圖像、視頻和激光雷達(dá)點云,設(shè)計輔助任務(wù)更好地學(xué)習(xí)表征,成為了最近研究的熱點問題。除了深度估計、單目2D/3D檢測和2D車道檢測等經(jīng)典輔助任務(wù)外,還設(shè)計了從交叉模態(tài)設(shè)置中提取知識的方案,如立體視覺學(xué)習(xí)單目和激光雷達(dá)學(xué)習(xí)立體視覺。然而,這一新趨勢仍然側(cè)重于小數(shù)據(jù)集的實驗,需要大規(guī)模數(shù)據(jù)集進(jìn)一步驗證和開發(fā),因為大量訓(xùn)練數(shù)據(jù)可能會削弱這種訓(xùn)練方法的益處。

訓(xùn)練細(xì)節(jié)

首先,由于大多數(shù)方法都涉及視圖轉(zhuǎn)換和不同的模式,因此數(shù)據(jù)增強可以應(yīng)用于PV圖像和BEV網(wǎng)格。最近的方法通常利用三種類型的數(shù)據(jù)增強。其中,BEV網(wǎng)格增強對于該范式尤為重要。此外,對于類不平衡問題,與基于激光雷達(dá)的方法類似,一些方法利用CBGS來增加長尾類的樣本數(shù)量。然而,針對這個問題的工作仍然很少。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25