最新的“視覺為中心的BEV感知”綜述論文

2022-08-17 09:44:12· 來源：計算機視覺深度學(xué)習(xí)和自動駕駛作者：黃浴

最近在IEEE T-PAMI投稿的一篇BEV綜述論文“ Vision-Centric BEV Perception: A Survey“，在arXiv上傳于2022年8月4日，作者來自上海科技大學(xué)、香港中文大學(xué)、香

最近在IEEE T-PAMI投稿的一篇BEV綜述論文“ Vision-Centric BEV Perception: A Survey“，在arXiv上傳于2022年8月4日，作者來自上海科技大學(xué)、香港中文大學(xué)、香港科技大學(xué)、上海AI實驗室和贏徹科技（掛名在肯塔基大學(xué)和馬里蘭大學(xué)）。

以視覺為中心的BEV感知，由于固有的優(yōu)點，如呈現(xiàn)的世界自然表示和融合的友好模式，最近受到了工業(yè)界和學(xué)術(shù)界的越來越多關(guān)注。隨著深度學(xué)習(xí)的快速發(fā)展，人們提出了許多方法來解決以視覺為中心的BEV感知問題。然而，目前還沒有關(guān)于這一新興研究領(lǐng)域的綜述。為了促進(jìn)其未來的研究，本文全面綜述以視覺為中心的BEV感知及其擴展的最新進(jìn)展。該文對常用的算法進(jìn)行了系統(tǒng)的回顧和總結(jié)，還提供了若干BEV感知任務(wù)的深入分析和比較結(jié)果，有助于啟發(fā)未來的研究方向。此外，還討論了實現(xiàn)細(xì)節(jié)，其有助于相關(guān)算法的開發(fā)。

對于低成本的自動駕駛系統(tǒng)，以視覺為中心的BEV感知是一個長期的挑戰(zhàn)，因為攝像頭通常放置在自車上，與地面平行，面向外部。圖像在與BEV正交的透視圖（PV）中獲取，并且兩個視圖之間的變換是不適定問題。最早工作[用單應(yīng)矩陣以物理和數(shù)學(xué)方式將平坦地面從PV轉(zhuǎn)換為BEV。多年來，這種方法一直占據(jù)主導(dǎo)地位，直到平地硬約束無法滿足復(fù)雜真實場景的自主駕駛要求。隨著計算機視覺中數(shù)據(jù)驅(qū)動方法的發(fā)展，近年來出現(xiàn)了許多基于深度學(xué)習(xí)的方法，通過求解PV-BEV變換來促進(jìn)以視覺為中心的BEV感知。

基于視圖變換，當(dāng)前BEV視覺感知工作可分為兩大類：基于幾何的變換和基于網(wǎng)絡(luò)的變換。如圖1所示：

前者充分利用攝像頭的物理原理以可解釋的方式遷移視圖。除了經(jīng)典的基于homograph的方法外，通過顯式或隱式深度估計將2-D特征提升到3-D空間是主要的解決方案。對于圖像的每個像素，都存在一條來自攝影機的光線，該光線會遇到現(xiàn)實世界中的目標(biāo)。不是直接將像素映射到BEV，另一種方法是計算每個像素的深度分布，利用該分布將2D特征提升到3D，然后通過降維從3D獲得BEV表示。

這些方法對深度采用不同的假設(shè)，例如精確值、射線上的均勻分布或射線上的類分布。深度監(jiān)督來自于最終的顯式深度值或任務(wù)監(jiān)督。對于后者，其方法采用神經(jīng)網(wǎng)絡(luò)作為PV到BEV的視圖投影。深度神經(jīng)網(wǎng)絡(luò)在解決計算機視覺任務(wù)方面取得了巨大進(jìn)展，它充當(dāng)了一個復(fù)雜的映射函數(shù)，以不同的模式、維度、表示等將輸入轉(zhuǎn)換為輸出。簡單的想法是使用變分編碼器-解碼器（VE-D）或MLP將PV特征投影到BEV。上述方法在某種程度上采用了自下而上（bottom-up）的策略，以前向的方式處理轉(zhuǎn)換。另一種重要的基于網(wǎng)絡(luò)的方法采用自頂向下（top-down）的策略，通過交叉注意機制直接構(gòu)造BEV query并搜索前視圖像上的相應(yīng)特征。為了匹配不同的下游任務(wù)，各種方法提出稀疏、密集或混合query。

以視覺為中心的BEV感知是，給定輸入圖像序列，算法需要將這些透視圖輸入轉(zhuǎn)換為BEV特征，并執(zhí)行感知任務(wù)，如在BEV中檢測目標(biāo)的3D邊框或周圍環(huán)境的語義圖。與基于激光雷達(dá)的方法相比，以視覺為中心的方法可以從圖像中獲得更豐富的語義信息，并依靠對圖像的高級理解來推斷場景幾何結(jié)構(gòu)，但缺乏精確的深度測量。為了獲得有效解決該問題的統(tǒng)一表示，最近的研究通常采用視圖轉(zhuǎn)換范式，將視角理解轉(zhuǎn)換為感知的BEV特征。

3-D目標(biāo)檢測是3-D感知的核心任務(wù)之一。根據(jù)不同的輸入數(shù)據(jù)模式，該任務(wù)可分為多個設(shè)置，包括基于圖像、基于激光雷達(dá)和基于多模態(tài)的3-D檢測。

基于圖像的3D檢測設(shè)置需要模型預(yù)測僅給定多個圖像的目標(biāo)類別和3-D邊框。以前的工作通常直接從透視圖特征進(jìn)行預(yù)測，這是一個簡單的過程，但在實踐中對多視圖攝像頭數(shù)據(jù)進(jìn)行復(fù)雜的后處理，難以利用來自多個視圖和時間連續(xù)幀的立體視覺線索。因此，最近基于BEV的方法在該領(lǐng)域引起了更多的關(guān)注，并在效率和性能方面取得了巨大的進(jìn)步。

如下表1是BEV 3D檢測的基準(zhǔn)方法：

添加圖片注釋，不超過 140 字（可選）

基于激光雷達(dá)的3-D檢測方法在3-D感知方面取得了巨大成功。由于激光雷達(dá)提供了對周圍3D環(huán)境的精確測量，它們比基于圖像的方法表現(xiàn)出更好的性能，并擁有許多豐富的研究經(jīng)驗。其可以分為基于點和基于體素的方法，基于體素方法在實踐中可以進(jìn)一步簡化為BEV感知。這些成功經(jīng)驗為視覺為中心的BEV感知發(fā)展提供了重要基礎(chǔ)。

RGB圖像包含關(guān)于目標(biāo)顏色、形狀和紋理的豐富信息，但不能提供精確的深度信息，這可以從激光雷達(dá)補充。雷達(dá)只能提供粗略的定位信號，而激光雷達(dá)可以感知物體的運動。如何有效利用這些傳感器是3D感知領(lǐng)域的一個長期問題。隨著視覺為中心的BEV感知發(fā)展，為視覺輸入提供了更加一致和統(tǒng)一的表示學(xué)習(xí)范式，因此組合來自不同模態(tài)的特征也更加方便。

基于BEV的地圖分割有兩條工作路線：即基于MLP的方法和基于Transformer的方法。除了地圖生成外，還需要檢測BEV的車道，以緩解透視的效應(yīng)。3DLaneNet是利用CNN以端到端方式預(yù)測車道3-D位置的開創(chuàng)性工作。GEN LaneNet首先將圖像投影到虛擬頂視圖中，然后設(shè)計兩步框架來回歸車道位置，這可以顯著改善不平路面的車道檢測。Persformer利用類似Transformer的架構(gòu)從前視圖特征生成更好的BEV特征，并同時預(yù)測2D和3D車道。

將透視圖轉(zhuǎn)換為BEV的一個傳統(tǒng)而直接的解決方案是，利用二者之間的自然幾何投影關(guān)系，稱為基于幾何的方法。根據(jù)如何彌合這兩個視圖之間的差距，以前的工作可以分為兩組：基于homograph的方法和基于深度（depth）的方法。前者的早期采用簡化幾何關(guān)系，其近期僅關(guān)注水平地面感知，而后者更適用于實際場景。

基于homograph的方法

3-D空間中的點可以通過透視映射變換到圖像空間，而將圖像像素投影到3-D空間的逆問題是病態(tài)的。逆透視映射（IPM），基于逆映射點位于水平面的附加約束，解決數(shù)學(xué)上不可能的映射問題。單應(yīng)矩陣可以從相機的內(nèi)和外參物理地導(dǎo)出。一些方法用卷積神經(jīng)網(wǎng)絡(luò)（CNN）提取PV圖像的語義特征，并估計圖像中的垂直消失點和地平面消失線（地平線），以確定單應(yīng)矩陣。

IPM運行后，許多下游感知任務(wù)，如光流估計、檢測、分割、運動預(yù)測、規(guī)劃等，都可以基于BEV圖像完成。由于IPM嚴(yán)重依賴于平坦地面假設(shè)，這些基于IPM的方法通常無法準(zhǔn)確檢測地平面上方的目標(biāo)，如建筑物、車輛和行人。一些方法利用語義信息來減少失真。OGMs將PV中車輛的足跡（footprint）分割結(jié)果轉(zhuǎn)換為BEV，遵循h(huán)omography的平坦地面假設(shè)，避免車身位于地面上方造成的變形。根據(jù)這一思想，BEVStitch使用兩個分支來分割車輛和道路的足跡，并分別通過IPM將其轉(zhuǎn)換為BEV，然后縫合到BEV上，構(gòu)建完整的路線圖。

有些方法在網(wǎng)絡(luò)訓(xùn)練階段使用IPM變換特征圖，而不是在預(yù)處理或后處理中應(yīng)用IPM。Cam2BEV通過應(yīng)用IPM變換每個視圖的特征圖，從多個車載攝像頭獲得整體BEV語義圖。MVNet基于IPM將2D特征投影到共享的BEV空間，聚集多視圖特征，并用大卷積核來解決行人檢測中的遮擋問題。3D LaneNet專注于單個圖像預(yù)測車道的3D布局，不假設(shè)攝像機高度，而是以監(jiān)督方式訓(xùn)練額外網(wǎng)絡(luò)分支來估計單應(yīng)矩陣。然后在特征圖的不同尺度上采用投影變換。

由于前向視圖和BEV之間存在較大間隙和嚴(yán)重變形，僅采用IPM不足以在BEV生成無失真圖像或語義圖。BridgeGAN將homography視圖作為中間視圖，并提出了一種基于多GAN的模型來學(xué)習(xí)PV和BEV之間的跨視圖轉(zhuǎn)換，其利用GAN來增強生成的BEV圖像真實性。MonoLayout利用GAN生成不可見位置的信息，并估計具有動態(tài)目標(biāo)的場景布局。

總結(jié)：基于homograph方法主要基于PV和BEV之間平地面的物理映射，具有良好的可解釋性。IPM在下游感知任務(wù)的圖像投影或特征投影中起作用。為了減少地平面以上區(qū)域的失真，充分探索了語義信息，并廣泛使用GAN來提高BEV特征的質(zhì)量。由于從PV到BEV的實際轉(zhuǎn)換是不適定的，IPM的硬假設(shè)解決了部分問題。PV整個特征圖的有效BEV映射仍有待解決。

如圖2是這類方法的按時間順序概述：

PV-BEV變換的一種重要方法是基于深度預(yù)測?；谏疃鹊腜V-BEV方法自然建立在顯式3D表示上。與基于激光雷達(dá)的3-D檢測一樣，基于所使用的表示，這些方法可以分為兩種類型：基于點的方法和基于體素的方法。

基于點的視圖轉(zhuǎn)換

基于點的方法直接使用深度估計將像素轉(zhuǎn)換為點云，在連續(xù)3-D空間中散播。其更直接，更容易集成單目深度估計和基于激光雷達(dá)的3D檢測成熟經(jīng)驗。先驅(qū)工作，偽激光雷達(dá)（pseudo- LiDAR）首先將深度圖轉(zhuǎn)換為偽激光雷達(dá)點，然后輸入最先進(jìn)的基于激光雷達(dá)的3D檢測器。作為一項開創(chuàng)性的場景工作，Pseudo-LiDAR++通過立體視覺深度估計網(wǎng)絡(luò)和損失函數(shù)提高了深度精度。AM3D提出用互補的RGB特征裝飾偽激光雷達(dá)點云。

基于體素的視圖變換

與基于激光雷達(dá)的3-D檢測方法類似，純攝像頭方法也有兩種常見的選擇來表示變換后的3-D特征或幾何。與分布在連續(xù)3-D空間中的點云相比，體素通過離散3-D空間來構(gòu)造用于特征變換的均勻結(jié)構(gòu)，為3-D場景理解提供了更有效的表示；后續(xù)基于BEV的模塊可以直接附加。盡管犧牲了局部空間精度，但在覆蓋大規(guī)模場景結(jié)構(gòu)信息方面其仍然更有效，并且與視圖轉(zhuǎn)換的端到端學(xué)習(xí)范式兼容。

具體而言，該方案通常使用深度引導(dǎo)直接在相應(yīng)的3D位置散射2D特征（而不是點）。先前的工作將2D特征圖與相應(yīng)的預(yù)測深度分布進(jìn)行外積（outer product）來實現(xiàn)這一目標(biāo)。早期的工作假設(shè)分布是均勻的，即沿射線的所有特征都相同，如OFT。這項工作建立了一個內(nèi)部表示，以確定圖像中哪些特征與正交BEV上的位置相關(guān)。在定義的均勻間隔3-D格（lattice）上，它構(gòu)建3-D體素特征圖，并在投影的相應(yīng)圖像特征圖區(qū)域累積特征來填充體素。然后，沿垂直軸對體素特征求和獲得正交特征圖，然后深度卷積神經(jīng)網(wǎng)絡(luò)提取BEV特征用于3-D目標(biāo)檢測。值得注意的是，對于圖像的每個像素，網(wǎng)絡(luò)對分配的3D點預(yù)測相同的表示，即預(yù)測沿深度的均勻分布。這類方法通常不需要深度監(jiān)督，并且可以在視圖轉(zhuǎn)換之后以端到端方式學(xué)習(xí)網(wǎng)絡(luò)中的深度或3D位置信息。

相反，另一種范式會明確預(yù)測深度分布，并以此仔細(xì)構(gòu)建3D特征，LSS代表了這種方法。其預(yù)測深度上的類分布（categorical distribution）和上下文向量，其外積確定透視光線每個點的特征，更好地接近真實深度分布。此外，它將來自所有攝像機的預(yù)測融合到場景的一個結(jié)合表征中，對標(biāo)定誤差更具魯棒性。BEVDet遵循這一LSS范式，提出了一種從BEV進(jìn)行全攝像機多視圖的3D檢測框架，包括圖像視圖編碼器、視圖transformer、BEV編碼器和檢測頭。其新版本BEVDet4D展示了基于多攝像機3D檢測的時域線索。具體而言，該方法保留前一幀的中間BEV特征，并將其與當(dāng)前幀生成的特征連接。

深度監(jiān)督

先前的研究表明，當(dāng)使用預(yù)測深度分布來提升2-D特征時，該分布精度非常重要。CaDDN用經(jīng)典方法對激光雷達(dá)點投影的稀疏深度圖進(jìn)行插值，并以此監(jiān)督深度分布的預(yù)測。這種監(jiān)督和鼓勵鋒利分布預(yù)測的損失函數(shù)，在這種方法中至關(guān)重要。其他基于雙目的3D檢測方法DSGN和LIGA Stereo也依賴于類似的監(jiān)督，其中稀疏的激光雷達(dá)深度圖更有效。其他不用深度標(biāo)簽的方法，只能從稀疏實例標(biāo)注中學(xué)習(xí)此類3D位置或深度信息，僅靠網(wǎng)絡(luò)學(xué)習(xí)，要困難得多。除了將深度監(jiān)督納入檢測框架之外，DD3D和MV-FCOS3D++指出，深度估計和單目3D檢測的預(yù)訓(xùn)練可以顯著增強2D主干的表征學(xué)習(xí)。許多基于BEV的方法也受益于這些預(yù)訓(xùn)練主干。

與基于IPM的方法相結(jié)合

PanopticSeg利用這兩個方法的優(yōu)點，提出一種用于全景分割的dense transformer模塊，其包括一個用IPM的flat transformer，然后進(jìn)行誤差校正，生成平面BEV特征，還有一個用3-D體格（volumetric lattice）建模中間3D空間的vertical transformer。

多視圖聚合做立體匹配

除了單目深度估計外，立體匹配還可以在純攝像頭感知中預(yù)測更精確的深度信息。它依賴于適當(dāng)多視圖設(shè)置自然形成的基線。其中，雙目設(shè)置是最常見和研究最深入的設(shè)置，其特點是重疊區(qū)域大，只有較小的水平偏移才能建立合適的多視圖設(shè)置。在以前工作的一個多視圖設(shè)置中，即安裝在自主車輛的環(huán)視攝像機，相鄰視圖之間的重疊區(qū)域通常非常小，因為主要目標(biāo)是用較少的攝像機覆蓋整個空間。在這種情況下，深度估計主要依賴于單目理解，基于BEV的方法僅在多視圖感知的簡單性和統(tǒng)一性方面具有優(yōu)勢。

相比之下，在雙目情況下的深度估計中具有更重要的優(yōu)點。最近的雙目方法，如DSGN和LIGA-Stereo，通常使用平面掃描（plane sweeping）表征進(jìn)行立體匹配和深度估計。然后，從平面掃描特征體中采樣體素和BEV特征，并執(zhí)行3D檢測。其他針對多視圖設(shè)置的方法，如ImVoxelNet，也顯示了這種基于體素的公式在室內(nèi)場景的有效性，其中重疊區(qū)域在相鄰區(qū)域也更大。此外，對于連續(xù)幀，兩個時域相鄰的圖像也可以滿足這些條件。DfM從理論上分析了這個問題，并采用類似的方法從視頻中實現(xiàn)更精確的單目3D檢測。

總結(jié)：基于深度的視圖變換方法通?；陲@式3-D表示、量化體素或連續(xù)3-D空間的點云散射?；隗w素的方法使用均勻的深度向量或明確預(yù)測的深度分布將2D特征提升到3D體素空間，并執(zhí)行基于BEV的感知。相反，基于點的方法將深度預(yù)測轉(zhuǎn)換為偽激光雷達(dá)表示，然后用自定義網(wǎng)絡(luò)進(jìn)行3-D檢測。如下表2顯示了3-D檢測的結(jié)果。

如圖3是基于深度的方法時間順序概述：

總結(jié)：

早期的方法通常第一步用偽激光雷達(dá)表示，在第二步直接用3D探測器；然而，由于難以進(jìn)行可推廣的端到端訓(xùn)練，面臨著模型復(fù)雜度和性能低的問題。
由于計算效率和靈活性，最近的方法更加關(guān)注基于體素的方法。這種表示已廣泛應(yīng)用于不同任務(wù)的純攝像機方法中。
深度監(jiān)督對于這種基于深度的方法很重要，因為準(zhǔn)確的深度分布可以為特征PV轉(zhuǎn)換為BEV時提供基本線索。
如DfM、BEVDet4D和MV-FCOS3D++所分析的，在時域建模中此類方法是一個有希望的方向。

基于幾何的方法明確建立在攝像機投影過程的物理原理上，將視圖從PV轉(zhuǎn)換為BEV，這是一種可解釋的解決方案。另一種選擇是以數(shù)據(jù)驅(qū)動的方式對視圖轉(zhuǎn)換進(jìn)行建模，有效地利用攝像頭幾何結(jié)構(gòu)，其中神經(jīng)網(wǎng)絡(luò)充當(dāng)PV和BEV之間的映射函數(shù)。為了涵蓋單應(yīng)性等復(fù)雜變換，MLP和transformer是基于網(wǎng)絡(luò)方法的兩個合適選擇。

基于MLP的視圖轉(zhuǎn)換

多層感知器（MLP）在某種程度上可以看作是一個復(fù)雜的映射函數(shù)，其將輸入映射到具有不同模態(tài)、維度或表示的輸出。擺脫標(biāo)定攝像機設(shè)置包含的繼承感應(yīng)偏差，一些方法傾向于利用MLP學(xué)習(xí)攝像機標(biāo)定的隱式表示，實現(xiàn)在兩個不同視圖（即PV和BEV）之間轉(zhuǎn)換，如圖8是MLP的轉(zhuǎn)換方法按時間順序概述。

VED采用MLP瓶頸層的變分編碼器-解碼器架構(gòu)，將駕駛場景的前視圖視覺信息轉(zhuǎn)換為2-D頂視圖笛卡爾坐標(biāo)系。它是第一個對單目圖像執(zhí)行端到端學(xué)習(xí)實時生成語義度量（semantic-metric）占用網(wǎng)格圖（occupancy grid map）的系統(tǒng)。出于對全局感受野的需求，VPN選擇兩層MLP，通過扁平-映射-重塑（flattening-mapping-reshaping）過程將每個PV特征圖轉(zhuǎn)換為BEV特征圖。然后，添加來自不同攝像機的所有特征圖，進(jìn)行多視圖融合。FishingNet基于VPN的視圖轉(zhuǎn)換模塊，將攝像機特征轉(zhuǎn)換為BEV空間，并與雷達(dá)和激光雷達(dá)數(shù)據(jù)進(jìn)行后融合，實現(xiàn)多模態(tài)感知和預(yù)測。

為了充分利用空間上下文并更好地關(guān)注行人等小目標(biāo)，PON和STA-ST首先利用特征金字塔多分辨率地提取圖像特征。然后，通過MLP沿高度軸折疊圖像特征，沿深度軸擴展，執(zhí)行視圖變換。該設(shè)計的思路來自這樣一個觀察事實：雖然網(wǎng)絡(luò)需要大量垂直上下文將特征映射到BEV（由于遮擋、缺乏深度信息和未知的地面拓?fù)洌?，但在水平方向上BEV位置和圖像位置之間的關(guān)系可以用簡單的攝像頭幾何結(jié)構(gòu)建立。

HDMapNet采用了基于MLP的特征投影策略，目的是在BEV中生成矢量化地圖元素，并從周圍攝像機的圖像中嵌入實例和方向。單向投影（unidirectional projection）難以保證前向視圖信息的有效傳遞，因此額外MLP可以將特征從BEV投影回到PV，檢查其是否正確映射。受這種雙向投影的激勵，PYVA提出了一種循環(huán)自監(jiān)督方案，整合視圖投影。它還引入了一個基于注意的特征選擇過程，將兩個視圖關(guān)聯(lián)起來，為下游分割任務(wù)獲得更強的BEV特征。

HFT分析了基于攝像機模型的特征變換和無攝像機模型的特性變換的優(yōu)缺點。前者是基于IPM的方法，可以很容易地處理局部道路和停車場等區(qū)域的PV-BEV轉(zhuǎn)換，但這些方法依賴于平坦地面假設(shè)，對地面以上的區(qū)域進(jìn)行變形。后者，基于MLP或基于注意的方法，可以避免采用這個基礎(chǔ)，但收斂緩慢，沒有任何幾何先驗。為了從這兩種方法中獲益并避免其固有的缺點，HFT設(shè)計了一種混合特征變換，由兩個分支組成，分別利用幾何信息和捕獲全局上下文。

基于MLP的方法忽略了標(biāo)定攝像機的幾何先驗，并利用MLP作為通用映射函數(shù)來建模從PV到 BEV的轉(zhuǎn)換。雖然MLP在理論上是一種通用的近似器，但由于缺乏深度信息、遮擋等原因，視圖變換仍然難以推理。此外，多視圖圖像通常單獨變換，并以“后融合”的方式進(jìn)行集成，這使得基于MLP的方法無法利用重疊區(qū)域帶來的幾何潛力。如表3顯示了基于網(wǎng)絡(luò)（包括MLP）的的視圖轉(zhuǎn)換方法獲得的結(jié)果。

總結(jié)：

基于MLP的方法更多地關(guān)注單個圖像的情況，而多視圖融合還沒有得到充分的研究。
基于MLP的方法通常被最近提出的基于transformer的方法所超越（見后一節(jié)）。

基于Transformer的視圖轉(zhuǎn)換

除了MLP之外，transformer（具有交叉注意）也是一個現(xiàn)成的解決方案，用于將PV映射到 BEEV，無需明確利用攝像頭模型?；贛LP和基于Transformer的張量映射之間有三個主要區(qū)別。首先，由于加權(quán)矩陣在推理過程中是固定的，因此MLP學(xué)習(xí)的映射不依賴于數(shù)據(jù)；相反，transformer中的交叉注意與數(shù)據(jù)相關(guān)，其中加權(quán)矩陣與輸入數(shù)據(jù)相關(guān)。此數(shù)據(jù)相關(guān)性屬性使transformer更具表現(xiàn)力，但很難訓(xùn)練。其次，交叉注意是置換不變的（permutation-invariant），意思是transformer需要位置編碼來區(qū)分輸入順序；MLP對排列自然敏感。最后，基于transformer的方法采用自頂向下的策略，通過構(gòu)造query并通過注意機制搜索相應(yīng)的圖像特征，而不是像基于MLP的方法那樣以前向方式處理視圖變換。

特斯拉是第一個使用Transformer將PV特征投影到BEV平面。該方法首先使用位置編碼設(shè)計一組BEV query，然后通過BEV query和圖像特征之間的交叉注意機制執(zhí)行視圖轉(zhuǎn)換。從那時起，人們提出了許多方法來使用transformer，或者更具體地說，交叉注意來建模視圖轉(zhuǎn)換。根據(jù)transformer解碼器中可學(xué)習(xí)slots（稱為query）的粒度，將這些方法分為三類：基于稀疏query的方法、基于密集query的方法和基于混合 query的方法。如圖10是基于transformer轉(zhuǎn)換方法的按時間順序概述：

如下表4是基于transformer方法的語義分割結(jié)果展示：

下面分別討論三種基于transformer的視圖轉(zhuǎn)換方法。

基于稀疏query的方法

對于基于稀疏查詢的方法，查詢嵌入使網(wǎng)絡(luò)能夠直接產(chǎn)生稀疏感知結(jié)果，而無需顯式執(zhí)行圖像特征的密集變換。這種設(shè)計選擇對于以目標(biāo)為中心的感知任務(wù)（如3D目標(biāo)檢測）是很自然的，但將其擴展到密集感知任務(wù)（例如分割）并不簡單。

受2D檢測框架DETR的啟發(fā)，STSU遵循基于稀疏查詢的框架，從單個圖像提取表示BEV空間中局部道路網(wǎng)絡(luò)的有向圖。該方法還用兩組稀疏查詢來聯(lián)合檢測3-D目標(biāo)，一組用于中心線，另一組用于動態(tài)目標(biāo)，其中網(wǎng)絡(luò)可以利用目標(biāo)和中心線之間的相關(guān)性。后續(xù)工作TopologyPL考慮道路網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)，通過最小循環(huán)（minimal cycles）保持，改進(jìn)了STSU。同時，DETR3D提出了一個類似的范例，但側(cè)重于多攝像機輸入的3D檢測，并用基于幾何的特征采樣過程代替交叉注意。它首先從可學(xué)習(xí)的稀疏查詢中預(yù)測3-D參考點，然后使用標(biāo)定矩陣將參考點投影到圖像平面上，最后對相應(yīng)的多視圖多尺度圖像特征進(jìn)行采樣，進(jìn)行端到端的3-D邊框預(yù)測。為了緩解DETR3D中復(fù)雜的特征采樣過程，PETR將攝像機參數(shù)導(dǎo)出的3-D位置嵌入編碼到2-D多視圖特征中，這樣稀疏查詢可以直接與交叉注意中位置-覺察圖像特征進(jìn)行交互，實現(xiàn)更簡單、更優(yōu)雅的框架。如圖11提供了DETR3D和PETR的范例比較。

后續(xù)工作PETRv2將3D位置嵌入擴展到時域來利用時域信息。為了解決DETR3D中特征聚合不足的問題并改善重疊區(qū)域的感知結(jié)果，Graph-DETR3D通過圖結(jié)構(gòu)學(xué)習(xí)聚合每個目標(biāo)查詢的各種圖像信息來增強目標(biāo)表示。類似地，ORA3D專注于改善DETR3D重疊區(qū)域的性能。它通過立體視差監(jiān)督和對抗訓(xùn)練來規(guī)范重疊區(qū)域的表示學(xué)習(xí)。為了利用環(huán)視攝像機的視圖對稱性作為歸納偏差去簡化優(yōu)化并提高性能，PolarDETR提出3D檢測的極參數(shù)化，它重新制定了邊框參數(shù)化、網(wǎng)絡(luò)預(yù)測和損失計算，所有這些都在極坐標(biāo)系中。它還利用除投影參考點特征之外的上下文特征來緩解DETR3D中上下文信息不足的問題。

SRCN3D基于另一個2D檢測框架SparseRCNN設(shè)計了一種基于稀疏提議（sparse proposal）的多攝像機3D檢測方法，其中每個提議包含一個可學(xué)習(xí)的3D邊框和一個編碼實例特征的可學(xué)習(xí)特征向量。為了取代基于交叉注意的特征交互，提出稀疏特征采樣模塊和動態(tài)實例交互頭，從提議邊框中提取的RoI特征去更新提議的特征。

基于密集query的方法

對于基于密集查詢的方法，每個查詢都預(yù)先分配3D空間或BEV空間的空間位置。查詢數(shù)目由光柵化空間的空間分辨率決定，通常大于基于稀疏查詢方法。密集BEV表示可以通過密集查詢與多個下游任務(wù)（如3D檢測、分割和運動預(yù)測）圖像特征之間的交互來實現(xiàn)。

Tesla首先使用位置編碼和上下文概括在BEV空間中生成密集的BEV查詢，然后利用查詢和多視圖圖像特征之間的交叉注意進(jìn)行視圖轉(zhuǎn)換。在不考慮攝像機參數(shù)的情況下，執(zhí)行BEV查詢和圖像特征之間的普通交叉注意。為了促進(jìn)交叉注意的幾何推理，CVT提出一種攝像頭-覺察的交叉注意模塊，為圖像特征配備從攝像頭內(nèi)外參標(biāo)定中獲得的位置嵌入。由于每個transformer解碼器層的注意操作在大量query和key元素中有較大的內(nèi)存復(fù)雜度，通常限制圖像分辨率和BEV分辨率以減少內(nèi)存開銷，在許多情況下這可能會阻礙模型的可擴展性。

最近，人們做出了許多努力來解決基于密集查詢的方法的這個問題。可變形注意（deformable attention）結(jié)合了可變形卷積的稀疏空間采樣和注意機制的關(guān)系建模能力，只關(guān)注稀疏位置可以顯著減少普通注意的內(nèi)存開銷。BevSefFormer的視圖變換模塊以此進(jìn)行BEV分割，PersFormer的視圖轉(zhuǎn)換模塊以此做3D車道檢測。同時，BEVFormer還采用可變形注意，用于BEV平面的密集查詢與多視圖圖像特征之間的交互。它還設(shè)計一組歷史BEV查詢，并通過查詢和歷史查詢之間的可變形注意操作利用時域線索。

Ego3RT將密集查詢放置在極BEV網(wǎng)格上，并依靠可變形注意使查詢和多視圖圖像特征相互作用。然后，通過網(wǎng)格采樣將極BEV特征轉(zhuǎn)換為笛卡爾特征，用于下游任務(wù)。值得注意的是，BEVFormer和Ego3RT不是直接從BevSeFormer中的查詢特征預(yù)測參考點，而是利用攝像頭參數(shù)和查詢的預(yù)定義3D位置來計算2D參考點，用于變形注意中的特征采樣。

類似地，PersFormer依靠IPM計算圖像的參考點。通過這種設(shè)計，網(wǎng)絡(luò)可以利用幾何先驗，更好地識別圖像的適當(dāng)區(qū)域進(jìn)行引導(dǎo)，但這有可能對標(biāo)定矩陣更加敏感。GKT展開投影2D參考點周圍的核區(qū)域，并將BEV查詢與相應(yīng)展開的核特征進(jìn)行交互，從而在攝像機標(biāo)定固定的情況下，實現(xiàn)從BEV查詢到像素位置的固定映射。該算子可以被視為可變形注意，具有固定采樣偏移和基于相似度的注意權(quán)重。然后，提出一種從BEV-2D的查找表（LUT）索引策略，用于快速推理。

CoBEVT沒有采用可變形注意，而是提出了一種稱為融合軸向注意（FAX）的新注意變型，以低計算復(fù)雜度推理高層次上下文信息和區(qū)域細(xì)節(jié)特征。具體地說，它首先將特征圖劃分為3D非重疊窗口，然后在每個局部窗內(nèi)進(jìn)行局部注意，并在不同窗口之間進(jìn)行全局注意。

另一種有希望減少內(nèi)存開銷的方法是，用3D幾何約束去簡化基于交叉注意的交互。Image2Map提出了一個單目BEV分割框架，首先假設(shè)單目圖像中的垂直掃描線與從攝像機中心開始的BEV平面光線之間存在1-1關(guān)系。然后，視圖轉(zhuǎn)換可以表示為一組1-D序列-序列的轉(zhuǎn)換問題，并通過transformer建模?；谶@種幾何約束，Image2Map避免了2D圖像特征圖和BEV查詢之間的密集交叉關(guān)注，相反，它只包含1-D序列-序列的轉(zhuǎn)換，形成了一個內(nèi)存友好、數(shù)據(jù)高效的體系結(jié)構(gòu)。

GitNet采用逐列 transformer模塊作為視圖變換第二步，增強由基于幾何視圖變換第一步獲得的初始BEV特征。Image2Map和GitNet都只處理單個圖像輸入。當(dāng)考慮360度圖像作為輸入時，需要進(jìn)行額外調(diào)整，來自不同攝像機的極射線對齊到自車坐標(biāo)系中，因為極射線的原點是不同的攝像機中心。PolarFormer設(shè)計了一個極坐標(biāo)對齊模塊，聚集來自多個攝像機的光線，生成結(jié)構(gòu)化極坐標(biāo)特征圖。提出一種多尺度極坐標(biāo)表示學(xué)習(xí)策略，用于處理極坐標(biāo)距離維度上的無約束目標(biāo)尺度變化。與PolarDETR類似，其邊框預(yù)測直接在極坐標(biāo)系中進(jìn)行。

LaRa首先將多視圖圖像特征編碼到潛空間中，然后通過交叉注意模塊查詢潛表示獲得BEV特征，從而控制計算量。緊湊的潛空間，和輸入大小和輸出分辨率進(jìn)行解耦，實現(xiàn)精確的計算預(yù)算控制。此外，提出一種基于射線的位置嵌入方法，該方法從標(biāo)定矩陣中導(dǎo)出，增強視覺特征，并引導(dǎo)特征和潛向量之間的交叉注意。

基于混合 query的方法

基于稀疏查詢的方法適用于以目標(biāo)為中心的任務(wù)，但無法導(dǎo)出顯式密集BEV表示，不適用于密集感知任務(wù)，如BEV分割。因此，PETRv2中設(shè)計了一種混合查詢策略，其中除了稀疏目標(biāo)查詢外，還提出了一種密集分割查詢，每個分割查詢負(fù)責(zé)分割特定的patch（即16×16的形狀）。

稀疏query和致密query的比較

盡管基于稀疏查詢的方法在目標(biāo)檢測任務(wù)上取得了很好的結(jié)果，但其3-D表示在自車坐標(biāo)系下沒有幾何結(jié)構(gòu)感，因此難以執(zhí)行密集預(yù)測任務(wù)，如地圖分割。相反，具有顯式空間分布的稠密查詢?yōu)锽EV空間提供了稠密和統(tǒng)一的表示，很容易采用不同的感知頭。然而，由于大量BEV查詢的巨大計算成本，為了實現(xiàn)高分辨率的特征圖，必須提高注意機制的效率。在過去幾年中，高效transformer結(jié)構(gòu)受到了廣泛關(guān)注。然而，這些工作通常側(cè)重于自注意，其中Key和Query來自同一個元素集。如果Key和Query來自兩個未對齊的集合，其在交叉注意中的有效性，仍有待探索。

幾何線索

從概念上講，基于Transformer的方法可以僅依靠注意機制執(zhí)行視圖變換，并且不一定需要幾何先驗。早期的方法確實沒有將任何幾何信息（如標(biāo)定矩陣或像素深度）納入其transformer框架。然而，置換不變的性質(zhì)使transformer不確定圖像區(qū)域和BEV像素之間的空間關(guān)系，從而使網(wǎng)絡(luò)收斂速度變慢，并且訓(xùn)練需要大量數(shù)據(jù)?，F(xiàn)在有更多的方法試圖利用3D幾何約束實現(xiàn)快速收斂或數(shù)據(jù)效率。

給定查詢的3D坐標(biāo)（預(yù)定義或使用查詢特征預(yù)測），攝像機標(biāo)定矩陣定義了從BEV空間到圖像平面的映射，反之亦然，其為視覺特征和查詢的交互提供了良好的線索。因此，大多數(shù)基于transformer的方法都以各種方式利用了標(biāo)定矩陣。基于deformable attention的方法，通常依賴于攝像機投影矩陣來計算用于特征采樣的2D參考點，這有助于網(wǎng)絡(luò)關(guān)注圖像上的適當(dāng)區(qū)域并拋棄全局注意。

利用標(biāo)定矩陣的另一種有希望的方法是，根據(jù)攝像頭幾何結(jié)構(gòu)將每個圖像垂直掃描線預(yù)先分配給BEV射線，然后將全局交叉注意簡化為逐列注意。該策略還可以顯著節(jié)省計算量。此外，標(biāo)定矩陣可用于生成3-D位置嵌入，以幾何先驗豐富圖像特征，并幫助transformer通過隱式幾何推理學(xué)習(xí)從PV-BEV的映射。

雖然基于transformer的方法不一定需要逐像素深度進(jìn)行視圖變換，但深度信息對于transformer的幾何推理仍然很重要。在nuScenes 目標(biāo)檢測基準(zhǔn)上，大多數(shù)基于transformer的方法受益于深度預(yù)訓(xùn)練，其提供了有用的深度感知2D特征，用于建立查詢和圖像特征之間的關(guān)聯(lián)。深度預(yù)測也可以聯(lián)合優(yōu)化，幫助視覺為中心的3D檢測，其中真值深度可以從投影的激光雷達(dá)點或目標(biāo)方向的深度標(biāo)簽中得出。MonoDTR和MonoDETR都設(shè)計了一個單獨的模塊來生成深度感知特征，并預(yù)測transformer中位置編碼的像素深度。然后，MonoDTR使用transformer集成基于錨點檢測頭的上下文特征和深度特征，而MonoDETR通過備有深度交叉注意的transformer解碼器使目標(biāo)查詢與深度特征交互，修正transformer以實現(xiàn)深度-覺察，從而直接從2D圖像解碼3D預(yù)測。

總結(jié)

基于transformer的視圖投影變得越來越流行。除了作為一個視圖投影器，transformer還可以作為一個特征提取器來取代卷積主干，或者作為一個檢測頭來取代基于錨點的頭和無錨點的頭。隨著在自然語言處理（NLP）中開發(fā)大型transformer模型的趨勢，自主駕駛行業(yè)的研究人員也在探索大型和通用transformer的有效性，為了給感知和預(yù)測等多個任務(wù)提取強大表征。另一方面，基于transformer-解碼器的檢測頭和基于bipartite-matching的標(biāo)簽分配策略已常常用于基于圖像的3D檢測，因為不需要NMS等后處理。

nuScenes數(shù)據(jù)集是最常用的視覺為中心感知數(shù)據(jù)集，六個標(biāo)定攝像機覆蓋360度水平視場。下表5顯示基于transformer的視圖變換方法在nuScenes目標(biāo)檢測基準(zhǔn)上的結(jié)果。

總結(jié)：

當(dāng)考慮密集感知任務(wù)（如道路分割）時，通常采用密集查詢，因為基于稀疏查詢的方法沒有BEV空間的顯式表示。
正如在基于深度的視圖轉(zhuǎn)換方法中所觀察到的，時域信息對于基于transformer的方法也是至關(guān)重要的。時域融合的方法在mAP和mAVE上通常比單幀方法表現(xiàn)更好。
由于每個攝像機的感知范圍都是一個帶有徑向軸的楔形，因此建議不做基于垂直軸的笛卡爾參數(shù)化，而是做基于非垂直軸的極參數(shù)化，這將是進(jìn)一步研究的一個有趣方向。

交通場景的BEV表示，包括精確的位置和尺度信息，可以準(zhǔn)確地映射到真實的物理世界，這有助于許多下游任務(wù)。同時，BEV表示還充當(dāng)物理介質(zhì)，為來自各種傳感器、時間戳和智體的數(shù)據(jù)提供可解釋的融合方式。BEV下的兩個主要擴展是：多任務(wù)學(xué)習(xí)策略和融合方法。

BEV下的多任務(wù)學(xué)習(xí)

從PV-BEV變換方法導(dǎo)出的緊湊有效的BEV表示，對許多下游任務(wù)都很友好，例如目標(biāo)檢測、地圖分割、預(yù)測和運動規(guī)劃。共享主干網(wǎng)可以大大節(jié)省計算成本并提高效率。因此，一些工作試圖使用統(tǒng)一的框架同時執(zhí)行多個任務(wù)。

借助多攝像機視頻的時空BEV表示，F(xiàn)IERY首先提出了一種在一個網(wǎng)絡(luò)結(jié)合感知和預(yù)測的框架。StretchBEV在每個時間戳對潛變量進(jìn)行采樣，并估計殘余變化，產(chǎn)生未來狀態(tài)。為了減少內(nèi)存開銷，BEVerse設(shè)計迭代流程，有效生成未來狀態(tài)，并聯(lián)合推理3D檢測、語義地圖重建和運動預(yù)測任務(wù)。M2BEV還提出了一種基于BEV表示的多任務(wù)方法，并通過均勻深度假設(shè)簡化投影過程以節(jié)省內(nèi)存。

對于基于transformer的方法，為了不同感知任務(wù)，STSU和PETRv2引入和共享圖像特征交互的任務(wù)特定查詢。BEVFormer首先通過密集BEV查詢將多視圖圖像投影到BEV平面上，然后在共享BEV特征圖上采用不同的任務(wù)特定頭，如Deformable DETR和掩碼解碼器，用于端到端的3D目標(biāo)檢測和地圖分割。Ego3RT和PolarFormer也采用了類似的策略。

雖然有幾項研究表明，CNN受益于與多個相關(guān)任務(wù)的聯(lián)合優(yōu)化，但3D目標(biāo)檢測和BEV分割的聯(lián)合訓(xùn)練通常不會帶來改善。檢測性能通常受到影響，不同類別之間對分割性能的改善并不一致。需要更多的努力來探索不同感知任務(wù)之間的依賴關(guān)系，實現(xiàn)聯(lián)合改進(jìn)。

BEV下的融合

BEV表示為多傳感器、多幀和多智體融合提供了一種方便的方法，通過利用綜合信息，極大地提高了自主駕駛中的感知能力。

多模態(tài)融合

目前自動駕駛車輛通常配備三種傳感器，包括攝像頭、激光雷達(dá)和雷達(dá)，執(zhí)行感知任務(wù)。不同的傳感器各有優(yōu)缺點，如表7所示。

攝像機拍攝的圖像具有豐富的外觀特征，如顏色、紋理和邊緣，但對光線敏感，缺乏深度信息。激光雷達(dá)點云包含精確的深度信息和豐富的幾何特征，但缺乏紋理信息。雷達(dá)的探測范圍比激光雷達(dá)長，可以直接捕捉運動目標(biāo)的速度，但點云非常稀疏且噪聲大，難以提取形狀和尺度等視覺特征。一種理想的感知解決方案是在一個網(wǎng)絡(luò)中集成和利用這些傳感器的優(yōu)點，實現(xiàn)高質(zhì)量的性能。然而，由于原始數(shù)據(jù)在表征上的巨大差異，合理有效的融合并不容易。

先前的圖像和點云融合策略可分為數(shù)據(jù)級融合和特征級融合。前者使用標(biāo)定矩陣將像素特征附加到點，反之亦然。后者在直接融合兩種高維特征之前，提取PV的圖像特征和3D或BEV的點云特征。隨著BEV感知算法的快速發(fā)展，一種更具可解釋性的圖像和點云融合方法是將圖像特征傳輸?shù)紹EV，并根據(jù)BEV上的物理對應(yīng)關(guān)系融合來自兩個模態(tài)數(shù)據(jù)的特征。

根據(jù)BEV下的精確融合方法，融合方法可進(jìn)一步分為三類。

第一類依靠深度制導(dǎo)，在3D空間進(jìn)行融合。根據(jù)預(yù)測深度和幾何約束從圖像平面采樣特征來構(gòu)建體素空間。無需顯式攝像機投影，AutoAlign通過自監(jiān)督學(xué)習(xí)自適應(yīng)地對齊像素和3-D體素的語義一致性，并指導(dǎo)跨模態(tài)特征交互。這與AutoAlign中的全局注意不同。AutoAlignV2用確定性投影矩陣指導(dǎo)跨模態(tài)特征的自動對齊，并在模態(tài)之間實現(xiàn)稀疏采樣。然后，對于每個體素，直接建立圖像特征和相關(guān)點云特征之間的關(guān)系。Frustum PointNets 和 CenterFusion 也在3-D空間中進(jìn)行融合處理，利用截錐（frustum）投影將檢測到的2-D目標(biāo)圖像特征變換到相應(yīng)的3-D位置，然后分別與激光雷達(dá)檢測和雷達(dá)檢測進(jìn)行融合。

第二類方法從多模態(tài)輸入中提取的BEV特征，然后融合。BEVFusion在融合階段充分保留圖像的稠密語義信息和空間幾何信息，并提出一種有效的BEV池化操作來加速推理。RRF通過投影和雙線性采樣為圖像特征定義一個3D體，連接光柵化雷達(dá)BEV圖像，并降低垂直維度，最終得到BEV融合特征圖。FISHINGNet將攝像機、激光雷達(dá)和雷達(dá)的特征分別轉(zhuǎn)換為單一、通用、自頂向下的語義網(wǎng)格表示，然后將這些特征聚合為BEV的語義網(wǎng)格預(yù)測。

第三類BEV融合方法以3D檢測任務(wù)為目標(biāo)，將3D參考點初始化為查詢，從所有可用模態(tài)中提取特征進(jìn)行融合。FUTR3D采用基于查詢的模態(tài)無關(guān)特征采樣器和transformer解碼器，用于傳感器融合的3D目標(biāo)檢測；該方法可以容易地適用于任何傳感器組合和設(shè)置。TransFusion用標(biāo)準(zhǔn)的3D和2D主干提取激光雷達(dá)BEV特征圖和圖像特征圖，并依賴前者進(jìn)行查詢初始化。接下來，沿垂直維度壓縮圖像特征，然后用交叉注意將特征投影到BEV平面，與激光雷達(dá)BEV特征融合。具體來說，這種方法是面向輸出的，通過注意機制自適應(yīng)地學(xué)習(xí)如何融合。

時域融合

除了多模態(tài)融合外，時域融合是魯棒可靠感知系統(tǒng)的另一個關(guān)鍵組成部分，原因如下。首先，它累積連續(xù)觀測值，減輕攝像機視圖相關(guān)特性造成的自遮擋和外遮擋的影響，有助于檢測嚴(yán)重遮擋的目標(biāo)并生成可靠的道路圖。其次，時域線索是估計目標(biāo)的時域?qū)傩裕ㄈ缢俣?、加速度、轉(zhuǎn)向等）的必要條件，有助于分類和運動預(yù)測。第三，雖然從單個圖像進(jìn)行深度估計自然是不適定和困難的，但由連續(xù)圖像形成的立體幾何結(jié)構(gòu)為絕對深度估計提供了重要的指導(dǎo)和充分研究的理論基礎(chǔ)。

考慮到時域信息在連續(xù)圖像幀的好處，許多方法將原始輸入信號串聯(lián)起來，將圖像提取的特征串聯(lián)起來，或使用RNN或transformer進(jìn)行視頻理解，但很少采取這些步驟做3D感知。這是因為攝像頭隨著自車移動而改變姿態(tài)，這意味著連續(xù)PV表征沒有嚴(yán)格的物理對應(yīng)關(guān)系。PV中時域特征的直接融合，對精確3D定位帶來改進(jìn)是有限的。幸運的是，BEV表示法很容易轉(zhuǎn)換為世界坐標(biāo)系，可以作為橋梁，以物理方式融合視覺為中心的連續(xù)數(shù)據(jù)。

BEVDet4D首先基于自運動將前一幀BEV特征圖warp到當(dāng)前幀，這樣特征放在同一坐標(biāo)系中，然后沿通道維度連接對齊的特征圖，饋送到檢測頭。這種基于級聯(lián)的時域融合策略簡單且可擴展，如Image2Map、FIREY和PolarFormer等。除級聯(lián)外，還用對稱聚合（symmetric aggregation）函數(shù)，如max、mean，組合時間打包的特征。

當(dāng)運動目標(biāo)在不同的時間戳有不同的網(wǎng)格位置，具有相同物理位置但不同時間的BEV特征可能不屬于相同的目標(biāo)。因此，為了更好地建立不同時間相同目標(biāo)的關(guān)聯(lián)，BEVFormer通過一個自注意層對特征之間的時域連接進(jìn)行建模，其中當(dāng)前BEV特征用作查詢，而warp的前BEV特征作為 Key和Value。

PETRv2沒有打包BEV特征圖，而是直接在PV和3-D坐標(biāo)圖上執(zhí)行包裹操作。它首先通過基于自運動將前幀的3D坐標(biāo)轉(zhuǎn)換為當(dāng)前幀來生成前幀的位置編碼。然后，將兩幀的2-D圖像特征和3-D坐標(biāo)連接在一起，用于transformer解碼器，其中稀疏目標(biāo)查詢能夠與當(dāng)前和以前的特征做交互獲得時域信息。類似地，UniFormer將先前幀的PV特征轉(zhuǎn)換為統(tǒng)一的虛擬視圖，并使用交叉注意去融合和集成所有歷史和當(dāng)前特征。

上述方法都側(cè)重于PV-BEV變換后BEV平面的時域融合。此外，雖然這些工作加入時域信息后顯著提高了定位精度，但沒有明確指出這種現(xiàn)象的理論基礎(chǔ)。相反，DfM從時域線索在深度估計發(fā)揮作用的理論分析開始，并選擇在前期階段利用這些線索，通過更好的深度估計促進(jìn)PV-BEV轉(zhuǎn)換。DfM不依賴于單個圖像的單目理解，而是集成來自時域相鄰圖像的立體幾何線索。為了處理立體視覺估計方法無法處理的情況，其提出了一種單目補償策略來自適應(yīng)平衡單目估計和立體視覺估計?；诰_的深度估計，DfM然后將2D圖像特征提升到3D空間，并檢測其3D目標(biāo)。

如表8所示，將模型從純空間3D空間提升到時-空4D空間可顯著提高整體檢測性能，尤其是速度和方向預(yù)測。然而，大多數(shù)時域模型最多只利用4個先前幀，而長期歷史信息在很大程度上被忽略。例如，當(dāng)幀數(shù)大于4時，BEVFormer的性能開始下降，這意味著遠(yuǎn)距離信息沒有得到很好的利用。

多智體融合

最近文獻(xiàn)大多基于單智體系統(tǒng)，在處理遮擋和檢測完整交通場景中的不穩(wěn)定目標(biāo)方面存在問題。車對車（V2V）通信技術(shù)有可能通過附近自主車輛之間廣播傳感器數(shù)據(jù)來提供同一場景的多視點。根據(jù)這一想法，CoBEVT首先設(shè)計了一個多智體多攝像頭感知框架，該框架可以協(xié)同生成BEV地圖預(yù)測。為了從多智體數(shù)據(jù)中融合攝像頭特征，它首先基于自車姿態(tài)和發(fā)送者的姿態(tài)對來自其他智體的BEV特征進(jìn)行幾何warp，然后用一個transformer和建議的融合軸向注意機制，融合來自多智體的接收BEV特征信息。然而，由于沒有多智體數(shù)據(jù)的可用真實世界數(shù)據(jù)集，因此所提出的框架僅在模擬數(shù)據(jù)集進(jìn)行了驗證，在真實世界的泛化能力仍然未知，需要進(jìn)一步檢查。

視覺為中心的感知方法通常涉及多種數(shù)據(jù)模式，并在類不平衡數(shù)據(jù)集上進(jìn)行實驗，因此需要各種數(shù)據(jù)增強方法，以幾何關(guān)系為保證為較少標(biāo)注的類提供訓(xùn)練技巧。此外，性能和效率之間的平衡也是一個重要問題，包括：感知分辨率、網(wǎng)絡(luò)設(shè)計、輔助任務(wù)和訓(xùn)練細(xì)節(jié)。

感知分辨率

由于始終從PV到BEV做視圖轉(zhuǎn)換，因此這兩個視圖的感知范圍設(shè)置實現(xiàn)了性能和效率的預(yù)期折衷。近年來，隨著圖形卡計算能力的快速發(fā)展，PV圖像分辨率和BEV網(wǎng)格大小顯著增加。如表9所示，增加這些感知分辨率可以顯著提高性能，但也會影響推理速度。盡管這些基于BEV的方法在nuScenes上取得了有希望的結(jié)果，甚至接近基于激光雷達(dá)的方法，但高輸入分辨率造成的高計算負(fù)擔(dān)仍然是部署的一個嚴(yán)重問題，值得進(jìn)一步探索。

此外，這里主要考慮網(wǎng)格大小對BEV感知分辨率的影響，因為感知范圍始終與基于激光雷達(dá)的檢測器設(shè)置一致。然而，在一些實際場景中，這些常見設(shè)置是不夠的，例如高速公路上的高速情況，這是另一個需要進(jìn)一步研究的問題。

網(wǎng)絡(luò)設(shè)計

檢測性能的另一個關(guān)鍵因素是不同的特征提取主干和檢測頭。這種方法通常缺乏足夠的語義監(jiān)督來理解透視圖。因此，大多數(shù)方法用基于單目方法預(yù)訓(xùn)練的PV主干進(jìn)行3D檢測或深度估計。使用額外深度數(shù)據(jù)預(yù)訓(xùn)練的大主干可以顯著提高3D檢測性能。至于檢測頭，除了基于激光雷達(dá)檢測的傳統(tǒng)錨點3D檢測頭、無錨點頭和CenterPoint頭之外，基于transformer的方法通常使用DETR3D或Deformable-DETR頭來實現(xiàn)完全端到端的設(shè)計。

輔助任務(wù)

由于在訓(xùn)練過程中可以利用各種數(shù)據(jù)模式，如圖像、視頻和激光雷達(dá)點云，設(shè)計輔助任務(wù)更好地學(xué)習(xí)表征，成為了最近研究的熱點問題。除了深度估計、單目2D/3D檢測和2D車道檢測等經(jīng)典輔助任務(wù)外，還設(shè)計了從交叉模態(tài)設(shè)置中提取知識的方案，如立體視覺學(xué)習(xí)單目和激光雷達(dá)學(xué)習(xí)立體視覺。然而，這一新趨勢仍然側(cè)重于小數(shù)據(jù)集的實驗，需要大規(guī)模數(shù)據(jù)集進(jìn)一步驗證和開發(fā)，因為大量訓(xùn)練數(shù)據(jù)可能會削弱這種訓(xùn)練方法的益處。

訓(xùn)練細(xì)節(jié)

首先，由于大多數(shù)方法都涉及視圖轉(zhuǎn)換和不同的模式，因此數(shù)據(jù)增強可以應(yīng)用于PV圖像和BEV網(wǎng)格。最近的方法通常利用三種類型的數(shù)據(jù)增強。其中，BEV網(wǎng)格增強對于該范式尤為重要。此外，對于類不平衡問題，與基于激光雷達(dá)的方法類似，一些方法利用CBGS來增加長尾類的樣本數(shù)量。然而，針對這個問題的工作仍然很少。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：技術(shù)分享|可插擴多核板卡的汽車智能分布式實時系統(tǒng)架構(gòu)設(shè)計與實現(xiàn)
上一篇：電驅(qū)動總成差速器殼體疲勞壽命分析

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

最新的“視覺為中心的BEV感知”綜述論文

微信公眾號

基于homograph的方法

基于點的視圖轉(zhuǎn)換

基于體素的視圖變換

深度監(jiān)督

與基于IPM的方法相結(jié)合

多視圖聚合做立體匹配

基于MLP的視圖轉(zhuǎn)換

基于Transformer的視圖轉(zhuǎn)換

基于稀疏query的方法

基于密集query的方法

基于混合 query的方法

稀疏query和致密query的比較

幾何線索

總結(jié)

BEV下的多任務(wù)學(xué)習(xí)

BEV下的融合

多智體融合

感知分辨率

網(wǎng)絡(luò)設(shè)計

輔助任務(wù)

訓(xùn)練細(xì)節(jié)

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工