基于純視覺策略的BEV感知

2022-10-20 09:34:45· 來源：智能汽車設(shè)計(jì)

檢測前置介紹量產(chǎn)級(jí)自動(dòng)駕駛需要對世界進(jìn)行可擴(kuò)展的三維推理。隨著自動(dòng)駕駛汽車和其他交通代理在道路上移動(dòng)，大多數(shù)時(shí)候推理不需要考慮高度，這使得鳥瞰圖 (BEV)

檢測前置介紹

量產(chǎn)級(jí)自動(dòng)駕駛需要對世界進(jìn)行可擴(kuò)展的三維推理。隨著自動(dòng)駕駛汽車和其他交通代理在道路上移動(dòng)，大多數(shù)時(shí)候推理不需要考慮高度，這使得鳥瞰圖 (BEV) 成為一種充分的表示。

為什么需要BEV

在BEV視角施行camera感知可以使來自camera的特征能夠直接的和來自LiDAR的特征（BEV特征）直接融合。

BEV的結(jié)果更加適合下游任務(wù)，prediction and planning。

單純依靠手工制作的規(guī)則將 2D 觀察提升到 3D 是不可擴(kuò)展的。BEV 表示有助于過渡到早期的融合管道，使融合過程完全由數(shù)據(jù)驅(qū)動(dòng)。最后，在僅視覺系統(tǒng)（無雷達(dá)或激光雷達(dá)）中，幾乎必須在 BEV 中執(zhí)行感知任務(wù)，因?yàn)樵趥鞲衅魅诤现袥]有其他 3D 提示可用以執(zhí)行此視圖轉(zhuǎn)換。

四種類型的單目BEV感知

IPM: 需要基于地面平坦的假設(shè)

Lift-splat：利用單目深度估計(jì)提升2D投影到3D，再轉(zhuǎn)到BEV

MLP: 使用 MLP 對視圖轉(zhuǎn)換進(jìn)行建模

Transformer：使用基于注意力的Transformer對視圖轉(zhuǎn)換進(jìn)行建模。具體地說，基于交叉注意的Transformer模塊。

目前比較火的是Lift-splat和Transformer兩種方案，這里也主要總結(jié)這兩種方案。

Lift-splat

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

作者：Jonah Philion，Sanja Fidler
級(jí)別：ECCV 2020
論文鏈接：ecva.net/papers/eccv_20
代碼：github.com/nv-tlabs/lif

Lift, Splat, Shoot(LSS)

框圖如上所示，此處主要關(guān)注環(huán)視圖到BEV特征的轉(zhuǎn)換。

Lift

Lift為了獲取深度信息，提取2D圖像中的像素在以車身坐標(biāo)為原點(diǎn)的3D世界中的特征。

上圖為lift操作的關(guān)鍵定義，即為每個(gè)像素點(diǎn)生成一堆離散的深度值，在模型訓(xùn)練的時(shí)候，由網(wǎng)絡(luò)自己選擇合適的深度。因?yàn)閳D像中每個(gè)像素都對應(yīng)著從相機(jī)出來的一條射線，但是不知道的是這個(gè)像素到底在這條射線上的那個(gè)位置，就像上圖所示的給定了10個(gè)離散的深度分布，可以通過預(yù)測這個(gè)像素屬于某個(gè)分布的概率。
具體代碼如下。

Splat的操作為了算出該像素具體位于3D空間的哪個(gè)坐標(biāo)位置。
目前已經(jīng)得到了像素的2D像素坐標(biāo)以及深度值，再加上相機(jī)的內(nèi)參以及外參，即可計(jì)算得出像素對應(yīng)的3D坐標(biāo)。后續(xù)還有些同grid的特征sum操作。

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

作者: Junjie Huang, Guan Huang, Zheng Zhu, Yun Ye, and Dalong Du
級(jí)別：arxiv 2022，BEV這個(gè)名字的開山之作
設(shè)備：8 NVIDIA GeForce RTX 3090 GPUs
論文鏈接：arxiv.org/abs/2112.1179
代碼：github.com/HuangJunJie2

BEVDet

整體結(jié)構(gòu)不復(fù)雜，甚至可以認(rèn)為是LSS的在3D檢測的拓展，但是其創(chuàng)新性的將環(huán)視圖檢測統(tǒng)一到了BEV空間，為后續(xù)的工作提供了很好的模板。

模型被劃分為四個(gè)部分，Image-view encoder，view-transformer，BEV-Encoder，Head。其中的View ransformer可以被認(rèn)為是LSS中的Lift和Splat操作，F(xiàn)PN-LSS是LSS采用的FPN，是將1/32的特征上采樣2倍后直接與1/16的特征concat。

數(shù)據(jù)增強(qiáng)：

圖像視角：在圖像view下的數(shù)據(jù)增強(qiáng)再經(jīng)過view transformer時(shí)需要一個(gè)逆向的數(shù)據(jù)增強(qiáng)來保證圖像特征與BEV視角的目標(biāo)對齊，所以經(jīng)過view transformer之后，這部分?jǐn)?shù)據(jù)增強(qiáng)失效了。

BEV視角：BEV視角下很多特征是冗余的（環(huán)視圖存在交集），會(huì)導(dǎo)致過擬合。因此，作者在BEV里也應(yīng)用了數(shù)據(jù)增強(qiáng)。

Scale-NMS：

Scale-NMS

BEVDet認(rèn)為圖下視角下的物體都是擁有統(tǒng)一的空間分布，但是在BEV視角下，不同物體的分布是不同的，比如說行人在0.8m的分辨率下（centerpoint輸出），其所占空間甚至小于最小分辨率，因此TPI(True Positive Predicted Instance)與GTI(Ground Truth Instance)在標(biāo)準(zhǔn)的NMS下計(jì)算IOU甚至?xí)s等于0。
此處，作者提出可以先scale object然后在進(jìn)行標(biāo)準(zhǔn)的NMS，方法很簡單，但是很有效。

M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation

作者：Enze Xie, Zhiding Yu, Daquan Zhou, Jonah Philion, Anima Anandkumar, Sanja Fidler, Ping Lu_ _, Jose M. Alvarez
級(jí)別：arxiv 2022
設(shè)備：3 DGX nodes，8 Tesla-V100 GPUs
論文鏈接：arxiv.org/abs/2204.0508
代碼：nvlabs.github.io/M2BEV/

M2BEV與先前模型的區(qū)別

傳統(tǒng)的BEV分割和3D檢測任務(wù)是分割開的，分別進(jìn)行的任務(wù)，最終完成自動(dòng)駕駛的場景感知任務(wù)。

本文的目的是在BEV的統(tǒng)一框架下同時(shí)學(xué)習(xí)BEV分割和3D檢測，完成簡單的場景感知任務(wù)。

M2BEV

主要涉及幾個(gè)重要的設(shè)計(jì)：

有效的2D->3D的投影：作者利用的是LSS中的方案，來將2D特征投影到3D BEV空間，為了減少參數(shù)的計(jì)算，作者和PETR中一樣，認(rèn)為是射線上每個(gè)voxel的權(quán)重都是一致的，從而減少了計(jì)算。

有效的BEV Enocoder：作者采用了類似pillar的方式，將4D tensor （X × Y × Z × C）直接reshape成（X × Y × （Z × C））3Dtensor，然后就可以采用2D CNN計(jì)算減少參數(shù)。

動(dòng)態(tài)的Box 配準(zhǔn)技術(shù)：采用的Free Anchor的技術(shù)。

BEV centerness：在BEV空間中，遠(yuǎn)離ego汽車的區(qū)域?qū)?yīng)于圖像中更少的像素。所以一個(gè)直觀的想法是讓網(wǎng)絡(luò)更多地關(guān)注更遠(yuǎn)的區(qū)域。centerness計(jì)算公式為：

(Xc, Yc)代表中心。

作者提到的幾個(gè)失敗的點(diǎn):

大物體檢測效果不佳，車道線分割效果不佳。分割任務(wù)和檢測任務(wù)不能很好的互補(bǔ)，現(xiàn)在呈現(xiàn)一種對抗的局面

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

作者：Junjie Huang， Guan Huang
級(jí)別：arxiv 2022
設(shè)備：8 NVIDIA GeForce RTX 3090 GPUs
論文鏈接：arxiv.org/pdf/2203.1705
代碼：github.com/HuangJunJie2

BEVDet4D

BEVDet的拓展，首次引入了時(shí)間信息，大大提升了velocity的精度。
具體介紹：

單幀信息有限，影響性能。

在BEVDet的基礎(chǔ)上進(jìn)行細(xì)微的改動(dòng)，主要涉及spatial alignment operation使其能結(jié)合前幀和當(dāng)前幀的特征。

因?yàn)橐肓藭r(shí)間線索，velocity的求解變成了求兩個(gè)幀特征之間的位置offset了。

與BEVFormer的區(qū)別：

BEVFormer使用的是2D視頻目標(biāo)檢測的套路，它使用的是attention在4D 空間-時(shí)間內(nèi)融合特征信息。

BEVFormer的velocity來自多個(gè)相鄰幀的融合特征，比如4幀。

BEVDet4D首先僅采用了兩個(gè)相鄰幀的特征，并且其velocity更加精準(zhǔn)，整體結(jié)構(gòu)更加優(yōu)雅。

上圖為空間對齊操作，為什么需要對齊，以上圖右上角的綠色靜止小車為例，如果不對齊，因?yàn)樽攒噀go-car的運(yùn)動(dòng)，這時(shí)候目標(biāo)在特征圖上的偏移量就包含了自車的運(yùn)動(dòng)成分了，會(huì)使得offset計(jì)算變得非常復(fù)雜。

此為，未對其前的特征offset求解，需要注意的是紅圈區(qū)域，會(huì)出現(xiàn)ego-motion的運(yùn)算，作者提及涉及ego運(yùn)算時(shí)很復(fù)雜麻煩，因此多加了T來抵消。

BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

作者：Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie Zhou, Jiwen Lu
級(jí)別：arxiv 2022
設(shè)備：32 NVDIA GeForce RTX 3090 GPUs
論文鏈接：arxiv.org/abs/2205.0974
代碼：github.com/zhangyp15/BE

BEVerse

將圖像轉(zhuǎn)到BEV空間進(jìn)行特征表達(dá)，就將3D感知和預(yù)測拉到了同一個(gè)特征空間，會(huì)出現(xiàn)將這兩個(gè)任務(wù)拉到一塊并行處理也不意外，BEVerse的目的就是這個(gè)。
原始的順序范式先處理完3D感知任務(wù)，在進(jìn)行預(yù)測的，這樣的做法有兩個(gè)缺點(diǎn)：1. 下一個(gè)過程會(huì)受到上一個(gè)過程精度的影響；2. 重復(fù)的特征抽取會(huì)帶來額外的計(jì)算損耗。BEVerse通過一個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)對特征的抽?。ú⑿械亩鄷r(shí)間戳多視圖特征抽取網(wǎng)絡(luò)->不同時(shí)間戳的特征對齊->時(shí)空BEV編碼器），然后輸入到并行檢測頭，分割頭，motion預(yù)測頭。

BEVerse

Image-view encoder和view Transformer：直接參考的BEVDet。
時(shí)空BEV編碼器：首先需要不同時(shí)間戳的對齊特征，參考的FIERY的BEV編碼，堆疊了一系列的3D卷積，golbal pooling等。
不同的解碼器：
Grid sample：因?yàn)椴煌蝿?wù)需要的BEV分辨率是不同的，因此在應(yīng)用解碼器之前還有一個(gè)Grid sample的操作，主要涉及雙線性插值操作。
Task-encoder：參考的BEVDet。
解碼重點(diǎn)介紹下motion prediction，其他兩個(gè)用的現(xiàn)成的centerpoint和直接卷積輸出即可：

BEVerse改進(jìn)之處

如上圖（a）所示，F(xiàn)IERY首先預(yù)測未來高斯分布參數(shù)，并采樣atent vector，φt，采樣的φt，再擴(kuò)展為latent map（Xmotion × Ymotion × L）形狀，并用于初始化未來狀態(tài)。然后，重復(fù)應(yīng)用ConvGRU（convolutional gated recurrent unit）網(wǎng)絡(luò)塊和瓶頸塊，生成未來狀態(tài){st+1，st+2，···，st+T}。
BEVerse簡化了FIERY的motion predict的過程，認(rèn)為其有兩個(gè)不合理之處，1. latent vector是被所有BEV pixel所共享的，不能反應(yīng)具體不同物體位置的uncertainties。2. 初始的特征狀態(tài)只和atent vector有關(guān)，增加了預(yù)測的難度。
BEVerse改進(jìn)了這兩點(diǎn)，1.直接預(yù)測latent map而不是latent vector expand之后生成，可以體現(xiàn)不同objects的uncertainties。2. 初始狀態(tài)是和f當(dāng)前狀態(tài)和latent map之間的flow有關(guān)，簡化了學(xué)習(xí)的難度。

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird' s-Eye View Representation

作者：Zhijian Liu_, _Haotian Tang,Alexander Amini,Xinyu Yang,Huizi Mao,Daniela Rus, Song Han
級(jí)別：arxiv 2022
論文鏈接：arxiv.org/abs/2205.1354
代碼：github.com/mit-han-lab/

多模態(tài)的3D目標(biāo)檢測，融合方式可以大致分為以下幾種：

融合方式

圖a，LiDAR to Camera，這種形式的投影會(huì)造成地理結(jié)構(gòu)的損失，比如a圖中的紅色區(qū)域和藍(lán)色區(qū)域其實(shí)在距離非常的遠(yuǎn)，投影到圖像上變得很近了，這是不合理的，

圖b，Camera to LiDAR，語義損失，因?yàn)閕mage的特征或者說密度遠(yuǎn)遠(yuǎn)高于點(diǎn)云，投影之后大概經(jīng)由5％的特征能夠匹配上點(diǎn)云特征。

BEVFusion提出的方法，BEVFusion除了要完成檢測之外還要實(shí)現(xiàn)BEV的語義分割，因此proposal-level的融合方式肯定是不行的，其次，是Point-level fusion的方法，也是一樣的問題，都是_object-centric _and _geometric-centric_的，歸功于現(xiàn)有的BEV 3D感知方法的成功，比如BEVDet，LSS等，BEVFusion在BEV特征空間內(nèi)進(jìn)行特征的交互和融合。

BEVFusion

基于BEVDet，BEVFusion的修改之處是，BEV pooling，將運(yùn)算速度提升了40倍以上，文中稱為Efficient Camera-to-BEV Transformation。

Camera-to-BEV Transformation

將環(huán)視圖投影到BEV空間，一般采用的是LSS的方法，將深度概率與特征相乘作為gird內(nèi)的部分特征，然后需要應(yīng)用BEV pooling根據(jù)grid的索引將同一個(gè)grid內(nèi)的特征相加作為bev特征。計(jì)算的大量消耗就在這里，因?yàn)橐?jì)算所有bev grid的points，而points的數(shù)量往往是百萬級(jí)別的（例，63288*61）。

作者采用了兩個(gè)措施來增加這個(gè)過程的效率，分別是Precomputation和Interval Reduction。

Precomputation（預(yù)計(jì)算）：因?yàn)橄鄼C(jī)的內(nèi)外參數(shù)是固定的，因此可以預(yù)先計(jì)算好每個(gè)point對應(yīng)的3D坐標(biāo)以及bev grid索引，并事先根據(jù)grid indices sort好所有的points，以備后面過程的調(diào)用。效果：17ms ->4ms

Interval Reduction（間隔減?。?/span>：接下來就需要完成聚合同一個(gè)BEV grid中的特征。如上圖b，現(xiàn)有的方法是采用prefix sum（前綴和，即直接累加，然后通過index邊界求sum相減獲得最終結(jié)果）的方法來計(jì)算的，這種方式很不高校，因?yàn)槠鋵?shí)我們并不需要累加得結(jié)果，只需要各個(gè)gird索引分支特征聚合結(jié)果，因此BEVFusion提出了可以為每個(gè)gird分配一個(gè)GPU核心，然后并行的計(jì)算grid中的結(jié)果。效果：500ms -> 2ms

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

作者：Yinhao Li, Zheng Ge, Guanyi Yu, Jinrong Yang, Zengran Wang, Yukang Shi, Jianjian Sun, Zeming Li
級(jí)別：arxiv 2022
論文鏈接：arxiv.org/pdf/2206.1009
代碼：github.com/Megvii-baseD

BEVDepth

一句話總結(jié)，直接從LiDAR中抽取了depth信息作為輔助監(jiān)督....，基于BEVDet，主要涉及幾個(gè)改動(dòng)：

depth監(jiān)督直接從LiDAR得到，顯式精確的監(jiān)督，不再是通過3D bbox GT隱式監(jiān)督

depth校準(zhǔn)模塊和camera aware depth predict

Efficient Voxel Pooling

depth network和Efficient Voxel Pooling

1，2兩點(diǎn)都是為了優(yōu)化深度預(yù)測，如上圖3所示，depth校準(zhǔn)模塊指的式后面的Res和DCN的部分，目的是拓展模型的感受野使其關(guān)注更多的深度信息以及獲得動(dòng)態(tài)的感受野范圍。camera aware depth predict就是camera intrinsics這一分支，使其作為深度的估計(jì)的先驗(yàn)，并通過類似SE的方式對輸入圖像特征進(jìn)行自適應(yīng)的調(diào)整。

第3點(diǎn)的操作類似于BEVFusion的bev pooling，主要思想是為每個(gè)grid分配一個(gè)CUDA線程，該線程用于將特征添加到相應(yīng)的BEV gird中。

BEVDepth多幀版本

Transformer

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

作者：Yue Wang，Vitor Guizilini，Tianyuan Zhang，Yilun Wang，Hang Zhao，Justin Solomon
級(jí)別：CORL 2021
設(shè)備：8 RTX 3090 GPUs
論文鏈接：arxiv.org/abs/2110.0692
代碼：github.com/WangYueFt/de

DETR3D

需要的參數(shù)：環(huán)視圖，相機(jī)的內(nèi)外參數(shù)
利用環(huán)視圖作3D目標(biāo)檢測，不像LSS需要將環(huán)視圖壓到BEV空間，直接利用了transformer。

通過幾何反投影將二維特征提取與三維物體預(yù)測聯(lián)系起來。

為了收集特定場景的信息，將從這些解碼的object queries中一組參考點(diǎn)重新投影到每個(gè)攝像機(jī)上，并獲取由ResNet骨干提取的相應(yīng)圖像特征。

參考點(diǎn)對應(yīng)得圖像特征中收集到的特征通過多頭自注意力相互作用。在一系列的自注意層之后，DETR3D從每一層讀取邊界框參數(shù)，并使用受DETR啟發(fā)的集合到set損失來評(píng)估性能。

上圖網(wǎng)絡(luò)結(jié)構(gòu)的解析：

① Resnet+FPN-->獨(dú)立的提取各個(gè)環(huán)視圖的特征

② data-->object queries-->3D location(投影到圖像平面收集圖像特征)

③detr檢測頭

PS:存在多個(gè)視圖之間存在重疊的問題，即該物體存在于多個(gè)視圖的問題，解決辦法：定義了一個(gè)二值特征，由是否參考點(diǎn)投影之后超出了圖像平面所決定。

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

作者：Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun
級(jí)別：ECCV 2022
設(shè)備：8 Tesla V100 GPUs
論文鏈接：arxiv.org/abs/2203.0562
代碼：github.com/megvii-resea

PETR

DETR3D的后續(xù)工作，主要的出發(fā)點(diǎn)是：Query和feature應(yīng)該在同一個(gè)特征維度，這樣框架既簡單又優(yōu)雅。

DETR，DETR3D，PETR三者的區(qū)別

如上圖所示是DETR，DETR3D，PETR三者的區(qū)別：

DETR：因?yàn)槭?D目標(biāo)檢測，他的query和特征都是處于2d維度的。

DETR3D：采用了一種折中的方案，query是3D維度的，但是特征是2D感知的，采用的方法就是上面DETR3D部分說的，這種方法存在顯而易見的缺點(diǎn)：1. 特征在reference points對應(yīng)的圖像特征區(qū)域編碼，獲取的特征范圍十分local。2. 這個(gè)反投影，在投影回來的過程影響應(yīng)用。

PETR：生成了3D position embedding，然后用3D位置編碼和2D特征結(jié)合得到3D感知的特征，再和3D維度下的query進(jìn)行特征交互。

PETR最重要的點(diǎn)就在于3D感知特征的獲取。

在獲取3D感知的特征之前，需要先了解下怎么生成3D position embedding，畢竟圖像上是沒有3D坐標(biāo)的。

PETR中采用的方法與前面提到LSS方法相似，但是又沒那么復(fù)雜。他并沒有對于柵格化后施以不同的權(quán)重。

首先如圖所示，相機(jī)的視錐被離散成（W,H,D）,D代表D個(gè)離散的深度值（采用和前面的LSS方法一樣的60）。

有了深度D之后就能將上述視錐中的坐標(biāo)利用transformation matrix轉(zhuǎn)到3D空間中。

歸一化3D坐標(biāo)，(nuscenes的范圍一般是前后51.2m，深度[-3m,5m])。

3D position encoder

上圖即為3D position encoder的編碼過程。

BEVFormer: Learning Bird' s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

作者：Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, Jifeng Dai
級(jí)別：ECCV 2022
設(shè)備：8 Tesla V100 GPUs
論文鏈接：arxiv.org/abs/2203.1727
代碼：github.com/zhiqi-li/BEV

BEVFormer流程簡圖

先貼一個(gè)簡單的整體流程圖，可以看到主要分為三個(gè)部分，BEV Queris，Spatial Attention和Temporal Attention。

本文提出了一種帶空間和時(shí)間的Transformer基礎(chǔ)的在統(tǒng)一的BEV表達(dá)下實(shí)現(xiàn)的自動(dòng)駕駛感知任務(wù)，主要涉及3D檢測和BEV分割任務(wù)。BEVFormer通過預(yù)定義的在grid sampled的BEV queris來探索時(shí)間和空間特征。

BEVFormer

具體做法：

1.生成grid shape的BEV query。

不像DETR3D直接是3D的query，這里需要轉(zhuǎn)成3D坐標(biāo) ，采用了類似pillar的做法，采樣了N個(gè)高度，這樣這個(gè)位置會(huì)得到N個(gè)3D reference points（文中nuscenes的可視范圍認(rèn)為是-5m到3m，每2米采樣一個(gè)點(diǎn)，共四個(gè)。
此外，BEV map的分辨率是200*200，因此共有200*200*4個(gè)）

2. spatial cross-attention，聚合環(huán)視圖特征。

在ROIs應(yīng)用cross-attention extract空間特征，希望設(shè)計(jì)一種不依賴深度信息（畢竟2d-3d，深度估計(jì)什么的是一個(gè)ill-posed的任務(wù)）并且能夠自適應(yīng)的生成BEV特征而不是嚴(yán)格依賴于3D先驗(yàn)的方法。
做法：采用了deformable attention，deformable attention該BEV query所投影的2D坐標(biāo)所涉及到的views。

3. temporal self-attention，從歷史的BEV features中抽取特征，有利于速度和強(qiáng)遮擋物體的檢測。

首先需要對齊不同幀的特征，以確保同一個(gè)grid內(nèi)對應(yīng)的real world的坐標(biāo)是一致的。其次，因?yàn)楝F(xiàn)實(shí)場景中物體的運(yùn)動(dòng)方向是各式各樣的，產(chǎn)生的oofsets也是大不相同的。如何構(gòu)建同一對象在不同幀之間的精確關(guān)聯(lián)很重要。做法是：采用的deformable attention，在第一個(gè)時(shí)間戳是沒有再前一時(shí)間戳的信息了，因此第一幀做的是真正的self-attention。

PS：

為什么用deformable transformer：
使用deformable attention可以減少運(yùn)算的開銷，是的注意力機(jī)制從dense變成了sparse，從而是的顯存的開銷和圖像特征大小無關(guān)了，只于reference points有關(guān)。

一些訓(xùn)練和推理時(shí)的不同之處：訓(xùn)練時(shí)，作者運(yùn)用了四個(gè)時(shí)間戳的特征，因?yàn)閚uscenes每0.5標(biāo)記一個(gè)場景，因此前三個(gè)時(shí)間戳作者是隨機(jī)采樣了三個(gè)場景。測試時(shí)，直接按時(shí)間順序進(jìn)入網(wǎng)絡(luò)。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：直播丨基于i-TESTER AVE 2100 的泊車系統(tǒng)測評(píng)解決方案
上一篇：電驅(qū)技術(shù)|蔚來電驅(qū)系統(tǒng)簡析

點(diǎn)贊 0 反對 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于純視覺策略的BEV感知

微信公眾號(hào)

檢測前置介紹

為什么需要BEV

四種類型的單目BEV感知

Lift-splat

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird' s-Eye View Representation

Transformer

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

BEVFormer: Learning Bird' s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于純視覺策略的BEV感知

微信公眾號(hào)

檢測前置介紹

為什么需要BEV

四種類型的單目BEV感知

Lift-splat

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird' s-Eye View Representation

Transformer

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

BEVFormer: Learning Bird' s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將