日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

基于純視覺策略的BEV感知

2022-10-20 09:34:45·  來源:智能汽車設(shè)計(jì)  
 
檢測前置介紹量產(chǎn)級(jí)自動(dòng)駕駛需要對世界進(jìn)行可擴(kuò)展的三維推理。隨著自動(dòng)駕駛汽車和其他交通代理在道路上移動(dòng),大多數(shù)時(shí)候推理不需要考慮高度,這使得鳥瞰圖 (BEV)

檢測前置介紹

量產(chǎn)級(jí)自動(dòng)駕駛需要對世界進(jìn)行可擴(kuò)展的三維推理。隨著自動(dòng)駕駛汽車和其他交通代理在道路上移動(dòng),大多數(shù)時(shí)候推理不需要考慮高度,這使得鳥瞰圖 (BEV) 成為一種充分的表示。

為什么需要BEV

在BEV視角施行camera感知可以使來自camera的特征能夠直接的和來自LiDAR的特征(BEV特征)直接融合。

BEV的結(jié)果更加適合下游任務(wù),prediction and planning。

單純依靠手工制作的規(guī)則將 2D 觀察提升到 3D 是不可擴(kuò)展的。BEV 表示有助于過渡到早期的融合管道,使融合過程完全由數(shù)據(jù)驅(qū)動(dòng)。最后,在僅視覺系統(tǒng)(無雷達(dá)或激光雷達(dá))中,幾乎必須在 BEV 中執(zhí)行感知任務(wù),因?yàn)樵趥鞲衅魅诤现袥]有其他 3D 提示可用以執(zhí)行此視圖轉(zhuǎn)換。

四種類型的單目BEV感知

IPM: 需要基于地面平坦的假設(shè)

Lift-splat:利用單目深度估計(jì)提升2D投影到3D,再轉(zhuǎn)到BEV

MLP: 使用 MLP 對視圖轉(zhuǎn)換進(jìn)行建模

Transformer:使用基于注意力的Transformer對視圖轉(zhuǎn)換進(jìn)行建模。具體地說,基于交叉注意的Transformer模塊。

目前比較火的是Lift-splat和Transformer兩種方案,這里也主要總結(jié)這兩種方案。

Lift-splat

Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

作者:Jonah Philion,Sanja Fidler
級(jí)別:ECCV 2020
論文鏈接:ecva.net/papers/eccv_20
代碼:github.com/nv-tlabs/lif
圖片

Lift, Splat, Shoot(LSS)


框圖如上所示,此處主要關(guān)注環(huán)視圖到BEV特征的轉(zhuǎn)換。

圖片

Lift


Lift為了獲取深度信息,提取2D圖像中的像素在以車身坐標(biāo)為原點(diǎn)的3D世界中的特征。

上圖為lift操作的關(guān)鍵定義,即為每個(gè)像素點(diǎn)生成一堆離散的深度值,在模型訓(xùn)練的時(shí)候,由網(wǎng)絡(luò)自己選擇合適的深度。因?yàn)閳D像中每個(gè)像素都對應(yīng)著從相機(jī)出來的一條射線,但是不知道的是這個(gè)像素到底在這條射線上的那個(gè)位置,就像上圖所示的給定了10個(gè)離散的深度分布,可以通過預(yù)測這個(gè)像素屬于某個(gè)分布的概率。
具體代碼如下。


	

Splat的操作為了算出該像素具體位于3D空間的哪個(gè)坐標(biāo)位置。
目前已經(jīng)得到了像素的2D像素坐標(biāo)以及深度值,再加上相機(jī)的內(nèi)參以及外參,即可計(jì)算得出像素對應(yīng)的3D坐標(biāo)。后續(xù)還有些同grid的特征sum操作。

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

作者: Junjie Huang, Guan Huang, Zheng Zhu, Yun Ye, and Dalong Du
級(jí)別:arxiv 2022,BEV這個(gè)名字的開山之作
設(shè)備:8 NVIDIA GeForce RTX 3090 GPUs
論文鏈接:arxiv.org/abs/2112.1179
代碼:github.com/HuangJunJie2
圖片

BEVDet

整體結(jié)構(gòu)不復(fù)雜,甚至可以認(rèn)為是LSS的在3D檢測的拓展,但是其創(chuàng)新性的將環(huán)視圖檢測統(tǒng)一到了BEV空間,為后續(xù)的工作提供了很好的模板。

模型被劃分為四個(gè)部分,Image-view encoder,view-transformer,BEV-Encoder,Head。其中的View ransformer可以被認(rèn)為是LSS中的Lift和Splat操作,F(xiàn)PN-LSS是LSS采用的FPN,是將1/32的特征上采樣2倍后直接與1/16的特征concat。

數(shù)據(jù)增強(qiáng):

圖像視角:在圖像view下的數(shù)據(jù)增強(qiáng)再經(jīng)過view transformer時(shí)需要一個(gè)逆向的數(shù)據(jù)增強(qiáng)來保證圖像特征與BEV視角的目標(biāo)對齊,所以經(jīng)過view transformer之后,這部分?jǐn)?shù)據(jù)增強(qiáng)失效了。

BEV視角:BEV視角下很多特征是冗余的(環(huán)視圖存在交集),會(huì)導(dǎo)致過擬合。因此,作者在BEV里也應(yīng)用了數(shù)據(jù)增強(qiáng)。

Scale-NMS:

圖片

Scale-NMS

BEVDet認(rèn)為圖下視角下的物體都是擁有統(tǒng)一的空間分布,但是在BEV視角下,不同物體的分布是不同的,比如說行人在0.8m的分辨率下(centerpoint輸出),其所占空間甚至小于最小分辨率,因此TPI(True Positive Predicted Instance)與GTI(Ground Truth Instance)在標(biāo)準(zhǔn)的NMS下計(jì)算IOU甚至?xí)s等于0。
此處,作者提出可以先scale object然后在進(jìn)行標(biāo)準(zhǔn)的NMS,方法很簡單,但是很有效。

M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation

作者:Enze Xie, Zhiding Yu, Daquan Zhou, Jonah Philion, Anima Anandkumar, Sanja Fidler, Ping Lu_ _, Jose M. Alvarez
級(jí)別:arxiv 2022
設(shè)備:3 DGX nodes,8 Tesla-V100 GPUs
論文鏈接:arxiv.org/abs/2204.0508
代碼:nvlabs.github.io/M2BEV/
圖片

M2BEV與先前模型的區(qū)別

傳統(tǒng)的BEV分割和3D檢測任務(wù)是分割開的,分別進(jìn)行的任務(wù),最終完成自動(dòng)駕駛的場景感知任務(wù)。

本文的目的是在BEV的統(tǒng)一框架下同時(shí)學(xué)習(xí)BEV分割和3D檢測,完成簡單的場景感知任務(wù)。

圖片

M2BEV

主要涉及幾個(gè)重要的設(shè)計(jì):

有效的2D->3D的投影:作者利用的是LSS中的方案,來將2D特征投影到3D BEV空間,為了減少參數(shù)的計(jì)算,作者和PETR中一樣,認(rèn)為是射線上每個(gè)voxel的權(quán)重都是一致的,從而減少了計(jì)算。

有效的BEV Enocoder:作者采用了類似pillar的方式,將4D tensor (X × Y × Z × C)直接reshape成(X × Y × (Z × C))3Dtensor,然后就可以采用2D CNN計(jì)算減少參數(shù)。

動(dòng)態(tài)的Box 配準(zhǔn)技術(shù):采用的Free Anchor的技術(shù)。

BEV centerness:在BEV空間中,遠(yuǎn)離ego汽車的區(qū)域?qū)?yīng)于圖像中更少的像素。所以一個(gè)直觀的想法是讓網(wǎng)絡(luò)更多地關(guān)注更遠(yuǎn)的區(qū)域。centerness計(jì)算公式為:

圖片

(Xc, Yc)代表中心。

作者提到的幾個(gè)失敗的點(diǎn):

大物體檢測效果不佳,車道線分割效果不佳。分割任務(wù)和檢測任務(wù)不能很好的互補(bǔ),現(xiàn)在呈現(xiàn)一種對抗的局面

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

作者:Junjie Huang, Guan Huang
級(jí)別:arxiv 2022
設(shè)備:8 NVIDIA GeForce RTX 3090 GPUs
論文鏈接:arxiv.org/pdf/2203.1705
代碼:github.com/HuangJunJie2
圖片

BEVDet4D

BEVDet的拓展,首次引入了時(shí)間信息,大大提升了velocity的精度。
具體介紹:

單幀信息有限,影響性能。

在BEVDet的基礎(chǔ)上進(jìn)行細(xì)微的改動(dòng),主要涉及spatial alignment operation使其能結(jié)合前幀和當(dāng)前幀的特征。

因?yàn)橐肓藭r(shí)間線索,velocity的求解變成了求兩個(gè)幀特征之間的位置offset了。

與BEVFormer的區(qū)別:

BEVFormer使用的是2D視頻目標(biāo)檢測的套路,它使用的是attention在4D 空間-時(shí)間內(nèi)融合特征信息。

BEVFormer的velocity來自多個(gè)相鄰幀的融合特征,比如4幀。

BEVDet4D首先僅采用了兩個(gè)相鄰幀的特征,并且其velocity更加精準(zhǔn),整體結(jié)構(gòu)更加優(yōu)雅。

圖片

上圖為空間對齊操作,為什么需要對齊,以上圖右上角的綠色靜止小車為例,如果不對齊,因?yàn)樽攒噀go-car的運(yùn)動(dòng),這時(shí)候目標(biāo)在特征圖上的偏移量就包含了自車的運(yùn)動(dòng)成分了,會(huì)使得offset計(jì)算變得非常復(fù)雜。

圖片

此為,未對其前的特征offset求解,需要注意的是紅圈區(qū)域,會(huì)出現(xiàn)ego-motion的運(yùn)算,作者提及涉及ego運(yùn)算時(shí)很復(fù)雜麻煩,因此多加了T來抵消。

圖片

BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

作者:Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie Zhou, Jiwen Lu
級(jí)別:arxiv 2022
設(shè)備:32 NVDIA GeForce RTX 3090 GPUs
論文鏈接:arxiv.org/abs/2205.0974
代碼:github.com/zhangyp15/BE
圖片

BEVerse

將圖像轉(zhuǎn)到BEV空間進(jìn)行特征表達(dá),就將3D感知和預(yù)測拉到了同一個(gè)特征空間,會(huì)出現(xiàn)將這兩個(gè)任務(wù)拉到一塊并行處理也不意外,BEVerse的目的就是這個(gè)。
原始的順序范式先處理完3D感知任務(wù),在進(jìn)行預(yù)測的,這樣的做法有兩個(gè)缺點(diǎn):1. 下一個(gè)過程會(huì)受到上一個(gè)過程精度的影響;2. 重復(fù)的特征抽取會(huì)帶來額外的計(jì)算損耗。BEVerse通過一個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)對特征的抽?。ú⑿械亩鄷r(shí)間戳多視圖特征抽取網(wǎng)絡(luò)->不同時(shí)間戳的特征對齊->時(shí)空BEV編碼器),然后輸入到并行檢測頭,分割頭,motion預(yù)測頭。

圖片

BEVerse

Image-view encoder和view Transformer:直接參考的BEVDet。
時(shí)空BEV編碼器:首先需要不同時(shí)間戳的對齊特征,參考的FIERY的BEV編碼,堆疊了一系列的3D卷積,golbal pooling等。
不同的解碼器:
Grid sample:因?yàn)椴煌蝿?wù)需要的BEV分辨率是不同的,因此在應(yīng)用解碼器之前還有一個(gè)Grid sample的操作,主要涉及雙線性插值操作。
Task-encoder:參考的BEVDet。
解碼重點(diǎn)介紹下motion prediction,其他兩個(gè)用的現(xiàn)成的centerpoint和直接卷積輸出即可:

圖片

BEVerse改進(jìn)之處

如上圖(a)所示,F(xiàn)IERY首先預(yù)測未來高斯分布參數(shù),并采樣atent vector,φt,采樣的φt,再擴(kuò)展為latent map(Xmotion × Ymotion × L)形狀,并用于初始化未來狀態(tài)。然后,重復(fù)應(yīng)用ConvGRU(convolutional gated recurrent unit)網(wǎng)絡(luò)塊和瓶頸塊,生成未來狀態(tài){st+1,st+2,···,st+T}。
BEVerse簡化了FIERY的motion predict的過程,認(rèn)為其有兩個(gè)不合理之處,1. latent vector是被所有BEV pixel所共享的,不能反應(yīng)具體不同物體位置的uncertainties。2. 初始的特征狀態(tài)只和atent vector有關(guān),增加了預(yù)測的難度。
BEVerse改進(jìn)了這兩點(diǎn),1.直接預(yù)測latent map而不是latent vector expand之后生成,可以體現(xiàn)不同objects的uncertainties。2. 初始狀態(tài)是和f當(dāng)前狀態(tài)和latent map之間的flow有關(guān),簡化了學(xué)習(xí)的難度。

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird' s-Eye View Representation

作者:Zhijian Liu_, _Haotian Tang,Alexander Amini,Xinyu Yang,Huizi Mao,Daniela Rus, Song Han
級(jí)別:arxiv 2022
論文鏈接:arxiv.org/abs/2205.1354
代碼:github.com/mit-han-lab/

多模態(tài)的3D目標(biāo)檢測,融合方式可以大致分為以下幾種:

圖片

融合方式

圖a,LiDAR to Camera,這種形式的投影會(huì)造成地理結(jié)構(gòu)的損失,比如a圖中的紅色區(qū)域和藍(lán)色區(qū)域其實(shí)在距離非常的遠(yuǎn),投影到圖像上變得很近了,這是不合理的,

圖b,Camera to LiDAR,語義損失,因?yàn)閕mage的特征或者說密度遠(yuǎn)遠(yuǎn)高于點(diǎn)云,投影之后大概經(jīng)由5%的特征能夠匹配上點(diǎn)云特征。

BEVFusion提出的方法,BEVFusion除了要完成檢測之外還要實(shí)現(xiàn)BEV的語義分割,因此proposal-level的融合方式肯定是不行的,其次,是Point-level fusion的方法,也是一樣的問題,都是_object-centric _and _geometric-centric_的,歸功于現(xiàn)有的BEV 3D感知方法的成功,比如BEVDet,LSS等,BEVFusion在BEV特征空間內(nèi)進(jìn)行特征的交互和融合。

圖片

BEVFusion

基于BEVDet,BEVFusion的修改之處是,BEV pooling,將運(yùn)算速度提升了40倍以上,文中稱為Efficient Camera-to-BEV Transformation。

圖片

Camera-to-BEV Transformation

將環(huán)視圖投影到BEV空間,一般采用的是LSS的方法,將深度概率與特征相乘作為gird內(nèi)的部分特征,然后需要應(yīng)用BEV pooling根據(jù)grid的索引將同一個(gè)grid內(nèi)的特征相加作為bev特征。計(jì)算的大量消耗就在這里,因?yàn)橐?jì)算所有bev grid的points,而points的數(shù)量往往是百萬級(jí)別的(例,63288*61)。

作者采用了兩個(gè)措施來增加這個(gè)過程的效率,分別是Precomputation和Interval Reduction。

Precomputation(預(yù)計(jì)算):因?yàn)橄鄼C(jī)的內(nèi)外參數(shù)是固定的,因此可以預(yù)先計(jì)算好每個(gè)point對應(yīng)的3D坐標(biāo)以及bev grid索引,并事先根據(jù)grid indices sort好所有的points,以備后面過程的調(diào)用。效果:17ms ->4ms

Interval Reduction(間隔減?。?/span>:接下來就需要完成聚合同一個(gè)BEV grid中的特征。如上圖b,現(xiàn)有的方法是采用prefix sum(前綴和,即直接累加,然后通過index邊界求sum相減獲得最終結(jié)果)的方法來計(jì)算的,這種方式很不高校,因?yàn)槠鋵?shí)我們并不需要累加得結(jié)果,只需要各個(gè)gird索引分支特征聚合結(jié)果,因此BEVFusion提出了可以為每個(gè)gird分配一個(gè)GPU核心,然后并行的計(jì)算grid中的結(jié)果。效果:500ms -> 2ms

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

作者:Yinhao Li, Zheng Ge, Guanyi Yu, Jinrong Yang, Zengran Wang, Yukang Shi, Jianjian Sun, Zeming Li
級(jí)別:arxiv 2022
論文鏈接:arxiv.org/pdf/2206.1009
代碼:github.com/Megvii-baseD
圖片

BEVDepth


一句話總結(jié),直接從LiDAR中抽取了depth信息作為輔助監(jiān)督....,基于BEVDet,主要涉及幾個(gè)改動(dòng):

depth監(jiān)督直接從LiDAR得到,顯式精確的監(jiān)督,不再是通過3D bbox GT隱式監(jiān)督

depth校準(zhǔn)模塊和camera aware depth predict

Efficient Voxel Pooling

圖片

depth network和Efficient Voxel Pooling

1,2兩點(diǎn)都是為了優(yōu)化深度預(yù)測,如上圖3所示,depth校準(zhǔn)模塊指的式后面的Res和DCN的部分,目的是拓展模型的感受野使其關(guān)注更多的深度信息以及獲得動(dòng)態(tài)的感受野范圍。camera aware depth predict就是camera intrinsics這一分支,使其作為深度的估計(jì)的先驗(yàn),并通過類似SE的方式對輸入圖像特征進(jìn)行自適應(yīng)的調(diào)整。

第3點(diǎn)的操作類似于BEVFusion的bev pooling,主要思想是為每個(gè)grid分配一個(gè)CUDA線程,該線程用于將特征添加到相應(yīng)的BEV gird中。

圖片

BEVDepth多幀版本

Transformer

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

作者:Yue Wang,Vitor Guizilini,Tianyuan Zhang,Yilun Wang,Hang Zhao,Justin Solomon
級(jí)別:CORL 2021
設(shè)備:8 RTX 3090 GPUs
論文鏈接:arxiv.org/abs/2110.0692
代碼:github.com/WangYueFt/de
圖片

DETR3D

需要的參數(shù):環(huán)視圖,相機(jī)的內(nèi)外參數(shù)
利用環(huán)視圖作3D目標(biāo)檢測,不像LSS需要將環(huán)視圖壓到BEV空間,直接利用了transformer。

通過幾何反投影將二維特征提取與三維物體預(yù)測聯(lián)系起來。

為了收集特定場景的信息,將從這些解碼的object queries中一組參考點(diǎn)重新投影到每個(gè)攝像機(jī)上,并獲取由ResNet骨干提取的相應(yīng)圖像特征。

參考點(diǎn)對應(yīng)得圖像特征中收集到的特征通過多頭自注意力相互作用。在一系列的自注意層之后,DETR3D從每一層讀取邊界框參數(shù),并使用受DETR啟發(fā)的集合到set損失來評(píng)估性能。

上圖網(wǎng)絡(luò)結(jié)構(gòu)的解析:

① Resnet+FPN-->獨(dú)立的提取各個(gè)環(huán)視圖的特征

② data-->object queries-->3D location(投影到圖像平面收集圖像特征)

③detr檢測頭

PS:存在多個(gè)視圖之間存在重疊的問題,即該物體存在于多個(gè)視圖的問題,解決辦法:定義了一個(gè)二值特征,由是否參考點(diǎn)投影之后超出了圖像平面所決定。

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

作者:Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun
級(jí)別:ECCV 2022
設(shè)備:8 Tesla V100 GPUs
論文鏈接:arxiv.org/abs/2203.0562
代碼:github.com/megvii-resea
圖片

PETR

DETR3D的后續(xù)工作,主要的出發(fā)點(diǎn)是:Query和feature應(yīng)該在同一個(gè)特征維度,這樣框架既簡單又優(yōu)雅。

圖片

DETR,DETR3D,PETR三者的區(qū)別

如上圖所示是DETR,DETR3D,PETR三者的區(qū)別:

DETR:因?yàn)槭?D目標(biāo)檢測,他的query和特征都是處于2d維度的。

DETR3D:采用了一種折中的方案,query是3D維度的,但是特征是2D感知的,采用的方法就是上面DETR3D部分說的,這種方法存在顯而易見的缺點(diǎn):1. 特征在reference points對應(yīng)的圖像特征區(qū)域編碼,獲取的特征范圍十分local。2. 這個(gè)反投影,在投影回來的過程影響應(yīng)用。

PETR:生成了3D position embedding,然后用3D位置編碼和2D特征結(jié)合得到3D感知的特征,再和3D維度下的query進(jìn)行特征交互。

PETR最重要的點(diǎn)就在于3D感知特征的獲取。

在獲取3D感知的特征之前,需要先了解下怎么生成3D position embedding,畢竟圖像上是沒有3D坐標(biāo)的。

PETR中采用的方法與前面提到LSS方法相似,但是又沒那么復(fù)雜。他并沒有對于柵格化后施以不同的權(quán)重。

首先如圖所示,相機(jī)的視錐被離散成(W,H,D),D代表D個(gè)離散的深度值(采用和前面的LSS方法一樣的60)。

有了深度D之后就能將上述視錐中的坐標(biāo)利用transformation matrix轉(zhuǎn)到3D空間中。

歸一化3D坐標(biāo),(nuscenes的范圍一般是前后51.2m,深度[-3m,5m])。

圖片

3D position encoder

上圖即為3D position encoder的編碼過程。

BEVFormer: Learning Bird' s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

作者:Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, Jifeng Dai
級(jí)別:ECCV 2022
設(shè)備:8 Tesla V100 GPUs
論文鏈接:arxiv.org/abs/2203.1727
代碼:github.com/zhiqi-li/BEV
圖片

BEVFormer流程簡圖

先貼一個(gè)簡單的整體流程圖,可以看到主要分為三個(gè)部分,BEV Queris,Spatial Attention和Temporal Attention。

本文提出了一種帶空間和時(shí)間的Transformer基礎(chǔ)的在統(tǒng)一的BEV表達(dá)下實(shí)現(xiàn)的自動(dòng)駕駛感知任務(wù),主要涉及3D檢測和BEV分割任務(wù)。BEVFormer通過預(yù)定義的在grid sampled的BEV queris來探索時(shí)間和空間特征。

圖片

BEVFormer

具體做法:

1.生成grid shape的BEV query。

不像DETR3D直接是3D的query,這里需要轉(zhuǎn)成3D坐標(biāo) ,采用了類似pillar的做法,采樣了N個(gè)高度,這樣這個(gè)位置會(huì)得到N個(gè)3D reference points(文中nuscenes的可視范圍認(rèn)為是-5m到3m,每2米采樣一個(gè)點(diǎn),共四個(gè)。
此外,BEV map的分辨率是200*200,因此共有200*200*4個(gè))

2. spatial cross-attention,聚合環(huán)視圖特征。

在ROIs應(yīng)用cross-attention extract空間特征,希望設(shè)計(jì)一種不依賴深度信息(畢竟2d-3d,深度估計(jì)什么的是一個(gè)ill-posed的任務(wù))并且能夠自適應(yīng)的生成BEV特征而不是嚴(yán)格依賴于3D先驗(yàn)的方法。
做法:采用了deformable attention,deformable attention該BEV query所投影的2D坐標(biāo)所涉及到的views。

3. temporal self-attention,從歷史的BEV features中抽取特征,有利于速度和強(qiáng)遮擋物體的檢測。

首先需要對齊不同幀的特征,以確保同一個(gè)grid內(nèi)對應(yīng)的real world的坐標(biāo)是一致的。其次,因?yàn)楝F(xiàn)實(shí)場景中物體的運(yùn)動(dòng)方向是各式各樣的,產(chǎn)生的oofsets也是大不相同的。如何構(gòu)建同一對象在不同幀之間的精確關(guān)聯(lián)很重要。做法是:采用的deformable attention,在第一個(gè)時(shí)間戳是沒有再前一時(shí)間戳的信息了,因此第一幀做的是真正的self-attention。

PS:

為什么用deformable transformer:
使用deformable attention可以減少運(yùn)算的開銷,是的注意力機(jī)制從dense變成了sparse,從而是的顯存的開銷和圖像特征大小無關(guān)了,只于reference points有關(guān)。

一些訓(xùn)練和推理時(shí)的不同之處:訓(xùn)練時(shí),作者運(yùn)用了四個(gè)時(shí)間戳的特征,因?yàn)閚uscenes每0.5標(biāo)記一個(gè)場景,因此前三個(gè)時(shí)間戳作者是隨機(jī)采樣了三個(gè)場景。測試時(shí),直接按時(shí)間順序進(jìn)入網(wǎng)絡(luò)。

分享到:
 
反對 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25