日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

BEVFusion: 基于統(tǒng)一BEV表征的多任務(wù)多傳感器融合

2022-05-31 15:47:33·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv上傳于2022年5月26日論文“BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation“,來自MIT韓松團(tuán)隊(duì)的工作報(bào)告(注

arXiv上傳于2022年5月26日論文“BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation“,來自MIT韓松團(tuán)隊(duì)的工作報(bào)告(注:NeurIPS會(huì)議投稿格式?)。

圖片


前不久介紹過一篇BEV多傳感器融合的目標(biāo)檢測(cè)工作:“FUTR3D,一個(gè)統(tǒng)一的傳感器融合3D檢測(cè)框架“

黃浴:FUTR3D,一個(gè)統(tǒng)一的傳感器融合3D檢測(cè)框架zhuanlan.zhihu.com

圖片

還有6月將召開的CVPR‘22上報(bào)告的傳感器融合工作 TransFusion (注:是在圖像平面的特征融合,不是在BEV)

花椒殼殼:3D目標(biāo)檢測(cè) |TransFusion| 室外| 多模態(tài)|CVPR2022zhuanlan.zhihu.com

圖片

將多傳感器融合對(duì)于準(zhǔn)確可靠的自動(dòng)駕駛系統(tǒng)至關(guān)重要。最近提出的方法基于點(diǎn)級(jí)(point-level)融合:使用攝像頭特征增強(qiáng)激光雷達(dá)點(diǎn)云。然而,攝像頭到激光雷達(dá)的投影丟棄了攝像頭特征的語義密度(semantic density),阻礙了此類方法的有效性,尤其是對(duì)于面向語義的任務(wù)(如3D場(chǎng)景分割)。


本文提出的BEVFusion是一種多任務(wù)多傳感器融合框架,其統(tǒng)一BEV表征空間中的多模態(tài)特征,很好地保留了幾何和語義信息。為實(shí)現(xiàn)這一點(diǎn),優(yōu)化BEV池化,診斷并解除視圖轉(zhuǎn)換中的關(guān)鍵效率瓶頸,將延遲減少了40倍。BEVFusion從根本上來說是任務(wù)無關(guān)的,無縫支持不同的3D感知任務(wù),幾乎沒有架構(gòu)的更改。


在nuScenes數(shù)據(jù)集的3D目標(biāo)檢測(cè)上實(shí)現(xiàn)1.3%的mAP和NDS提升,在BEV分割上實(shí)現(xiàn)了13.6%的mIoU提升,計(jì)算成本降低了1.9倍。代碼將開源 https://github.com/mit-han-lab/bevfusion

圖片


自動(dòng)駕駛系統(tǒng)配備了各種傳感器。例如,Waymo的自動(dòng)駕駛車輛有29個(gè)攝像頭、6個(gè)雷達(dá)和5個(gè)激光雷達(dá)。不同的傳感器提供互補(bǔ)信號(hào):例如,攝像頭捕捉豐富的語義信息,激光雷達(dá)提供精確的空間信息,而雷達(dá)提供即時(shí)速度估計(jì)。因此,多傳感器融合對(duì)于準(zhǔn)確可靠的感知具有重要意義。


來自不同傳感器的數(shù)據(jù)以根本不同的方式表征:例如,攝像頭在透視圖中捕獲數(shù)據(jù),激光雷達(dá)在3D視圖中捕獲數(shù)據(jù)。為了解決這種視圖差異,必須找到一種適用于多任務(wù)多模態(tài)特征融合的統(tǒng)一表征。由于在2D感知方面取得了巨大成功,自然的想法是將激光雷達(dá)點(diǎn)云投影到攝像頭圖像平面上,并使用2D CNN處理RGB-D數(shù)據(jù)。然而,這種激光雷達(dá)到攝像頭的投影引入了嚴(yán)重的幾何畸變,對(duì)于面向幾何的任務(wù)(如3D目標(biāo)識(shí)別)的效率較低。


最近的傳感器融合方法遵循了另一個(gè)方向,用語義標(biāo)注、CNN特征或2D圖像中的虛擬點(diǎn)(virtual points)來增強(qiáng)激光雷達(dá)點(diǎn)云,然后應(yīng)用現(xiàn)有基于激光雷達(dá)的檢測(cè)器預(yù)測(cè)3D邊框。盡管這些點(diǎn)級(jí)融合方法在大規(guī)模檢測(cè)基準(zhǔn)上表現(xiàn)出了卓越的性能,但幾乎不適用于面向語義的任務(wù),如BEV地圖分割。這是因?yàn)閿z像頭到激光雷達(dá)的投影在語義上是有損的,而BEB Fusion就是想避免這個(gè)幾何和語義的損失,建立BEV特征的融合表征,實(shí)現(xiàn)3D語義任務(wù)。


如圖所示:對(duì)于典型的32線激光雷達(dá)掃描,只有5%的攝像頭特征與激光雷達(dá)點(diǎn)匹配,而其他所有特征都將被刪除。對(duì)于更稀疏的激光雷達(dá)(或成像雷達(dá)),這種密度差異將變得更加劇烈。

圖片


近年來,多傳感器融合方法可分為提議級(jí)(proposal level)融合和點(diǎn)級(jí)融合方法。早期方法MV3D在3D中創(chuàng)建目標(biāo)提議,并將其投影到圖像以提取RoI特征。F-PointNet、F-ConvNet和CenterFusion都將圖像提議提升到3D平截體(frustum)中。最近的工作FUTR3D和TransFusion定義了3D空間中的目標(biāo)查詢,并將圖像特征融合到這些提議中。所有提議級(jí)融合方法都是以目標(biāo)為中心的,不能簡(jiǎn)單地推廣到其他任務(wù),如BEV地圖分割。


另一方面,點(diǎn)級(jí)融合方法通常將圖像語義特征繪制到前景FG激光雷達(dá)點(diǎn)上,并在修飾的(decorated)點(diǎn)云輸入上做基于激光雷達(dá)的檢測(cè)。因此,它們既以目標(biāo)為中心,又以幾何為中心。其中,PointPaint、PointAugmenting、MVP、FusionPaint和AutoAlign是(激光雷達(dá))輸入級(jí)修飾,而Deep Continuous Fusion和DeepFusion是特征級(jí)修飾。


多任務(wù)CNN在2D計(jì)算機(jī)視覺領(lǐng)域也得到了很好的研究,包括聯(lián)合目標(biāo)檢測(cè)、實(shí)例分割、姿勢(shì)估計(jì)和人機(jī)交互。最近同時(shí)出現(xiàn)的研究M2BEV和BEVFormer,聯(lián)合執(zhí)行3D目標(biāo)檢測(cè)和BEV分割。上述方法均未考慮多傳感器融合。MMF同時(shí)使用攝像頭和激光雷達(dá)輸入進(jìn)行深度圖補(bǔ)全和目標(biāo)檢測(cè),但仍然以目標(biāo)為中心,不適用于BEV地圖分割。


如圖所示是BEVFusion流水線概覽:給定不同的感知輸入,首先應(yīng)用特定于模態(tài)的編碼器來提取其特征;將多模態(tài)特征轉(zhuǎn)換為一個(gè)統(tǒng)一的BEV表征,其同時(shí)保留幾何和語義信息;存在的視圖轉(zhuǎn)換效率瓶頸,可以通過預(yù)計(jì)算和間歇降低來加速BEV池化過程;然后,將基于卷積的BEV編碼器應(yīng)用到統(tǒng)一的BEV特征中,以緩解不同特征之間的局部偏準(zhǔn);最后,添加一些特定任務(wù)頭支持不同的3D場(chǎng)景理解工作。

圖片


本文采用BEV作為融合的統(tǒng)一表征,該視圖對(duì)幾乎所有感知任務(wù)都很友好,因?yàn)檩敵隹臻g也在BEV。更重要的是,到BEV的轉(zhuǎn)換同時(shí)保持了幾何結(jié)構(gòu)(來自激光雷達(dá)特征)和語義密度(來自攝像頭特征)。一方面,LiDAR到BEV投影將稀疏LiDAR特征沿高度維度(height dimension)展平,因此不會(huì)產(chǎn)生幾何失真。另一方面,攝像頭到BEV投影將每個(gè)攝像頭特征像素投射回3D空間的一條光線中(ray casting),這可以生成密集的BEV特征圖,并保留了攝像頭的全部語義信息。


攝像頭到BEV的變換非常重要,因?yàn)榕c每個(gè)攝像頭圖像特征像素關(guān)聯(lián)的深度(depth)本質(zhì)上是不明確的。根據(jù)LSS,明確預(yù)測(cè)每個(gè)像素的離散深度分布。然后,沿著攝像頭光線將每個(gè)特征像素分散成D個(gè)離散點(diǎn),并根據(jù)相應(yīng)的深度概率重縮放(rescale)相關(guān)特征。這將生成大小為N*H*W*D的攝像頭特征點(diǎn)云,其中N是攝像頭數(shù),(H,W)是攝像頭特征圖大小。此類3D特征點(diǎn)云沿x、y軸量化,步長(zhǎng)為r(例如,0.4m)。用BEV池化操作來聚合每個(gè)r×r BEV網(wǎng)格內(nèi)的所有特征,并沿z軸展平特征。


雖然簡(jiǎn)單,但BEV池化的效率和速度驚人地低,在RTX 3090 GPU上需要500毫秒以上(而模型的其余部分計(jì)算只需要100毫秒左右)。這是因?yàn)閿z像頭特征點(diǎn)云非常大,即典型的工作負(fù)載,每幀可能生成約200萬個(gè)點(diǎn),比激光雷達(dá)特征點(diǎn)云密度高兩個(gè)數(shù)量級(jí)。為了消除這一效率瓶頸,建議通過預(yù)計(jì)算和間歇降低來優(yōu)化BEV池化進(jìn)程。


如圖所示:攝像機(jī)到BEV變換(a)是在統(tǒng)一的BEV空間進(jìn)行傳感器融合的關(guān)鍵步驟。然而,現(xiàn)有的實(shí)現(xiàn)速度非常慢,單個(gè)場(chǎng)景可能需要2秒的時(shí)間。文章提出了有效的BEV池化方法(b),通過預(yù)計(jì)算使間歇降低和加快網(wǎng)格關(guān)聯(lián),視圖轉(zhuǎn)換模塊(c,d)的執(zhí)行速度提高了40倍。

圖片


  • 預(yù)計(jì)算

BEV池化的第一步是將攝像頭特征點(diǎn)云的每個(gè)點(diǎn)與BEV網(wǎng)格相關(guān)聯(lián)。與激光雷達(dá)點(diǎn)云不同,攝像頭特征點(diǎn)云的坐標(biāo)是固定的(只要攝像頭內(nèi)參外參保持不變,通常在適當(dāng)標(biāo)定后)。基于此,預(yù)計(jì)算每個(gè)點(diǎn)的3D坐標(biāo)和BEV網(wǎng)格索引。還有,根據(jù)網(wǎng)格索引對(duì)所有點(diǎn)進(jìn)行排序,并記錄每個(gè)點(diǎn)排名。在推理過程中,只需要根據(jù)預(yù)計(jì)算的排序?qū)λ刑卣鼽c(diǎn)重排序。這種緩存機(jī)制可以將網(wǎng)格關(guān)聯(lián)的延遲從17ms減少到4ms。

  • 間歇降低

網(wǎng)格關(guān)聯(lián)后,同一BEV網(wǎng)格的所有點(diǎn)將在張量表征中連續(xù)。BEV池化的下一步是通過一些對(duì)稱函數(shù)(例如,平均值、最大值和求和)聚合每個(gè)BEV網(wǎng)格內(nèi)的特征?,F(xiàn)有的實(shí)現(xiàn)方法首先計(jì)算所有點(diǎn)的前綴和(prefix sum),然后減去索引發(fā)生變化的邊界值。然而,前綴和操作,需要在GPU進(jìn)行樹縮減(tree reduction),并生成許多未使用的部分和(因?yàn)橹恍枰吔缰担?,這兩種操作都是低效的。為了加速特征聚合,文章里實(shí)現(xiàn)一個(gè)專門的GPU內(nèi)核,直接在BEV網(wǎng)格并行化:為每個(gè)網(wǎng)格分配一個(gè)GPU線程,該線程計(jì)算其間歇和(interval sum)并將結(jié)果寫回。該內(nèi)核消除輸出之間的依賴關(guān)系(因此不需要多級(jí)樹縮減),并避免將部分和寫入DRAM,從而將特征聚合的延遲從500ms減少到2ms。

  • 小結(jié)

通過優(yōu)化的BEV池化,攝像頭到BEV的轉(zhuǎn)換速度提高了40倍:延遲從500ms減少到12ms(僅為模型端到端運(yùn)行時(shí)間的10%),并且可以在不同的分特征辨率之間很好地?cái)U(kuò)展。在共享BEV表征中,這是統(tǒng)一多模態(tài)感知特征的關(guān)鍵促成因素。兩項(xiàng)并行化工作也發(fā)現(xiàn)了純攝像頭3D檢測(cè)的這一效率瓶頸。假設(shè)均勻深度分布,或截?cái)嗝總€(gè)BEV網(wǎng)格內(nèi)的點(diǎn),可以近似視圖transformer計(jì)算。相比之下,該技術(shù)在沒有任何近似的情況下是精確的,但仍然更快。

實(shí)驗(yàn)結(jié)果如下:

圖片


圖片


圖片


圖片


圖片


分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25