BEVFusion: 基于統(tǒng)一BEV表征的多任務(wù)多傳感器融合

2022-05-31 15:47:33· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv上傳于2022年5月26日論文“BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation“，來自MIT韓松團(tuán)隊(duì)的工作報(bào)告（注

arXiv上傳于2022年5月26日論文“BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation“，來自MIT韓松團(tuán)隊(duì)的工作報(bào)告（注：NeurIPS會(huì)議投稿格式？）。

前不久介紹過一篇BEV多傳感器融合的目標(biāo)檢測(cè)工作：“FUTR3D，一個(gè)統(tǒng)一的傳感器融合3D檢測(cè)框架“

黃浴：FUTR3D，一個(gè)統(tǒng)一的傳感器融合3D檢測(cè)框架zhuanlan.zhihu.com

還有6月將召開的CVPR‘22上報(bào)告的傳感器融合工作 TransFusion （注：是在圖像平面的特征融合，不是在BEV）

花椒殼殼：3D目標(biāo)檢測(cè) |TransFusion| 室外| 多模態(tài)|CVPR2022zhuanlan.zhihu.com

將多傳感器融合對(duì)于準(zhǔn)確可靠的自動(dòng)駕駛系統(tǒng)至關(guān)重要。最近提出的方法基于點(diǎn)級(jí)（point-level）融合：使用攝像頭特征增強(qiáng)激光雷達(dá)點(diǎn)云。然而，攝像頭到激光雷達(dá)的投影丟棄了攝像頭特征的語義密度（semantic density），阻礙了此類方法的有效性，尤其是對(duì)于面向語義的任務(wù)（如3D場(chǎng)景分割）。

本文提出的BEVFusion是一種多任務(wù)多傳感器融合框架，其統(tǒng)一BEV表征空間中的多模態(tài)特征，很好地保留了幾何和語義信息。為實(shí)現(xiàn)這一點(diǎn)，優(yōu)化BEV池化，診斷并解除視圖轉(zhuǎn)換中的關(guān)鍵效率瓶頸，將延遲減少了40倍。BEVFusion從根本上來說是任務(wù)無關(guān)的，無縫支持不同的3D感知任務(wù)，幾乎沒有架構(gòu)的更改。

在nuScenes數(shù)據(jù)集的3D目標(biāo)檢測(cè)上實(shí)現(xiàn)1.3%的mAP和NDS提升，在BEV分割上實(shí)現(xiàn)了13.6%的mIoU提升，計(jì)算成本降低了1.9倍。代碼將開源 https://github.com/mit-han-lab/bevfusion

自動(dòng)駕駛系統(tǒng)配備了各種傳感器。例如，Waymo的自動(dòng)駕駛車輛有29個(gè)攝像頭、6個(gè)雷達(dá)和5個(gè)激光雷達(dá)。不同的傳感器提供互補(bǔ)信號(hào)：例如，攝像頭捕捉豐富的語義信息，激光雷達(dá)提供精確的空間信息，而雷達(dá)提供即時(shí)速度估計(jì)。因此，多傳感器融合對(duì)于準(zhǔn)確可靠的感知具有重要意義。

來自不同傳感器的數(shù)據(jù)以根本不同的方式表征：例如，攝像頭在透視圖中捕獲數(shù)據(jù)，激光雷達(dá)在3D視圖中捕獲數(shù)據(jù)。為了解決這種視圖差異，必須找到一種適用于多任務(wù)多模態(tài)特征融合的統(tǒng)一表征。由于在2D感知方面取得了巨大成功，自然的想法是將激光雷達(dá)點(diǎn)云投影到攝像頭圖像平面上，并使用2D CNN處理RGB-D數(shù)據(jù)。然而，這種激光雷達(dá)到攝像頭的投影引入了嚴(yán)重的幾何畸變，對(duì)于面向幾何的任務(wù)（如3D目標(biāo)識(shí)別）的效率較低。

最近的傳感器融合方法遵循了另一個(gè)方向，用語義標(biāo)注、CNN特征或2D圖像中的虛擬點(diǎn)（virtual points）來增強(qiáng)激光雷達(dá)點(diǎn)云，然后應(yīng)用現(xiàn)有基于激光雷達(dá)的檢測(cè)器預(yù)測(cè)3D邊框。盡管這些點(diǎn)級(jí)融合方法在大規(guī)模檢測(cè)基準(zhǔn)上表現(xiàn)出了卓越的性能，但幾乎不適用于面向語義的任務(wù)，如BEV地圖分割。這是因?yàn)閿z像頭到激光雷達(dá)的投影在語義上是有損的，而BEB Fusion就是想避免這個(gè)幾何和語義的損失，建立BEV特征的融合表征，實(shí)現(xiàn)3D語義任務(wù)。

如圖所示：對(duì)于典型的32線激光雷達(dá)掃描，只有5%的攝像頭特征與激光雷達(dá)點(diǎn)匹配，而其他所有特征都將被刪除。對(duì)于更稀疏的激光雷達(dá)（或成像雷達(dá)），這種密度差異將變得更加劇烈。

近年來，多傳感器融合方法可分為提議級(jí)（proposal level）融合和點(diǎn)級(jí)融合方法。早期方法MV3D在3D中創(chuàng)建目標(biāo)提議，并將其投影到圖像以提取RoI特征。F-PointNet、F-ConvNet和CenterFusion都將圖像提議提升到3D平截體（frustum）中。最近的工作FUTR3D和TransFusion定義了3D空間中的目標(biāo)查詢，并將圖像特征融合到這些提議中。所有提議級(jí)融合方法都是以目標(biāo)為中心的，不能簡(jiǎn)單地推廣到其他任務(wù)，如BEV地圖分割。

另一方面，點(diǎn)級(jí)融合方法通常將圖像語義特征繪制到前景FG激光雷達(dá)點(diǎn)上，并在修飾的（decorated）點(diǎn)云輸入上做基于激光雷達(dá)的檢測(cè)。因此，它們既以目標(biāo)為中心，又以幾何為中心。其中，PointPaint、PointAugmenting、MVP、FusionPaint和AutoAlign是（激光雷達(dá)）輸入級(jí)修飾，而Deep Continuous Fusion和DeepFusion是特征級(jí)修飾。

多任務(wù)CNN在2D計(jì)算機(jī)視覺領(lǐng)域也得到了很好的研究，包括聯(lián)合目標(biāo)檢測(cè)、實(shí)例分割、姿勢(shì)估計(jì)和人機(jī)交互。最近同時(shí)出現(xiàn)的研究M2BEV和BEVFormer，聯(lián)合執(zhí)行3D目標(biāo)檢測(cè)和BEV分割。上述方法均未考慮多傳感器融合。MMF同時(shí)使用攝像頭和激光雷達(dá)輸入進(jìn)行深度圖補(bǔ)全和目標(biāo)檢測(cè)，但仍然以目標(biāo)為中心，不適用于BEV地圖分割。

如圖所示是BEVFusion流水線概覽：給定不同的感知輸入，首先應(yīng)用特定于模態(tài)的編碼器來提取其特征；將多模態(tài)特征轉(zhuǎn)換為一個(gè)統(tǒng)一的BEV表征，其同時(shí)保留幾何和語義信息；存在的視圖轉(zhuǎn)換效率瓶頸，可以通過預(yù)計(jì)算和間歇降低來加速BEV池化過程；然后，將基于卷積的BEV編碼器應(yīng)用到統(tǒng)一的BEV特征中，以緩解不同特征之間的局部偏準(zhǔn)；最后，添加一些特定任務(wù)頭支持不同的3D場(chǎng)景理解工作。

本文采用BEV作為融合的統(tǒng)一表征，該視圖對(duì)幾乎所有感知任務(wù)都很友好，因?yàn)檩敵隹臻g也在BEV。更重要的是，到BEV的轉(zhuǎn)換同時(shí)保持了幾何結(jié)構(gòu)（來自激光雷達(dá)特征）和語義密度（來自攝像頭特征）。一方面，LiDAR到BEV投影將稀疏LiDAR特征沿高度維度（height dimension）展平，因此不會(huì)產(chǎn)生幾何失真。另一方面，攝像頭到BEV投影將每個(gè)攝像頭特征像素投射回3D空間的一條光線中（ray casting），這可以生成密集的BEV特征圖，并保留了攝像頭的全部語義信息。

攝像頭到BEV的變換非常重要，因?yàn)榕c每個(gè)攝像頭圖像特征像素關(guān)聯(lián)的深度（depth）本質(zhì)上是不明確的。根據(jù)LSS，明確預(yù)測(cè)每個(gè)像素的離散深度分布。然后，沿著攝像頭光線將每個(gè)特征像素分散成D個(gè)離散點(diǎn)，并根據(jù)相應(yīng)的深度概率重縮放（rescale）相關(guān)特征。這將生成大小為N*H*W*D的攝像頭特征點(diǎn)云，其中N是攝像頭數(shù)，（H，W）是攝像頭特征圖大小。此類3D特征點(diǎn)云沿x、y軸量化，步長(zhǎng)為r（例如，0.4m）。用BEV池化操作來聚合每個(gè)r×r BEV網(wǎng)格內(nèi)的所有特征，并沿z軸展平特征。

雖然簡(jiǎn)單，但BEV池化的效率和速度驚人地低，在RTX 3090 GPU上需要500毫秒以上（而模型的其余部分計(jì)算只需要100毫秒左右）。這是因?yàn)閿z像頭特征點(diǎn)云非常大，即典型的工作負(fù)載，每幀可能生成約200萬個(gè)點(diǎn)，比激光雷達(dá)特征點(diǎn)云密度高兩個(gè)數(shù)量級(jí)。為了消除這一效率瓶頸，建議通過預(yù)計(jì)算和間歇降低來優(yōu)化BEV池化進(jìn)程。

如圖所示：攝像機(jī)到BEV變換（a）是在統(tǒng)一的BEV空間進(jìn)行傳感器融合的關(guān)鍵步驟。然而，現(xiàn)有的實(shí)現(xiàn)速度非常慢，單個(gè)場(chǎng)景可能需要2秒的時(shí)間。文章提出了有效的BEV池化方法（b），通過預(yù)計(jì)算使間歇降低和加快網(wǎng)格關(guān)聯(lián)，視圖轉(zhuǎn)換模塊（c，d）的執(zhí)行速度提高了40倍。

預(yù)計(jì)算

BEV池化的第一步是將攝像頭特征點(diǎn)云的每個(gè)點(diǎn)與BEV網(wǎng)格相關(guān)聯(lián)。與激光雷達(dá)點(diǎn)云不同，攝像頭特征點(diǎn)云的坐標(biāo)是固定的（只要攝像頭內(nèi)參外參保持不變，通常在適當(dāng)標(biāo)定后）。基于此，預(yù)計(jì)算每個(gè)點(diǎn)的3D坐標(biāo)和BEV網(wǎng)格索引。還有，根據(jù)網(wǎng)格索引對(duì)所有點(diǎn)進(jìn)行排序，并記錄每個(gè)點(diǎn)排名。在推理過程中，只需要根據(jù)預(yù)計(jì)算的排序?qū)λ刑卣鼽c(diǎn)重排序。這種緩存機(jī)制可以將網(wǎng)格關(guān)聯(lián)的延遲從17ms減少到4ms。

間歇降低

網(wǎng)格關(guān)聯(lián)后，同一BEV網(wǎng)格的所有點(diǎn)將在張量表征中連續(xù)。BEV池化的下一步是通過一些對(duì)稱函數(shù)（例如，平均值、最大值和求和）聚合每個(gè)BEV網(wǎng)格內(nèi)的特征?，F(xiàn)有的實(shí)現(xiàn)方法首先計(jì)算所有點(diǎn)的前綴和（prefix sum），然后減去索引發(fā)生變化的邊界值。然而，前綴和操作，需要在GPU進(jìn)行樹縮減（tree reduction），并生成許多未使用的部分和（因?yàn)橹恍枰吔缰担?，這兩種操作都是低效的。為了加速特征聚合，文章里實(shí)現(xiàn)一個(gè)專門的GPU內(nèi)核，直接在BEV網(wǎng)格并行化：為每個(gè)網(wǎng)格分配一個(gè)GPU線程，該線程計(jì)算其間歇和（interval sum）并將結(jié)果寫回。該內(nèi)核消除輸出之間的依賴關(guān)系（因此不需要多級(jí)樹縮減），并避免將部分和寫入DRAM，從而將特征聚合的延遲從500ms減少到2ms。

小結(jié)

通過優(yōu)化的BEV池化，攝像頭到BEV的轉(zhuǎn)換速度提高了40倍：延遲從500ms減少到12ms（僅為模型端到端運(yùn)行時(shí)間的10%），并且可以在不同的分特征辨率之間很好地?cái)U(kuò)展。在共享BEV表征中，這是統(tǒng)一多模態(tài)感知特征的關(guān)鍵促成因素。兩項(xiàng)并行化工作也發(fā)現(xiàn)了純攝像頭3D檢測(cè)的這一效率瓶頸。假設(shè)均勻深度分布，或截?cái)嗝總€(gè)BEV網(wǎng)格內(nèi)的點(diǎn)，可以近似視圖transformer計(jì)算。相比之下，該技術(shù)在沒有任何近似的情況下是精確的，但仍然更快。

實(shí)驗(yàn)結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：一文全面了解混合動(dòng)力汽車的分類與特點(diǎn)
上一篇：汽車研發(fā)過程中對(duì)制動(dòng)距離進(jìn)行有效控制的方法的研究

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

BEVFusion: 基于統(tǒng)一BEV表征的多任務(wù)多傳感器融合

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

BEVFusion: 基于統(tǒng)一BEV表征的多任務(wù)多傳感器融合

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將