UniFormer：用統(tǒng)一多視角融合Transformer構(gòu)建時空BEV表征

2022-07-26 09:47:04· 來源：計算機視覺深度學習和自動駕駛作者：黃浴

arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“，2022年7月上傳，浙江大學、大疆公

arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“，2022年7月上傳，浙江大學、大疆公司和上海AI實驗室的工作。

BEV表示是一種基于空域融合的自主駕駛感知形式。此外，時域融合也被引入到BEV表示中，并取得了巨大的成功。這項工作提出一種方法，將空間和時間融合統(tǒng)一起來，并將它們合并到一個統(tǒng)一的數(shù)學形式中。統(tǒng)一融合不僅為BEV融合提供了新的視角，而且?guī)砹诵碌哪芰?。通過提出的統(tǒng)一時空融合，可以支持傳統(tǒng)BEV方法難以實現(xiàn)的遠距離融合。

此外，BEV融合是時間自適應的，時域融合的權(quán)重是可學習的。相比之下，傳統(tǒng)方法主要使用固定權(quán)重和等權(quán)重進行時域融合。并且，所提出的統(tǒng)一融合可以避免傳統(tǒng)BEV融合方法中的信息丟失，并充分利用特征。

如圖介紹BEV時域融合的方法：從左到右，無時域融合、基于warp的時域融合和提出的統(tǒng)一多視圖融合。對于無時域融合的方法，僅在當前時間步長用周圍圖像預測BEV空間；基于warp的時域融合將上一時間步的BEV空間warp，是一種串行融合方法；統(tǒng)一的多視圖融合，是一種并行方法，可以支持遠距離融合。

傳統(tǒng)的BEV時域融合是基于warp的融合，如圖a所示：基于warp的融合基于不同時間步長的自運動來warp過去的BEV特征和信息；由于所有特征在warp之前已經(jīng)組織在預定義的自車BEV空間中，因此該過程將丟失信息。

攝像機的實際可見范圍遠大于BEV空間的可見范圍。例如，對于典型的攝像機來說，100m是一個非常小的可見范圍，而大多數(shù)BEV范圍被定義為不超過52m。通過這種方式，可以獲得比簡單warpBEV空間更好的BEV時間融合，如圖b所示。

為了實現(xiàn)更好的時域融合，提出了一個概念，虛擬視圖（virtual view），如圖c所示：虛擬視圖定義為當前時間步不存在的傳感器視圖，這些過去的視圖根據(jù)自車BEV空間旋轉(zhuǎn)和轉(zhuǎn)換，就像實際存在于當前時間步一樣。

如圖是BEV融合的模型框架：該網(wǎng)絡由主干網(wǎng)、統(tǒng)一多視圖融合transformer和分割頭三部分組成。

最重要的模塊是用于統(tǒng)一多視圖時空融合的交叉注意。在統(tǒng)一多視圖融合的幫助下，所有時空特征可以映射到同一個自車BEV空間。交叉注意模塊的目標是融合和集成映射的時空BEV空間特征。

通過這種方式，用BEV query Q來迭代BEV空間不同位置的特征、時間步、多尺度級和采樣高度?？梢砸越y(tǒng)一的方式直接檢索來自任何地點和時間的信息，而不會造成任何損失。這種設計還使得遠距離融合成為可能，因為無論多久以前的特征，都可以被直接訪問，也支持自適應時域融合。

最后一個主要部分是自回歸機制。將Transformer的輸出與BEV query連接起來作為新輸入，并重新運行Transformer獲得最終特征。BEVFormer將warp的先前BEV特征與自注意模塊之前的BEV query連接起來，實現(xiàn)時域融合。對Transformer的第一次運行，只需將BEV query加倍并疊加做為輸入。

在BEVFormer中，warp的BEV特征和BEV query的疊加帶來了時域融合，這是性能提高的根本原因。這項工作中，BEV特征和query的連接隱含地加深和加倍了transformer的層數(shù)。由于warp的BEV特征已經(jīng)在之前的時間步讓transformer處理，因此疊加視為兩個連續(xù)transformer的嫁接。這樣，無warp的簡單自回歸可以獲得與BEVFormer類似的性能增益。

分割頭是ERFNet。

ResNet50、Swin Tiny和VoVNet作為主干網(wǎng)。ResNet50和SWN主干從ImageNet預訓練初始化，VoVNet主干從DD3D初始化。Transformer的默認層數(shù)設置為12。對于ResNet50和Swin，輸入圖像分辨率設置為1600×900。

對于VoVNet，用1408×512的圖像大小。訓練用AdamW優(yōu)化器，學習速率為2e-4，權(quán)重衰減為1e-4。主干的學習速率降低了10倍。批量大小設置為每個GPU 1個，模型用8個GPU訓練24個epoch。在第20個epoch，學習率降低了10倍。多尺度特征的數(shù)量設置為L=4，先前時間步長的默認數(shù)量設置為P=6，采樣高度的數(shù)量設置為Z=4。高度范圍為(?5米，3米]，其中stride是2米。

對于100米×100米設置，用50×50 BEV query來表示整個BEV空間，然后將結(jié)果上采樣4倍去匹配BEV分辨率。對于60米×30米設置，用100×50 BEV query，其上采樣與100米×100米設置類似。對于160米×100米設置，用80×50 BEV query，然后向上采樣8x去匹配分辨率。用交叉熵（CE）損失在兩種設置下進行訓練。

對于類不平衡問題，背景類的損失權(quán)重默認設置為0.4。由于100米×100米設置中的道路類別是多邊形區(qū)域，沒有類別不平衡問題，因此道路背景類別的損失權(quán)重設置為1.0。

實驗結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：10問新能源汽車800V絕緣設計
上一篇：如何設計提高電芯的容量密度？

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

UniFormer：用統(tǒng)一多視角融合Transformer構(gòu)建時空BEV表征

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

UniFormer：用統(tǒng)一多視角融合Transformer構(gòu)建時空BEV表征

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將