日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

UniFormer:用統(tǒng)一多視角融合Transformer構(gòu)建時空BEV表征

2022-07-26 09:47:04·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“,2022年7月上傳,浙江大學、大疆公

arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“,2022年7月上傳,浙江大學、大疆公司和上海AI實驗室的工作。

圖片


BEV表示是一種基于空域融合的自主駕駛感知形式。此外,時域融合也被引入到BEV表示中,并取得了巨大的成功。這項工作提出一種方法,將空間和時間融合統(tǒng)一起來,并將它們合并到一個統(tǒng)一的數(shù)學形式中。統(tǒng)一融合不僅為BEV融合提供了新的視角,而且?guī)砹诵碌哪芰?。通過提出的統(tǒng)一時空融合,可以支持傳統(tǒng)BEV方法難以實現(xiàn)的遠距離融合。


此外,BEV融合是時間自適應的,時域融合的權(quán)重是可學習的。相比之下,傳統(tǒng)方法主要使用固定權(quán)重和等權(quán)重進行時域融合。并且,所提出的統(tǒng)一融合可以避免傳統(tǒng)BEV融合方法中的信息丟失,并充分利用特征。

如圖介紹BEV時域融合的方法:從左到右,無時域融合、基于warp的時域融合和提出的統(tǒng)一多視圖融合。對于無時域融合的方法,僅在當前時間步長用周圍圖像預測BEV空間;基于warp的時域融合將上一時間步的BEV空間warp,是一種串行融合方法;統(tǒng)一的多視圖融合,是一種并行方法,可以支持遠距離融合。

圖片


傳統(tǒng)的BEV時域融合是基于warp的融合,如圖a所示:基于warp的融合基于不同時間步長的自運動來warp過去的BEV特征和信息;由于所有特征在warp之前已經(jīng)組織在預定義的自車BEV空間中,因此該過程將丟失信息。

圖片


攝像機的實際可見范圍遠大于BEV空間的可見范圍。例如,對于典型的攝像機來說,100m是一個非常小的可見范圍,而大多數(shù)BEV范圍被定義為不超過52m。通過這種方式,可以獲得比簡單warpBEV空間更好的BEV時間融合,如圖b所示。

圖片


為了實現(xiàn)更好的時域融合,提出了一個概念,虛擬視圖(virtual view),如圖c所示:虛擬視圖定義為當前時間步不存在的傳感器視圖,這些過去的視圖根據(jù)自車BEV空間旋轉(zhuǎn)和轉(zhuǎn)換,就像實際存在于當前時間步一樣。

圖片


如圖是BEV融合的模型框架:該網(wǎng)絡由主干網(wǎng)、統(tǒng)一多視圖融合transformer和分割頭三部分組成。

圖片


最重要的模塊是用于統(tǒng)一多視圖時空融合的交叉注意。在統(tǒng)一多視圖融合的幫助下,所有時空特征可以映射到同一個自車BEV空間。交叉注意模塊的目標是融合和集成映射的時空BEV空間特征。


通過這種方式,用BEV query Q來迭代BEV空間不同位置的特征、時間步、多尺度級和采樣高度??梢砸越y(tǒng)一的方式直接檢索來自任何地點和時間的信息,而不會造成任何損失。這種設計還使得遠距離融合成為可能,因為無論多久以前的特征,都可以被直接訪問,也支持自適應時域融合。


最后一個主要部分是自回歸機制。將Transformer的輸出與BEV query連接起來作為新輸入,并重新運行Transformer獲得最終特征。BEVFormer將warp的先前BEV特征與自注意模塊之前的BEV query連接起來,實現(xiàn)時域融合。對Transformer的第一次運行,只需將BEV query加倍并疊加做為輸入。


在BEVFormer中,warp的BEV特征和BEV query的疊加帶來了時域融合,這是性能提高的根本原因。這項工作中,BEV特征和query的連接隱含地加深和加倍了transformer的層數(shù)。由于warp的BEV特征已經(jīng)在之前的時間步讓transformer處理,因此疊加視為兩個連續(xù)transformer的嫁接。這樣,無warp的簡單自回歸可以獲得與BEVFormer類似的性能增益。


分割頭是ERFNet。

ResNet50、Swin Tiny和VoVNet作為主干網(wǎng)。ResNet50和SWN主干從ImageNet預訓練初始化,VoVNet主干從DD3D初始化。Transformer的默認層數(shù)設置為12。對于ResNet50和Swin,輸入圖像分辨率設置為1600×900。


對于VoVNet,用1408×512的圖像大小。訓練用AdamW優(yōu)化器,學習速率為2e-4,權(quán)重衰減為1e-4。主干的學習速率降低了10倍。批量大小設置為每個GPU 1個,模型用8個GPU訓練24個epoch。在第20個epoch,學習率降低了10倍。多尺度特征的數(shù)量設置為L=4,先前時間步長的默認數(shù)量設置為P=6,采樣高度的數(shù)量設置為Z=4。高度范圍為(?5米,3米],其中stride是2米。


對于100米×100米設置,用50×50 BEV query來表示整個BEV空間,然后將結(jié)果上采樣4倍去匹配BEV分辨率。對于60米×30米設置,用100×50 BEV query,其上采樣與100米×100米設置類似。對于160米×100米設置,用80×50 BEV query,然后向上采樣8x去匹配分辨率。用交叉熵(CE)損失在兩種設置下進行訓練。


對于類不平衡問題,背景類的損失權(quán)重默認設置為0.4。由于100米×100米設置中的道路類別是多邊形區(qū)域,沒有類別不平衡問題,因此道路背景類別的損失權(quán)重設置為1.0。


實驗結(jié)果如下:

圖片


圖片


圖片


圖片


圖片


圖片


圖片


分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25