日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

BEVSegFormer:一個來自任意攝像頭的BEV語義分割方法

2022-04-19 12:00:14·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
2022年3月arXiv論文“BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs“,作者主要來自上海的自動駕駛創(chuàng)業(yè)公司Nullmax。BEV

2022年3月arXiv論文“BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs“,作者主要來自上海的自動駕駛創(chuàng)業(yè)公司Nullmax。

圖片


BEV的語義分割是自動駕駛的一項重要任務(wù)。盡管這項任務(wù)已經(jīng)吸引了大量的研究工作,但靈活處理自動駕駛車輛上安裝的任意(單個或多個)攝像頭傳感器仍然是一個挑戰(zhàn)。本文提出一種基于Transformer的BEV語義分割方法,BEVSegFormer。具體來說,該方法首先使用共享主干對來自任意相機的圖像特征進行編碼。然后,這些圖像特征通過基于變形Transformer的編碼器進行增強。此外,引入BEV transformer解碼模塊來解析BEV語義分割結(jié)果。設(shè)計了一種高效的多攝像機變形注意單元,實現(xiàn)了從BEV到圖像視圖的轉(zhuǎn)換。最后,根據(jù)BEV中網(wǎng)格的布局對查詢(queries)進行重塑,并進行上采樣,以有監(jiān)督的方式生成語義分割結(jié)果。

在自動駕駛或機器人導航系統(tǒng)中,感知信息BEV表示非常關(guān)鍵,因為它便于規(guī)劃和控制任務(wù)。例如,在無地圖導航解決方案中,構(gòu)建本地BEV地圖提供了HD地圖的替代方案,對于感知系統(tǒng)的下行任務(wù)(包括智體行為預測和運動規(guī)劃)非常重要。攝像頭的BEV語義分割通常被視為構(gòu)建局部BEV地圖的第一步。


為了從攝像機中獲得BEV語義分割,傳統(tǒng)方法通常在圖像空間中生成分割結(jié)果,然后通過IPM(inverse perspective mapping)函數(shù)將其轉(zhuǎn)換為BEV空間。雖然IPM是連接圖像空間和BEV空間的一種簡單而直接的方法,但它需要精確的攝像機內(nèi)外參數(shù)或?qū)崟r的攝像機姿態(tài)估計。因此,它很可能會產(chǎn)生較差視圖轉(zhuǎn)換。以車道分割為例,如圖所示,使用IPM的傳統(tǒng)方法在存在遮擋或距離較遠的情況下會產(chǎn)生不準確的結(jié)果:(a) 圖像空間的車道分割,(b)通過IPM,對(a)做視圖變換進行BEV分割,(c)BEV車道分割。

圖片


如圖顯示BevSefFormer方法的概述。它由三部分組成:(1)一個用于處理任意相機和輸出特征地圖的共享主干網(wǎng);(2) 使用Transformer編碼器增強特征表示;(3)BEV Transformer解碼器通過交叉注意機制處理BEV查詢,然后把輸出查詢解析為BEV語義分割。

圖片


對于單個輸入圖像,主干接收輸入并輸出多尺度特征圖。對于多個攝像頭配置,這些多個圖像共享同一主干,并輸出相應(yīng)的特征圖。實驗中以ResNet為骨干。


在transformer編碼器中,首先在共享主干的c3、c4、c5級特征上應(yīng)用1×1 卷積運算符,以獲得多尺度特征。在每個攝像頭生成的特征地圖上分別應(yīng)用Deformable Attention模塊。它不需要計算致密注意圖,只關(guān)注參考點附近的一組采樣點。transformer編碼器為每個攝像頭輸出增強的多尺度特征。


BEV transformer解碼器包括一個transformer解碼器,用于計算BEV查詢和多攝像頭特征圖之間的cross attention,以及一個語義解碼器,用于將查詢解析為BEV分割結(jié)果。


在transformer解碼器中,在2D BEV空間上構(gòu)造查詢,然后將這些BEV查詢視為在cross attention模塊的常規(guī)查詢。只使用多尺度特征圖的最小分辨率(原始輸入分辨率的1/32)作為transformer解碼器的輸入。


將可變形DETR中的Deformable Cross-Attention 模塊調(diào)整為多攝像頭Deformable Cross-Attention 模塊,該模塊能夠?qū)⒍鄶z像頭的特征圖轉(zhuǎn)換為BEV查詢,不需要攝像頭的內(nèi)外參數(shù)。


如圖是BEV Transformer解碼器中的多攝像頭Deformable Cross-Attention 模塊:

圖片


在語義解碼器中,對BEV查詢特征進行了重塑,即從transformer解碼器轉(zhuǎn)換為二維空間特征。二維空間特征由BEV Upsample模塊(一個標準語義Upsample模塊)處理,計算語義分割結(jié)果。BEV Upsample模塊的每一級由3×3卷積、1×1卷積和2×雙線性插值運算組成。

Nullmax除了nuScenes數(shù)據(jù)集之外,從上海高速公路收集了一個數(shù)據(jù)集,其中配備前置攝像頭。該數(shù)據(jù)集包括各種場景,如人群交通、進出匝道、陰影、換道和切入。該數(shù)據(jù)集分為3905張訓練圖像和976張驗證圖像。對車道線進行標注進行評估。


在nuScenes數(shù)據(jù)集上使用相同的HDMapNet設(shè)置進行實驗。利用高清地圖自車定位來確定BEV的區(qū)域。在周視攝像頭,將BEV設(shè)置為車輛周圍[-30m,30m]×[-15m,15m]區(qū)域。只有前視攝像頭的情況下,BEV區(qū)域才會設(shè)置為[0m,60m]×[-15m,15m]。道路結(jié)構(gòu)表示為5像素寬的線段。真實數(shù)據(jù)掩碼設(shè)置為400×200。按照STSU(“Structured bird’s-eye-view traffic scene understanding from onboard images, ICCV‘2021)做法,采用448×800大小圖像作為網(wǎng)絡(luò)的輸入。同樣,Nullmax前置攝像頭數(shù)據(jù)集中的BEV區(qū)域設(shè)置為[0m,80m]×[-10m,10m]。真實數(shù)據(jù)掩碼為512×128,而車道寬度為3像素。Nullmax數(shù)據(jù)集上的輸入圖像大小為384×640。


遵循可變形DETR的方法做網(wǎng)絡(luò)設(shè)計。實驗中使用了[1,15,15,15]的加權(quán)交叉熵損失。M=8和K=16是為BEV transformer解碼器的多攝像頭deformable attention所設(shè)置。所有transformer模塊中的嵌入尺寸設(shè)置為256,F(xiàn)FN模塊的特征尺寸設(shè)置為512。


應(yīng)用數(shù)據(jù)增強方法,包括隨機水平翻轉(zhuǎn)、隨機亮度、隨機對比度、隨機色調(diào)和隨機交換通道。網(wǎng)絡(luò)由AdamW優(yōu)化器優(yōu)化,權(quán)重衰減為10e?4。主干和transformer的初始學習率設(shè)置為10e?5, 10e?4,在第100 epoch減少到10e?6和10e?5。在4個RTX 3090 GPU上訓練模型,每個GPUbatch size為1。所有模型都從零開始訓練,共有120 epochs。

實驗結(jié)果如下:

圖片


圖片


圖片


圖片


圖片





分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25