日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

LaRa:用于多攝像頭BEV語義分割的潛表征和光線嵌入

2022-07-09 10:29:29·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv上傳于2022年6月27日的論文“LaRa: Latents and Rays for Multi-Camera Bird’s-Eye-View Semantic Segmentation“,作者來自法國的Valeo.ai 和Inria。最近

arXiv上傳于2022年6月27日的論文“LaRa: Latents and Rays for Multi-Camera Bird’s-Eye-View Semantic Segmentation“,作者來自法國的Valeo.ai 和Inria。

圖片


最近在自動(dòng)駕駛方面的工作廣泛采用了BEV語義圖作為世界的中間表征。這些BEV地圖的在線預(yù)測(cè)涉及非同一般操作,例如多攝像頭數(shù)據(jù)提取、融合和投影到一個(gè)共同頂視網(wǎng)格。這通常需要容易出錯(cuò)的幾何操作(例如,單應(yīng)性或來自單目深度估計(jì)的逆投影)或BEV圖像像素和像素之間昂貴的直接密集映射(例如,MLP或注意機(jī)制)來實(shí)現(xiàn)。


這項(xiàng)工作提出“LaRa”,一種高效的編碼器-解碼器,基于transformer的模型,從多個(gè)攝像頭進(jìn)行車輛語義分割。該方法用一個(gè)交叉注意系統(tǒng),將多個(gè)傳感器的信息聚合成一個(gè)緊湊但豐富的潛表征集。這些潛表征經(jīng)過一系列自注意塊處理后,在BEV空間通過第二次交叉注意機(jī)制重投影。

為了安全規(guī)劃和駕駛,自動(dòng)駕駛汽車需要通過多個(gè)不同的傳感器(例如攝像機(jī)、雷達(dá)和激光雷達(dá))準(zhǔn)確地360度感知和了解其周圍環(huán)境。大多數(shù)方法緩慢地聚合來自每個(gè)傳感器的獨(dú)立預(yù)測(cè)。這種后融合策略在場(chǎng)景級(jí)全局推理方面存在局限性,并且沒有利用連接傳感器的可用先驗(yàn)幾何知識(shí)?;蛘撸珺EV代表性空間,即頂視圖占用網(wǎng)格,最近在社區(qū)內(nèi)引起了極大的興趣。


BEV是一個(gè)合適的自然空間,可以融合多個(gè)視圖或傳感器模態(tài),并捕捉語義、幾何和動(dòng)態(tài)信息。此外,它是下游駕駛?cè)蝿?wù)的廣泛選擇,包括運(yùn)動(dòng)預(yù)測(cè)和規(guī)劃。本文重點(diǎn)研究多攝像機(jī)在BEV的感知。BEV表征的在線估計(jì)通常通過以下方式完成:(i)施加強(qiáng)大的幾何先驗(yàn),例如平面世界或像素列和BEV射線之間的對(duì)應(yīng)關(guān)系,(ii)預(yù)測(cè)像素的深度概率分布,從2D提升到3D并投影到BEV,一個(gè)受到組合誤差影響的系統(tǒng),或(iii)學(xué)習(xí)多攝像機(jī)特征和BEV網(wǎng)格像素之間代價(jià)高昂的密集映射。


假設(shè)有多個(gè)攝像機(jī)觀察場(chǎng)景,目標(biāo)是對(duì)于自車周圍的車輛估計(jì)二值占用網(wǎng)格。本文提出一種基于transformer的架構(gòu)“LaRa”,在擴(kuò)展回BEV空間之前,將多個(gè)攝像機(jī)收集的信息有效地聚合為緊湊的潛表征。由于攝像機(jī)之間的幾何關(guān)系應(yīng)該指導(dǎo)每個(gè)攝像機(jī)視圖的融合,建議用覆蓋每個(gè)像素光線的幾何來增強(qiáng)每個(gè)像素。


LaRa架構(gòu)如圖所示:通過共享CNN從圖像中提取語義特征(綠色),并與光線嵌入(多色)連接,后者提供幾何信息,在攝像機(jī)內(nèi)的像素和攝像機(jī)之間的像素建立空間關(guān)聯(lián)。然后,通過1個(gè)交叉注意(CA)和 L個(gè)自注意(SA)層(黃色),將該表征融合為緊湊的潛表征。用交叉注意查詢潛表征獲得最終的BEV圖,然后用BEV CNN(紅色)進(jìn)行細(xì)化。

圖片


考慮C個(gè)攝像機(jī),攝像機(jī)k產(chǎn)生的圖像Ik,Rk和tk分別為其外參旋轉(zhuǎn)和平移分量。從這些輸入提取兩種互補(bǔ)的信息:來自原始圖像的語義信息和來自攝像機(jī)標(biāo)定參數(shù)的幾何線索。

  • 來自原始圖像的語義信息

共享圖像編碼器E為每個(gè)圖像Ik提取特征圖Fk = E(Ik),用預(yù)訓(xùn)練的EfficientNet主干實(shí)例化E,產(chǎn)生多攝像機(jī)特征。然后,這些空間特征圖重新排列為一系列特征向量。

  • 利用幾何先驗(yàn)

為用幾何先驗(yàn)豐富攝像機(jī)特征,常用的正弦和余弦空間嵌入在多個(gè)攝像機(jī)情況下是不明確的。一個(gè)簡(jiǎn)單的解決方案是,除了傅立葉嵌入之外,用依賴于攝像機(jī)的可學(xué)習(xí)嵌入來消除攝像機(jī)之間的歧義。然而,在設(shè)置中,攝像機(jī)之間的幾何關(guān)系(由攝像機(jī)裝備的結(jié)構(gòu)定義)對(duì)于指導(dǎo)視圖融合至關(guān)重要。這促使利用攝像機(jī)的內(nèi)外參數(shù)來編碼自車幀中每個(gè)像素的位置和方向。


更準(zhǔn)確地說,通過為攝像機(jī)的每個(gè)像素構(gòu)建觀察光線,編碼攝像機(jī)標(biāo)定參數(shù)。給定在攝像機(jī)圖像Ik的像素坐標(biāo),捕獲x的射線方向rk(x)用以下公式計(jì)算:

圖片


然后,為了充分描述捕獲像素x的光線位置和方向,嵌入rayk(x)計(jì)算如下:

圖片


該計(jì)算在攝像機(jī)內(nèi)和攝像機(jī)之間是一致的,并且顯示了一個(gè)有趣的特性:具有相同光學(xué)中心的兩個(gè)攝像機(jī)重疊區(qū)域具有相同的光線嵌入。請(qǐng)注意,內(nèi)參根據(jù)Ik和Fk之間的分辨率差異進(jìn)行縮放。最終輸入向量序列通過串聯(lián)每個(gè)特征向量Fk(x)及其幾何嵌入rayk(x)。

作者基于通用架構(gòu)的發(fā)現(xiàn),用中等固定大小的潛空間,而不是學(xué)習(xí)多攝像機(jī)特征和BEV空間之間的二次“all-to-all”對(duì)應(yīng)關(guān)系,去控制圖像到BEV塊的計(jì)算和內(nèi)存開銷。形式上,來自所有攝像機(jī)的視覺表征Fk及其相應(yīng)的幾何嵌入rayk,通過交叉注意壓縮為N個(gè)可學(xué)習(xí)潛表征的集合。無論輸入特征分辨率或攝像機(jī)數(shù)量如何,都能夠有效地融合來自所有攝像機(jī)所處理的語義信息?;跐摬樵?,該公式將網(wǎng)絡(luò)的深度多視圖處理與輸入和輸出分辨率解耦。因此,該架構(gòu)可以利用BEV網(wǎng)格的完整分辨率。


最后一步從潛空間解碼二值分割預(yù)測(cè)。實(shí)際上,在最終預(yù)測(cè)分辨率下潛向量與BEV“查詢”網(wǎng)格Q交叉參與(cross- attended)。查詢網(wǎng)格的每個(gè)元素都是一個(gè)特征向量,用于編碼BEV的空間位置,指定交叉注意將從潛表示中提取哪些信息。最后一個(gè)交叉注意在BEV空間中生成了一個(gè)特征圖,用一個(gè)小型卷積編碼器-解碼器U-Net(BEV-CNN)進(jìn)一步細(xì)化,最終預(yù)測(cè)二值BEV語義圖。


具體來說,考慮兩種查詢的組合:BEV空間的歸一化坐標(biāo)和歸一化徑向距離。歸一化坐標(biāo)對(duì)BEV平面以自車為中心的歸一化坐標(biāo)進(jìn)行編碼。計(jì)算按照以下公式獲得:

圖片


歸一化徑向距離就是圖像像素相對(duì)中心的歐氏距離:

圖片


雖然該網(wǎng)絡(luò)可以使用MLPbev從Qcoords生成類似的嵌入,但發(fā)現(xiàn)沿Qcoords引入這些徑向嵌入改善了結(jié)果。此外,與更經(jīng)典的傅立葉嵌入和學(xué)習(xí)的查詢嵌入相比,這種查詢解碼選擇更有利,如下表所示:

圖片


如圖是uScenes 數(shù)據(jù)集的6個(gè)周視攝像頭圖像:

圖片


實(shí)驗(yàn)結(jié)果如下:

圖片


如圖展示車輛周圍的六個(gè)攝像頭視圖以及分割真值:在真值(GT)地圖中,車輛顯示為藍(lán)色(可見性>40%)或紫色(可見性<40%)。

圖片


分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25