日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

PolarFormer:極transformer的多攝像頭3D目標檢測

2022-07-09 22:49:47·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
arXiv上傳2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“,作者來自復旦大學張利教授團隊。自動駕駛中的3D目標檢測

arXiv上傳2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“,作者來自復旦大學張利教授團隊。

圖片


自動駕駛中的3D目標檢測旨在推理3D世界中感興趣目標的“what”和“where”?,F(xiàn)有的3D目標檢測方法遵循以往2D目標檢測的傳統(tǒng)思路,通常采用垂直軸的標準笛卡爾坐標系。然而,這不符合自車透視幾何性質(zhì),因為每個車載攝像機,都以徑向(非垂直)軸成像幾何楔形(wedge)內(nèi)參,去感知世界。因此,本文提倡利用極坐標系,并提出一種極transformer(PolarFormer),以多攝像機2D圖像作為輸入,用于BEV空間更精確3D目標檢測。


具體來說,設計一種不受輸入結(jié)構(gòu)形狀限制、基于交叉注意的極檢測頭(Polar detection head),用于處理不規(guī)則的極網(wǎng)格(Polar grids)。為了解決沿極距離維度(Polar's distance dimension)的無約束目標尺度變化,進一步引入一種多尺度極表征(Polar representation)學習策略。通過幾何約束下序列到序列(seq-to-seq)的方式,該模型從相應圖像觀測的光柵化最佳利用極表征。在nuScenes數(shù)據(jù)集上的全面實驗表明,PolarFormer顯著優(yōu)于最先進的3D目標檢測方案,并且在BEV語義分割任務上具有競爭力。

圖片


3D目標檢測是在無約束的真實場景中實現(xiàn)自主駕駛的一種能力,旨在預測3D世界中感興趣的單目標位置、尺寸和方向。盡管有良好的成本優(yōu)勢,但基于多攝像機的3D目標檢測仍然有特別大的挑戰(zhàn)性。為了獲得3D表示,通常利用密集深度估計,但不僅計算成本高,而且容易出錯。


為了繞過深度估計,最近的方法利用基于查詢(query)的2D檢測,學習一組稀疏和虛擬嵌入,用于多攝像機3D目標檢測,但無法有效建模目標之間的幾何結(jié)構(gòu)。通常,在2D或3D空間中采用垂直軸的經(jīng)典笛卡爾坐標系。這在很大程度上受到所用卷積模型的限制。


相反,在自車的透視圖中,每個攝像機下感知的物理世界,是攝像機成像幾何楔形內(nèi)參的形狀,具有徑向非垂直軸??紤]到這種成像特性,極坐標系應該比通常采用的笛卡爾坐標系更合適、更自然地用于3D目標檢測。事實上,極坐標已在一些基于激光雷達的3D感知方法中得到利用。然而,由于卷積網(wǎng)絡僅限于矩形網(wǎng)格結(jié)構(gòu)和局部感受野,其在算法上受到限制。


在3D目標檢測中,得到了一組N個單目視圖,包括輸入圖像和攝像頭內(nèi)外參。PolarFormer的目標是從多個攝像機視圖中學習有效的極BEV表征,以便在極坐標系中預測目標的位置、大小、方向和速度。


PolarFormer由以下部件組成:跨平面編碼器首先生成每個輸入圖像的多尺度特征表示,具備一個跨平面注意機制,其中極查詢(Polar queries )處理輸入圖像在BEV生成3D特征。然后,極對齊(Polar alignment)模塊聚集來自多個攝像機視圖的極射線(Polar rays),生成結(jié)構(gòu)化極圖(Polar map)。此外,極BEV編碼器(Polar BEV encoder)通過多尺度特征交互增強極特征(Polar features)。最后,極檢測頭對極圖(Polar map)進行解碼,并在極坐標系中預測目標。


為解決具有多粒度細節(jié)的無約束目標尺度變化問題,考慮了一種多尺度極BEV表征結(jié)構(gòu)。不同尺度的圖像特征有獨特的跨平面編碼器,并在共享極BEV編碼器中相互交互。然后,多尺度極BEV圖由極解碼頭(Polar decoder head)查詢。PolarFormer的總體架構(gòu)如圖所示:

圖片


跨平面編碼器的目標是將圖像與極射線相關聯(lián)。根據(jù)攝像機的幾何模型,對于任何攝像機坐標(x(C), y(C), z(C)),轉(zhuǎn)換到圖像坐標(x(I), y(I))可以描述為:

圖片


對任何極BEV坐標

圖片


圖片


設fn,u,w表示來自第n攝像機、第u尺度和第w列的圖像列,p?n,u,w表示引入的相應極射線查詢??缙矫孀⒁饬Ρ硎鰹椋?

圖片


沿方位(azimuth)軸疊加極射線特征pn,u,w,得到第n個攝像機和和第u個尺度的極特征圖(即極BEV表征)pn,u為:

圖片

這種基于序列-到-序列交叉注意的編碼器可以對幾何成像進行先驗編碼,并隱式有效地學習深度的替代。

極對齊模塊將極射線從不同的攝像機坐標轉(zhuǎn)換為共享的世界坐標。以多視點極特征圖和攝像機矩陣為輸入,生成相干極BEV圖,覆蓋所有攝像機視圖。具體來說,首先在柱坐標系中均勻生成一組三維點 G(P) = (ρ(P), φ(P), z(P)) 表示。然后將這些點投影到第n個攝像機的圖像平面,檢索極射線的索引如下:

圖片


第u個尺度的相干極BEV圖如下生成:

圖片


極對齊模塊通過沿z軸生成這些點來整合不同高度的特征。學習極坐標表征優(yōu)于笛卡爾坐標,因為信息損失最小,與原始視覺數(shù)據(jù)的一致性更高。


利用多尺度特征圖處理極坐標中的目標尺度變化。為此,極BEV編碼器在相鄰像素之間跨多尺度特征地圖執(zhí)行信息交換。形式上,設{Gu}為輸入的多尺度極特征圖,x?為每個查詢元素q的參考點的歸一化坐標,引入一個多尺度可變形注意模塊,如下所示:

圖片


作為查詢,多尺度特征圖中的每個像素利用相鄰像素和跨尺度像素的信息。這樣在所有特征尺度上學習更豐富的語義。


極解碼器解碼上述多尺度極特征,在極坐標中進行預測。構(gòu)造有變形注意的極BEV解碼器。


與編碼器的2D參考點不同,這里的參考點位于3D柱坐標中,當投影到BEV時,等同于極坐標。每個解碼器層的分類分支輸出置信度分向量,回歸分支的關鍵學習目標是極坐標,而不是笛卡爾坐標,如圖所示:

圖片


參考點(ρ,φ,z)在解碼器中迭代細化。有了參考點,回歸分支輸出偏移量dρ、dφ和dz。方向θ和速度v的學習目標相對于目標的方位角,并分解除為正交分量θφ、θρ、vφ和vρ,定義如下:

圖片


圖片


將目標大小l、w和h回歸為對數(shù)l、對數(shù)w和對數(shù)h。分別采用focal loss和L1 loss進行分類和回歸。如圖是生成多尺度極BEV圖的示意圖:

圖片


實驗結(jié)果如下:

圖片


圖片


圖片


圖片



分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25