PolarFormer：極transformer的多攝像頭3D目標檢測

2022-07-09 22:49:47· 來源：計算機視覺深度學習和自動駕駛作者：黃浴

arXiv上傳2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“，作者來自復旦大學張利教授團隊。自動駕駛中的3D目標檢測

arXiv上傳2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“，作者來自復旦大學張利教授團隊。

自動駕駛中的3D目標檢測旨在推理3D世界中感興趣目標的“what”和“where”?，F(xiàn)有的3D目標檢測方法遵循以往2D目標檢測的傳統(tǒng)思路，通常采用垂直軸的標準笛卡爾坐標系。然而，這不符合自車透視幾何性質(zhì)，因為每個車載攝像機，都以徑向（非垂直）軸成像幾何楔形（wedge）內(nèi)參，去感知世界。因此，本文提倡利用極坐標系，并提出一種極transformer（PolarFormer），以多攝像機2D圖像作為輸入，用于BEV空間更精確3D目標檢測。

具體來說，設計一種不受輸入結(jié)構(gòu)形狀限制、基于交叉注意的極檢測頭（Polar detection head），用于處理不規(guī)則的極網(wǎng)格（Polar grids）。為了解決沿極距離維度（Polar's distance dimension）的無約束目標尺度變化，進一步引入一種多尺度極表征（Polar representation）學習策略。通過幾何約束下序列到序列（seq-to-seq）的方式，該模型從相應圖像觀測的光柵化最佳利用極表征。在nuScenes數(shù)據(jù)集上的全面實驗表明，PolarFormer顯著優(yōu)于最先進的3D目標檢測方案，并且在BEV語義分割任務上具有競爭力。

3D目標檢測是在無約束的真實場景中實現(xiàn)自主駕駛的一種能力，旨在預測3D世界中感興趣的單目標位置、尺寸和方向。盡管有良好的成本優(yōu)勢，但基于多攝像機的3D目標檢測仍然有特別大的挑戰(zhàn)性。為了獲得3D表示，通常利用密集深度估計，但不僅計算成本高，而且容易出錯。

為了繞過深度估計，最近的方法利用基于查詢（query）的2D檢測，學習一組稀疏和虛擬嵌入，用于多攝像機3D目標檢測，但無法有效建模目標之間的幾何結(jié)構(gòu)。通常，在2D或3D空間中采用垂直軸的經(jīng)典笛卡爾坐標系。這在很大程度上受到所用卷積模型的限制。

相反，在自車的透視圖中，每個攝像機下感知的物理世界，是攝像機成像幾何楔形內(nèi)參的形狀，具有徑向非垂直軸?？紤]到這種成像特性，極坐標系應該比通常采用的笛卡爾坐標系更合適、更自然地用于3D目標檢測。事實上，極坐標已在一些基于激光雷達的3D感知方法中得到利用。然而，由于卷積網(wǎng)絡僅限于矩形網(wǎng)格結(jié)構(gòu)和局部感受野，其在算法上受到限制。

在3D目標檢測中，得到了一組N個單目視圖，包括輸入圖像和攝像頭內(nèi)外參。PolarFormer的目標是從多個攝像機視圖中學習有效的極BEV表征，以便在極坐標系中預測目標的位置、大小、方向和速度。

PolarFormer由以下部件組成：跨平面編碼器首先生成每個輸入圖像的多尺度特征表示，具備一個跨平面注意機制，其中極查詢（Polar queries ）處理輸入圖像在BEV生成3D特征。然后，極對齊（Polar alignment）模塊聚集來自多個攝像機視圖的極射線（Polar rays），生成結(jié)構(gòu)化極圖（Polar map）。此外，極BEV編碼器（Polar BEV encoder）通過多尺度特征交互增強極特征（Polar features）。最后，極檢測頭對極圖（Polar map）進行解碼，并在極坐標系中預測目標。

為解決具有多粒度細節(jié)的無約束目標尺度變化問題，考慮了一種多尺度極BEV表征結(jié)構(gòu)。不同尺度的圖像特征有獨特的跨平面編碼器，并在共享極BEV編碼器中相互交互。然后，多尺度極BEV圖由極解碼頭（Polar decoder head）查詢。PolarFormer的總體架構(gòu)如圖所示：

跨平面編碼器的目標是將圖像與極射線相關聯(lián)。根據(jù)攝像機的幾何模型，對于任何攝像機坐標(x(C), y(C), z(C))，轉(zhuǎn)換到圖像坐標(x(I), y(I))可以描述為：

對任何極BEV坐標

設fn,u,w表示來自第n攝像機、第u尺度和第w列的圖像列，p?n,u,w表示引入的相應極射線查詢?？缙矫孀⒁饬Ρ硎鰹椋?

沿方位（azimuth）軸疊加極射線特征pn,u,w，得到第n個攝像機和和第u個尺度的極特征圖（即極BEV表征）pn,u為：

這種基于序列-到-序列交叉注意的編碼器可以對幾何成像進行先驗編碼，并隱式有效地學習深度的替代。

極對齊模塊將極射線從不同的攝像機坐標轉(zhuǎn)換為共享的世界坐標。以多視點極特征圖和攝像機矩陣為輸入，生成相干極BEV圖，覆蓋所有攝像機視圖。具體來說，首先在柱坐標系中均勻生成一組三維點 G(P) = (ρ(P), φ(P), z(P)) 表示。然后將這些點投影到第n個攝像機的圖像平面，檢索極射線的索引如下：

第u個尺度的相干極BEV圖如下生成：

極對齊模塊通過沿z軸生成這些點來整合不同高度的特征。學習極坐標表征優(yōu)于笛卡爾坐標，因為信息損失最小，與原始視覺數(shù)據(jù)的一致性更高。

利用多尺度特征圖處理極坐標中的目標尺度變化。為此，極BEV編碼器在相鄰像素之間跨多尺度特征地圖執(zhí)行信息交換。形式上，設{Gu}為輸入的多尺度極特征圖，x?為每個查詢元素q的參考點的歸一化坐標，引入一個多尺度可變形注意模塊，如下所示：

作為查詢，多尺度特征圖中的每個像素利用相鄰像素和跨尺度像素的信息。這樣在所有特征尺度上學習更豐富的語義。

極解碼器解碼上述多尺度極特征，在極坐標中進行預測。構(gòu)造有變形注意的極BEV解碼器。

與編碼器的2D參考點不同，這里的參考點位于3D柱坐標中，當投影到BEV時，等同于極坐標。每個解碼器層的分類分支輸出置信度分向量，回歸分支的關鍵學習目標是極坐標，而不是笛卡爾坐標，如圖所示：

參考點（ρ，φ，z）在解碼器中迭代細化。有了參考點，回歸分支輸出偏移量dρ、dφ和dz。方向θ和速度v的學習目標相對于目標的方位角，并分解除為正交分量θφ、θρ、vφ和vρ，定義如下：

將目標大小l、w和h回歸為對數(shù)l、對數(shù)w和對數(shù)h。分別采用focal loss和L1 loss進行分類和回歸。如圖是生成多尺度極BEV圖的示意圖：

實驗結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：西門子工程咨詢服務團隊解決方案之基于臺架測試傳函的NVH有限元輪胎
上一篇：基于卡爾曼濾波的道路縱坡估計方法

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關閱讀

0 條相關評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋
• 大推力直驅(qū)技術助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運	• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

PolarFormer：極transformer的多攝像頭3D目標檢測

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工