Graph-DETR3D: 在多視角3D目標(biāo)檢測(cè)中對(duì)重疊區(qū)域再思考

2022-08-11 10:36:51· 來(lái)源：計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv論文“Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection“，22年6月，中科大、哈工大和商湯科技的工作。從多個(gè)圖像視圖

arXiv論文“Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection“，22年6月，中科大、哈工大和商湯科技的工作。

從多個(gè)圖像視圖中檢測(cè)3-D目標(biāo)是視覺(jué)場(chǎng)景理解的一項(xiàng)基本而富有挑戰(zhàn)性的任務(wù)。由于其低成本和高效率，多視圖3-D目標(biāo)檢測(cè)顯示出了廣闊的應(yīng)用前景。然而，由于缺乏深度信息，通過(guò)3-D空間中的透視圖去精確檢測(cè)目標(biāo)，極其困難。最近，DETR3D引入一種新的3D-2D query范式，用于聚合多視圖圖像以進(jìn)行3D目標(biāo)檢測(cè)，并實(shí)現(xiàn)了最先進(jìn)的性能。

本文通過(guò)密集的引導(dǎo)性實(shí)驗(yàn)，量化了位于不同區(qū)域的目標(biāo)，并發(fā)現(xiàn)“截?cái)鄬?shí)例”（即每個(gè)圖像的邊界區(qū)域）是阻礙DETR3D性能的主要瓶頸。盡管在重疊區(qū)域中合并來(lái)自兩個(gè)相鄰視圖的多個(gè)特征，但DETR3D仍然存在特征聚合不足的問(wèn)題，因此錯(cuò)過(guò)了充分提高檢測(cè)性能的機(jī)會(huì)。

為了解決這個(gè)問(wèn)題，提出Graph-DETR3D，通過(guò)圖結(jié)構(gòu)學(xué)習(xí)（GSL）自動(dòng)聚合多視圖圖像信息。在每個(gè)目標(biāo)查詢和2-D特征圖之間構(gòu)建一個(gè)動(dòng)態(tài)3D圖，以增強(qiáng)目標(biāo)表示，尤其是在邊界區(qū)域。此外，Graph-DETR3D得益于一種新的深度不變（depth-invariant）多尺度訓(xùn)練策略，其通過(guò)同時(shí)縮放圖像大小和目標(biāo)深度來(lái)保持視覺(jué)深度的一致性。

Graph-DETR3D的不同在于兩點(diǎn)，如圖所示：（1）動(dòng)態(tài)圖特征的聚合模塊；（2）深度不變的多尺度訓(xùn)練策略。它遵循DETR3D的基本結(jié)構(gòu)，由三個(gè)組件組成：圖像編碼器、transformer解碼器和目標(biāo)預(yù)測(cè)頭。給定一組圖像I={I1，I2，…，IK}（由N個(gè)周視攝像機(jī)捕捉），Graph-DETR3D旨在預(yù)測(cè)感興趣邊框的定位和類別。首先用圖像編碼器（包括ResNet和FPN）將這些圖像變成一組相對(duì)L個(gè)特征圖級(jí)的特征F。然后，構(gòu)建一個(gè)動(dòng)態(tài)3-D圖，通過(guò)動(dòng)態(tài)圖特征聚合（dynamic graph feature aggregation，DGFA）模塊廣泛聚合2-D信息，優(yōu)化目標(biāo)查詢的表示。最后，利用增強(qiáng)的目標(biāo)查詢輸出最終預(yù)測(cè)。

如圖顯示動(dòng)態(tài)圖特征聚合（DFGA）過(guò)程：首先為每個(gè)目標(biāo)查詢構(gòu)造一個(gè)可學(xué)習(xí)的3-D圖，然后從2-D圖像平面采樣特征。最后，通過(guò)圖連接（graph connections）增強(qiáng)了目標(biāo)查詢的表示。這種相互連接的消息傳播（message propagation）方案支持對(duì)圖結(jié)構(gòu)構(gòu)造和特征增強(qiáng)的迭代細(xì)化方案。

多尺度訓(xùn)練是2D和3D目標(biāo)檢測(cè)任務(wù)中常用的數(shù)據(jù)增強(qiáng)策略，經(jīng)證明有效且推理成本低。然而，它很少出現(xiàn)在基于視覺(jué)的3-D檢測(cè)方法中?？紤]到不同輸入圖像大小可以提高模型的魯棒性，同時(shí)調(diào)整圖像大小和修改攝像機(jī)內(nèi)參來(lái)實(shí)現(xiàn)普通多尺度訓(xùn)練策略。

一個(gè)有趣的現(xiàn)象是，最終的性能急劇下降。通過(guò)仔細(xì)分析輸入數(shù)據(jù)，發(fā)現(xiàn)簡(jiǎn)單地重新縮放圖像會(huì)導(dǎo)致透視-多義問(wèn)題：當(dāng)目標(biāo)調(diào)整到較大/較小的比例時(shí)，其絕對(duì)屬性（即目標(biāo)的大小、到ego point的距離）不會(huì)改變。

作為一個(gè)具體示例，如圖顯示這個(gè)多義問(wèn)題：盡管（a）和（b）中所選區(qū)域的絕對(duì)3D位置相同，但圖像像素的數(shù)量不同。深度預(yù)測(cè)網(wǎng)絡(luò)傾向于基于圖像的占用面積來(lái)估計(jì)深度。因此，圖中的這種訓(xùn)練模式可能會(huì)讓深度預(yù)測(cè)模型糊涂，并進(jìn)一步惡化最終性能。

為此從像素透視重新計(jì)算深度。算法偽代碼如下：

如下是解碼操作：

重新計(jì)算像素大?。?

假設(shè)尺度因子r = rx = ry，則簡(jiǎn)化得到：

實(shí)驗(yàn)結(jié)果如下：

注：DI = Depth-Invariant

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：800V電池平臺(tái)對(duì)BMS硬件設(shè)計(jì)有什么影響與要求
上一篇：研究丨鋅鋁鎂鍍層鋼板耐腐蝕性能

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

Graph-DETR3D: 在多視角3D目標(biāo)檢測(cè)中對(duì)重疊區(qū)域再思考

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工