MonoDTR：帶深度-覺察Transformer的3D目標(biāo)單目檢測

2022-05-29 09:34:35· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動駕駛作者：黃浴

CVPR‘22論文“MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer“，作者是臺大和自動駕駛公司富智捷（屬于鴻海集團(tuán)spin-off，教授在里面

CVPR‘22論文“MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer“，作者是臺大和自動駕駛公司富智捷（屬于鴻海集團(tuán)spin-off，教授在里面任CTO）。

單目3D目標(biāo)檢測是自主駕駛中一項(xiàng)重要而富有挑戰(zhàn)性的任務(wù)?，F(xiàn)有的一些方法利用現(xiàn)成的深度圖估計(jì)器提供的深度信息來輔助3D檢測，但額外計(jì)算負(fù)擔(dān)是個包袱，而且由于深度先驗(yàn)不準(zhǔn)確，系統(tǒng)性能有限。為了緩解這一問題，這里提出一種端到端深度-覺察的Transformer網(wǎng)絡(luò)MonoDTR。

它主要由兩部分組成：（1）深度-覺察特征增強(qiáng)（DFE）模塊，該模塊通過輔助監(jiān)督，隱式學(xué)習(xí)深度-覺察特征，而無需額外計(jì)算；（2）深度-覺察Transformer（DTR）模塊，該模塊全局集成上下文和深度-覺察特征。此外，與傳統(tǒng)的像素位置編碼不同，作者引入一種深度位置編碼（DPE），將深度位置提示注入到Transformer中。所提出的深度-覺察模型，可以很容易地插入現(xiàn)有純圖像單目3-D目標(biāo)檢測器中，以提高性能。

代碼位于https://github.com/Kuanchihuang/MonoDTR。

3D目標(biāo)檢測是一個基本問題，可以實(shí)現(xiàn)各種應(yīng)用，如自動駕駛。以前方法基于來自多個傳感器的精確深度信息，如激光雷達(dá)信號或立體匹配，實(shí)現(xiàn)了卓越性能。為了降低傳感器成本，已經(jīng)提出了一些單目3D目標(biāo)檢測方法，并且依靠2D和3D之間的幾何約束取得了令人矚目的進(jìn)展。然而，如果沒有深度線索的幫助，性能仍然遠(yuǎn)遠(yuǎn)不能令人滿意。

最近，有幾項(xiàng)工作試圖從預(yù)先訓(xùn)練的深度估計(jì)模型生成估計(jì)深度，以輔助單目3D目標(biāo)檢測?；趥渭す饫走_(dá)的方法將估計(jì)的深度圖轉(zhuǎn)換為3D點(diǎn)云，以模擬激光雷達(dá)信號，然后使用現(xiàn)有的基于激光雷達(dá)的檢測器進(jìn)行3D目標(biāo)檢測。一些基于融合的方法采用多種融合策略，將深度和圖像提取的特征結(jié)合起來，以檢測目標(biāo)。這些方法雖然可以借助估計(jì)的深度更好地定位目標(biāo)，但可能存在從不準(zhǔn)確深度圖學(xué)習(xí)3D檢測的風(fēng)險(xiǎn)。此外，深度估計(jì)的額外計(jì)算成本在應(yīng)用中不切實(shí)際。

為了解決上述問題，作者提出MonoDTR，一種用于單目3D目標(biāo)檢測的端到端深度-覺察Transformer網(wǎng)絡(luò)。如圖所示：引入深度-覺察特征增強(qiáng)（DFE）模塊，利用輔助深度學(xué)習(xí)深度-覺察特征，避免從預(yù)訓(xùn)練的深度估計(jì)中獲取不準(zhǔn)確的深度先驗(yàn)信息；（a）為偽激光雷達(dá)方法，（b）為多傳感器融合方法，（c）為本文MonoDTR方法。

此外，DFE模型重量輕，但在輔助3D目標(biāo)檢測方面非常有效，無需構(gòu)建復(fù)雜的體系結(jié)構(gòu)來從現(xiàn)成的深度圖中提取特征。與之前的深度輔助方法相比，它顯著減少了計(jì)算時(shí)間。

此外，與之前的基于融合的方法（如D4LCN和DDMP-3D）不同，該方法開發(fā)了第一個基于Transformer的融合模型，用于全局集成圖像和深度信息，這些方法將仔細(xì)設(shè)計(jì)的卷積核應(yīng)用于上下文特征和深度-覺察特征。這種transformer編碼器-解碼器結(jié)構(gòu)，已被證明能夠有效捕獲長距離依賴關(guān)系。

如圖是MonoDTR的總體框架：輸入圖像首先發(fā)送到主干提取特征，深度-覺察特征增強(qiáng)（DFE）模塊通過輔助監(jiān)督學(xué)習(xí)深度-覺察特征，并通過卷積層并行提取上下文-覺察特征。深度-覺察Transformer（DTR）模塊集成了兩種特征，而深度位置編碼（DPE）模塊將深度位置提示注入Transformer。最后，使用檢測頭預(yù)測3D邊框。請注意，輔助深度監(jiān)督僅在訓(xùn)練階段使用。

為了進(jìn)一步增強(qiáng)深度表示的能力，引入相應(yīng)深度類別（bin）的中心表征來增強(qiáng)每個像素的特征。通過聚合屬于指定類別的每個像素深度-覺察特征，可以計(jì)算每個深度類別（視為深度原型）的特征中心。在實(shí)踐中，首先對預(yù)測的深度圖D應(yīng)用組卷積（group convolution），合并相鄰的深度類別（BIN），將類別數(shù)從D減少到D′=D/r，其中尺度標(biāo)量為r。這個措施，有助于共享相似的深度線索并減少計(jì)算。深度原型Fd的表征通過收集所有像素X′的特征來生成，該特征根據(jù)其概率加權(quán)到深度類別d：

然后可以基于深度原型表征重建新的深度-覺察特征，其允許每個像素從全局視圖理解去深度類別的表征。重構(gòu)特征F′計(jì)算如下：

如圖所示是深度-覺察特征增強(qiáng)（DFE）模塊的體系結(jié)構(gòu)：DFE模塊旨在通過輔助監(jiān)督隱式學(xué)習(xí)深度-覺察特征，（a）生成初始深度-覺察特征X并預(yù)測深度分布D；（b）估計(jì)深度原型的特征表征Fd；（c）制作深度原型增強(qiáng)特征F′，并與初始深度-覺察特征X融合。

transformer編碼器旨在改進(jìn)上下文-覺察特征，給定輸入：查詢Q，鍵K和值V，序列長度為N，單頭自注意層可以簡單地表示為：

采用扁平化上下文-覺察特征Xc，作為輸入饋入Transformer編碼器。編碼后的上下文-覺察特征可以通過多頭自注意操作和前饋網(wǎng)絡(luò)（FFN）獲得。

解碼器也構(gòu)建在標(biāo)準(zhǔn)Transformer架構(gòu)上。建議使用深度-覺察特征作為解碼器的輸入，而不是可學(xué)習(xí)的嵌入（目標(biāo)查詢），這與之前編碼器-解碼器視覺transformer工作中的常見用法不同。主要原因是，在單目3D目標(biāo)檢測任務(wù)中，由于透視投影，近距離和遠(yuǎn)距離的攝像頭視圖通常會導(dǎo)致目標(biāo)大小發(fā)生顯著變化。它使得簡單的可學(xué)習(xí)嵌入難以充分表示目標(biāo)的屬性以及處理復(fù)雜的尺度變化情況。相反，在深度-覺察特征中隱藏了大量的距離-覺察線索。

因此，建議采用深度-覺察特征作為Transformer解碼器的輸入。為此，解碼器可以利用Transformer交叉注意模塊的特征，有效地建模上下文特征和深度-覺察特征之間的關(guān)系，從而獲得更好的性能。

位置編碼對于transformer引入位置信息起著重要作用，通常使用正弦函數(shù)生成，或根據(jù)視覺任務(wù)中圖像的像素位置以可學(xué)習(xí)的方式生成。觀察到深度信息比像素級關(guān)系更便于機(jī)器理解3D世界，這里提出一個通用的深度位置編碼（DPE）模塊，將每個像素的深度位置提示嵌入到Transformer中。

如圖所示：深度bin編碼Ed=[e1，…，ed]對每個深度間隔由可學(xué)習(xí)的嵌入構(gòu)成；初始深度位置編碼P，根據(jù)每個像素預(yù)測深度類別D的argmax，從Ed中查找；為了進(jìn)一步表示來自局部鄰域的位置線索，應(yīng)用核大小為3×3的卷積層G并將其添加到P以獲得最終編碼，稱為深度位置編碼（DPE）。

在transformer實(shí)現(xiàn)中，應(yīng)用線性注意來取代普通的自注意，獲得更高的推理速度。

深度-覺察轉(zhuǎn)換器（DTR）的詳細(xì)架構(gòu)如圖所示：編碼器旨在生成編碼的上下文-覺察特征，而解碼器通過多個自注意層從上下文-覺察特征和深度-覺察特征生成融合特征。此外，在將兩個特征傳遞給transformer之前，用建議的深度位置編碼（DPE）來補(bǔ)充這兩個特征，從而實(shí)現(xiàn)更好的3D推理。

帶有預(yù)定義2D-3D錨點(diǎn)的單步檢測器，用于回歸目標(biāo)邊框。每個預(yù)定義的錨點(diǎn)由2D邊框[x2d、y2d、w2d、h2d]和3D邊框[xp、yp、z、w3d、h3d、l3d、θ]的參數(shù)組成。[x2d，y2d]和[xp，yp]表示投影到圖像平面的2D長方體中心和3D目標(biāo)中心。

[w2d、h2d]和[w3d、h3d、l3d]分別表示2D和3D邊框的物理尺寸。z表示3D目標(biāo)中心的深度。θ是觀測角。在訓(xùn)練期間，將所有真值投影到2D空間，計(jì)算與所有2D錨點(diǎn)的IoU。選擇IoU大于0.5的錨點(diǎn)與相應(yīng)的3D框一起分配，進(jìn)行優(yōu)化。

按照Yolov3預(yù)測每個錨點(diǎn)的2D參數(shù)【tx、ty、tw、th】和3D參數(shù)【tx、ty、tw、th、tl、tz、tθ】，旨在參數(shù)化2d和3d邊框的殘差值，并預(yù)測分類分?jǐn)?shù)cls?？梢愿鶕?jù)錨點(diǎn)和網(wǎng)絡(luò)預(yù)測恢復(fù)輸出邊框，如下所示：

損失函數(shù)定義：

其中類別項(xiàng)采用focal loss，回歸項(xiàng)采取smooth- L1 loss，而深度項(xiàng)定義為focal loss

實(shí)驗(yàn)結(jié)果如下：

注：表中幾個比較方法的開源代碼

https://github.com/garrickbrazil/M3D-RPN
https://github.com/Owen-Liuyuxuan/visualDet3D
https://github.com/xinzhuma/monodle

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：一文解析車路協(xié)同發(fā)展難點(diǎn)
上一篇：Simcenter Amesim在車輛制動系統(tǒng)上的應(yīng)用方案介紹（一）?

點(diǎn)贊 0 反對 0 舉報(bào) 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動設(shè)計(jì)與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

MonoDTR：帶深度-覺察Transformer的3D目標(biāo)單目檢測

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機(jī)動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工