日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

MonoDTR:帶深度-覺察Transformer的3D目標(biāo)單目檢測

2022-05-29 09:34:35·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動駕駛  作者:黃浴  
 
CVPR‘22論文“MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer“,作者是臺大和自動駕駛公司富智捷(屬于鴻海集團(tuán)spin-off,教授在里面

CVPR‘22論文“MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer“,作者是臺大和自動駕駛公司富智捷(屬于鴻海集團(tuán)spin-off,教授在里面任CTO)。

圖片


單目3D目標(biāo)檢測是自主駕駛中一項(xiàng)重要而富有挑戰(zhàn)性的任務(wù)?,F(xiàn)有的一些方法利用現(xiàn)成的深度圖估計(jì)器提供的深度信息來輔助3D檢測,但額外計(jì)算負(fù)擔(dān)是個包袱,而且由于深度先驗(yàn)不準(zhǔn)確,系統(tǒng)性能有限。為了緩解這一問題,這里提出一種端到端深度-覺察的Transformer網(wǎng)絡(luò)MonoDTR。


它主要由兩部分組成:(1)深度-覺察特征增強(qiáng)(DFE)模塊,該模塊通過輔助監(jiān)督,隱式學(xué)習(xí)深度-覺察特征,而無需額外計(jì)算;(2)深度-覺察Transformer(DTR)模塊,該模塊全局集成上下文和深度-覺察特征。此外,與傳統(tǒng)的像素位置編碼不同,作者引入一種深度位置編碼(DPE),將深度位置提示注入到Transformer中。所提出的深度-覺察模型,可以很容易地插入現(xiàn)有純圖像單目3-D目標(biāo)檢測器中,以提高性能。


代碼位于https://github.com/Kuanchihuang/MonoDTR。

3D目標(biāo)檢測是一個基本問題,可以實(shí)現(xiàn)各種應(yīng)用,如自動駕駛。以前方法基于來自多個傳感器的精確深度信息,如激光雷達(dá)信號或立體匹配,實(shí)現(xiàn)了卓越性能。為了降低傳感器成本,已經(jīng)提出了一些單目3D目標(biāo)檢測方法,并且依靠2D和3D之間的幾何約束取得了令人矚目的進(jìn)展。然而,如果沒有深度線索的幫助,性能仍然遠(yuǎn)遠(yuǎn)不能令人滿意。


最近,有幾項(xiàng)工作試圖從預(yù)先訓(xùn)練的深度估計(jì)模型生成估計(jì)深度,以輔助單目3D目標(biāo)檢測?;趥渭す饫走_(dá)的方法將估計(jì)的深度圖轉(zhuǎn)換為3D點(diǎn)云,以模擬激光雷達(dá)信號,然后使用現(xiàn)有的基于激光雷達(dá)的檢測器進(jìn)行3D目標(biāo)檢測。一些基于融合的方法采用多種融合策略,將深度和圖像提取的特征結(jié)合起來,以檢測目標(biāo)。這些方法雖然可以借助估計(jì)的深度更好地定位目標(biāo),但可能存在從不準(zhǔn)確深度圖學(xué)習(xí)3D檢測的風(fēng)險(xiǎn)。此外,深度估計(jì)的額外計(jì)算成本在應(yīng)用中不切實(shí)際。


為了解決上述問題,作者提出MonoDTR,一種用于單目3D目標(biāo)檢測的端到端深度-覺察Transformer網(wǎng)絡(luò)。如圖所示:引入深度-覺察特征增強(qiáng)(DFE)模塊,利用輔助深度學(xué)習(xí)深度-覺察特征,避免從預(yù)訓(xùn)練的深度估計(jì)中獲取不準(zhǔn)確的深度先驗(yàn)信息;(a)為偽激光雷達(dá)方法,(b)為多傳感器融合方法,(c)為本文MonoDTR方法。

圖片


此外,DFE模型重量輕,但在輔助3D目標(biāo)檢測方面非常有效,無需構(gòu)建復(fù)雜的體系結(jié)構(gòu)來從現(xiàn)成的深度圖中提取特征。與之前的深度輔助方法相比,它顯著減少了計(jì)算時(shí)間。


此外,與之前的基于融合的方法(如D4LCN和DDMP-3D)不同,該方法開發(fā)了第一個基于Transformer的融合模型,用于全局集成圖像和深度信息,這些方法將仔細(xì)設(shè)計(jì)的卷積核應(yīng)用于上下文特征和深度-覺察特征。這種transformer編碼器-解碼器結(jié)構(gòu),已被證明能夠有效捕獲長距離依賴關(guān)系。


如圖是MonoDTR的總體框架:輸入圖像首先發(fā)送到主干提取特征,深度-覺察特征增強(qiáng)(DFE)模塊通過輔助監(jiān)督學(xué)習(xí)深度-覺察特征,并通過卷積層并行提取上下文-覺察特征。深度-覺察Transformer(DTR)模塊集成了兩種特征,而深度位置編碼(DPE)模塊將深度位置提示注入Transformer。最后,使用檢測頭預(yù)測3D邊框。請注意,輔助深度監(jiān)督僅在訓(xùn)練階段使用。

圖片


為了進(jìn)一步增強(qiáng)深度表示的能力,引入相應(yīng)深度類別(bin)的中心表征來增強(qiáng)每個像素的特征。通過聚合屬于指定類別的每個像素深度-覺察特征,可以計(jì)算每個深度類別(視為深度原型)的特征中心。在實(shí)踐中,首先對預(yù)測的深度圖D應(yīng)用組卷積(group convolution),合并相鄰的深度類別(BIN),將類別數(shù)從D減少到D′=D/r,其中尺度標(biāo)量為r。這個措施,有助于共享相似的深度線索并減少計(jì)算。深度原型Fd的表征通過收集所有像素X′的特征來生成,該特征根據(jù)其概率加權(quán)到深度類別d:

圖片


然后可以基于深度原型表征重建新的深度-覺察特征,其允許每個像素從全局視圖理解去深度類別的表征。重構(gòu)特征F′計(jì)算如下:

圖片


如圖所示是深度-覺察特征增強(qiáng)(DFE)模塊的體系結(jié)構(gòu):DFE模塊旨在通過輔助監(jiān)督隱式學(xué)習(xí)深度-覺察特征,(a) 生成初始深度-覺察特征X并預(yù)測深度分布D;(b)估計(jì)深度原型的特征表征Fd;(c) 制作深度原型增強(qiáng)特征F′,并與初始深度-覺察特征X融合。

圖片


transformer編碼器旨在改進(jìn)上下文-覺察特征,給定輸入:查詢Q,鍵K和值V,序列長度為N,單頭自注意層可以簡單地表示為:

圖片


采用扁平化上下文-覺察特征Xc,作為輸入饋入Transformer編碼器。編碼后的上下文-覺察特征可以通過多頭自注意操作和前饋網(wǎng)絡(luò)(FFN)獲得。


解碼器也構(gòu)建在標(biāo)準(zhǔn)Transformer架構(gòu)上。建議使用深度-覺察特征作為解碼器的輸入,而不是可學(xué)習(xí)的嵌入(目標(biāo)查詢),這與之前編碼器-解碼器視覺transformer工作中的常見用法不同。主要原因是,在單目3D目標(biāo)檢測任務(wù)中,由于透視投影,近距離和遠(yuǎn)距離的攝像頭視圖通常會導(dǎo)致目標(biāo)大小發(fā)生顯著變化。它使得簡單的可學(xué)習(xí)嵌入難以充分表示目標(biāo)的屬性以及處理復(fù)雜的尺度變化情況。相反,在深度-覺察特征中隱藏了大量的距離-覺察線索。


因此,建議采用深度-覺察特征作為Transformer解碼器的輸入。為此,解碼器可以利用Transformer交叉注意模塊的特征,有效地建模上下文特征和深度-覺察特征之間的關(guān)系,從而獲得更好的性能。


位置編碼對于transformer引入位置信息起著重要作用,通常使用正弦函數(shù)生成,或根據(jù)視覺任務(wù)中圖像的像素位置以可學(xué)習(xí)的方式生成。觀察到深度信息比像素級關(guān)系更便于機(jī)器理解3D世界,這里提出一個通用的深度位置編碼(DPE)模塊,將每個像素的深度位置提示嵌入到Transformer中。


如圖所示:深度bin編碼Ed=[e1,…,ed]對每個深度間隔由可學(xué)習(xí)的嵌入構(gòu)成;初始深度位置編碼P,根據(jù)每個像素預(yù)測深度類別D的argmax,從Ed中查找;為了進(jìn)一步表示來自局部鄰域的位置線索,應(yīng)用核大小為3×3的卷積層G并將其添加到P以獲得最終編碼,稱為深度位置編碼(DPE)。

圖片


在transformer實(shí)現(xiàn)中,應(yīng)用線性注意來取代普通的自注意,獲得更高的推理速度。


深度-覺察轉(zhuǎn)換器(DTR)的詳細(xì)架構(gòu)如圖所示:編碼器旨在生成編碼的上下文-覺察特征,而解碼器通過多個自注意層從上下文-覺察特征和深度-覺察特征生成融合特征。此外,在將兩個特征傳遞給transformer之前,用建議的深度位置編碼(DPE)來補(bǔ)充這兩個特征,從而實(shí)現(xiàn)更好的3D推理。

圖片


帶有預(yù)定義2D-3D錨點(diǎn)的單步檢測器,用于回歸目標(biāo)邊框。每個預(yù)定義的錨點(diǎn)由2D邊框[x2d、y2d、w2d、h2d]和3D邊框[xp、yp、z、w3d、h3d、l3d、θ]的參數(shù)組成。[x2d,y2d]和[xp,yp]表示投影到圖像平面的2D長方體中心和3D目標(biāo)中心。


[w2d、h2d]和[w3d、h3d、l3d]分別表示2D和3D邊框的物理尺寸。z表示3D目標(biāo)中心的深度。θ是觀測角。在訓(xùn)練期間,將所有真值投影到2D空間,計(jì)算與所有2D錨點(diǎn)的IoU。選擇IoU大于0.5的錨點(diǎn)與相應(yīng)的3D框一起分配,進(jìn)行優(yōu)化。


按照Yolov3預(yù)測每個錨點(diǎn)的2D參數(shù)【tx、ty、tw、th】和3D參數(shù)【tx、ty、tw、th、tl、tz、tθ】,旨在參數(shù)化2d和3d邊框的殘差值,并預(yù)測分類分?jǐn)?shù)cls??梢愿鶕?jù)錨點(diǎn)和網(wǎng)絡(luò)預(yù)測恢復(fù)輸出邊框,如下所示:

圖片


損失函數(shù)定義:

圖片


其中類別項(xiàng)采用focal loss,回歸項(xiàng)采取smooth- L1 loss,而深度項(xiàng)定義為focal loss

圖片


實(shí)驗(yàn)結(jié)果如下:

圖片


圖片


圖片


圖片


圖片

注:表中幾個比較方法的開源代碼

  • https://github.com/garrickbrazil/M3D-RPN

  • https://github.com/Owen-Liuyuxuan/visualDet3D

  • https://github.com/xinzhuma/monodle

分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號-25