日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

GS3D:一種用于自動駕駛的高效3D物體檢測框架

2019-10-08 23:27:25·  來源:同濟智能汽車研究所  
 
編者按:在自動駕駛中,對目標(biāo)進行3D檢測近年來受到了越來越多的關(guān)注。雖然可以通過激光雷達生成的點云獲取3D信息,但是從經(jīng)濟性的角度考慮,我們更希望能夠直接
編者按:在自動駕駛中,對目標(biāo)進行3D檢測近年來受到了越來越多的關(guān)注。雖然可以通過激光雷達生成的點云獲取3D信息,但是從經(jīng)濟性的角度考慮,我們更希望能夠直接從RGB相機中獲取3D信息。這篇文章提出了在自動駕駛場景中基于單目圖像并結(jié)合可見表面的視覺特征投影來進行3D目標(biāo)檢測的框架,達到了目前最先進的水平。這篇文章對相關(guān)領(lǐng)域的研究具有非常大的學(xué)習(xí)和借鑒價值。
本文摘自:CVPR2019
原文題目:"GS3D: An Efficient 3D Object Detection framework for Autonomous Driving"
原作者:Buyu Li,Wanli Ouyang,Lu Sheng等
 
摘要:本文提出了在自動駕駛場景中基于單個RGB圖像的高效3D物體檢測框架。本文所做的貢獻是在沒有使用點云或雙目數(shù)據(jù)的條件下,從2D圖像中提取底層3D信息并確定對象的精確3D邊框。利用現(xiàn)成的2D物體檢測工具,本文提出了一種巧妙的方法,可以有效地為每個預(yù)測的2D框確定粗糙的3D邊框。然后將其作為guidance,通過改進來確定目標(biāo)精確的3D邊框。與先前僅使用從2D邊框提取的特征進行3D邊框生成的最先進方法相比,本文通過使用可見表面的視覺特征來獲取對象的3D結(jié)構(gòu)信息。表面的視覺特征用于消除僅使用2D邊界框造成的表示模糊的問題。此外,本文研究了3D邊框改進的不同方法,并發(fā)現(xiàn)具有質(zhì)量意識損失的分類方法具有比回歸更好的性能。在KITTI數(shù)據(jù)集評估中,本文的方法達到了當(dāng)前基于單個RGB圖像的3D目標(biāo)檢測的最高水平。
 
1、簡介
3D目標(biāo)檢測是自動駕駛領(lǐng)域的研究熱點之一。近年來,它在計算機視覺社區(qū)中引起了越來越多的關(guān)注。使用3D激光雷達,可以獲取點云形式的物體的離散3D位置數(shù)據(jù),但設(shè)備非常昂貴。相反,對于大多數(shù)車輛而言,車載RGB相機更便宜且更靈活,但是它們只能提供2D照片。因此,使用單個RGB相機的3D目標(biāo)檢測對于經(jīng)濟的自動駕駛系統(tǒng)而言變得重要并且具有挑戰(zhàn)性。本文著重于只使用單目圖像來進行3D目標(biāo)檢測。
圖1.本文方法的關(guān)鍵思想:(a)本文首先預(yù)測可靠的2D邊界框及其橫擺角的方向。(b)基于預(yù)測的2D信息,本文利用巧妙的技術(shù)有效地確定相應(yīng)對象的基本長方體,稱為guidance。(c) 本文的模型將利用guidance 投影至二維圖像上,再利用該投影中的可見表面來提取的特征以及它的緊密2D邊界框來執(zhí)行具有分類公式和質(zhì)量感知損失的精確改進。
本文提出了一種基于有效框架3Dguidance并使用表面特征進行改進的3D目標(biāo)檢測框架(GS3D)。并且,本文僅使用單目RGB圖像檢測目標(biāo)的3D信息。典型的單目圖像3D檢測方法有如下:Mono3d采用的是傳統(tǒng)的二維檢測框架,利用三維空間中的窮舉滑動窗口作為proposal,任務(wù)是選擇那些能夠很好地覆蓋物體的proposal。但是問題是3D空間比2D空間大得多,這需要更多的計算成本,但是這些計算不是必需的。
圖2.僅使用2D邊界框?qū)е碌奶卣鞅硎酒缌x的示例。3D框彼此差異很大,只有左框是正確的,但它們對應(yīng)的2D邊界框完全相同。
 
本文的第二個觀察到的方面,是可以通過利用3D框的可見表面來作為基礎(chǔ)的3D信息?;谠揼uidance來進行下一步的優(yōu)化,為了實現(xiàn)高精度,需要進一步分類以消除誤報以及適當(dāng)?shù)母倪M來實現(xiàn)更好的定位。但是,僅使用2D邊界框進行特征提取時缺少的信息會帶來3D框表示模糊的問題。如圖2所示,彼此大小不同的3D框具有相同的2D邊界框。因此,該模型將采用與輸入相同的特征,但是分類器預(yù)期會預(yù)測它們不同的置信度(左圖所示為高置信度,圖2中其他兩張圖片所示情況為低置信度)。僅從2D邊界框,模型幾乎不知道(指導(dǎo)的)原始參數(shù)是什么,但是卻基于這些參數(shù)來預(yù)測殘差,因此訓(xùn)練是沒有效果的。為了解決這個問題,本文探究了2D圖像中的基礎(chǔ)3D信息,并提出了一種新方法,該方法采用從3D框投影的可見表面來解析特征。如圖1(c)所示,分別提取可見表面的特征然后合并,以便利用結(jié)構(gòu)信息來區(qū)分不同形式的3D框。
 
對于3D框的進一步修正,本文將傳統(tǒng)的回歸形式重新修改為分類形式,并為其設(shè)計了質(zhì)量損失函數(shù),結(jié)果顯示這樣對檢測性能有了顯著提高。
本文的主要貢獻如下:
 
1.基于可靠的2D檢測結(jié)果,本文提出了一種基于單張RGB圖像的3D目標(biāo)檢測方法。該方法可以有效地獲得目標(biāo)的基本長方體輪廓。基本長方體提供了對象的位置,大小和方向的可靠近似,并作為進一步改進的guidance。
2.本文利用2D圖像上投影3D框的可見表面中的潛在3D結(jié)構(gòu)信息,并通過從這些表面提取的特征來克服以前方法中的特征模糊問題。通過表面特征的融合,該模型實現(xiàn)了更好的判斷能力,提高了檢測精度。
本文設(shè)計并研究了幾種改進方法,并得出結(jié)論:基于離散分類的方法具有質(zhì)量意識損失,比直接采用回歸方法對3D框改進的效果要好得多。
 
本文在KITTI目標(biāo)檢測數(shù)據(jù)集上評估了本文提出的方法。實驗表明,本文的提出方法在僅使用單個RGB圖像的條件下效果超越了當(dāng)前最先進的方法,甚至可以與使用立體數(shù)據(jù)的方法相媲美。

2、相關(guān)工作
隨著對物體和場景的3D理解受到越來越多的關(guān)注。早期的方法主要使用低級特征或統(tǒng)計分析的方法來處理3D識別或恢復(fù)任務(wù),而3D目標(biāo)檢測任務(wù)更具挑戰(zhàn)性。
 
3D目標(biāo)檢測方法可以通過數(shù)據(jù)分為三類,即點云,多視角圖像(視頻或立體數(shù)據(jù))和單目圖像?;邳c云的方法,可以直接獲取三維空間中物體表面上點的坐標(biāo),因此與沒有點云的方法相比,它們可以輕松獲得更高的精度?;诙嘁晥D的方法,可以使用從不同視角的圖像計算的視差來獲得深度圖。雖然基于點云和立體數(shù)據(jù)的方法具有更準確的3D推理信息,但是使用單目RGB相機更加便宜和便利。
 
與本文最相關(guān)的文獻是那些在自動駕駛場景中使用單個RGB圖像進行3D物體檢測的文獻。由于缺乏3D空間信息,因此最具挑戰(zhàn)性。最近的許多文章的重點都在單目圖像上。Mono3d通過使用3D滑動窗口解決了這個問題。它詳盡地從幾個預(yù)定義的3D區(qū)域中采集3D的proposals(候選框)。然后,它利用分段,形狀,上下文和位置的復(fù)雜特征來過濾不可能的proposals,并最終通過分類器選擇最佳的proposals。

Mono3d的復(fù)雜性帶來了嚴重的低效問題。而本文設(shè)計了一種基于純投影幾何的方法,并采用合理的假設(shè),可以有效地生成數(shù)量少得多但精度更高的3D proposals。

3、問題描述
本文采用KITTI數(shù)據(jù)集的3D坐標(biāo)系:坐標(biāo)原點在攝像機中心, x軸指向2D圖像平面的右側(cè), y軸指向下方,z軸指向與圖像平面正交代表深度。3D邊框表示為。這里是盒子的大?。▽挾龋叨群烷L度),是底部中心的坐標(biāo),它遵循KITTI注釋。尺寸和中心坐標(biāo)以米為單位測量。分別圍繞y軸,x軸和z軸旋轉(zhuǎn)。由于本文的目標(biāo)物體都在地面上,本文只考慮θ旋轉(zhuǎn),就像之前的所有工作一樣。2D邊界框用特定標(biāo)記表示,即,其中是二維框的中心。

 
4、GS3D
 
4.1 概觀
圖5表示了本文所提出的框架的概述。該框架將單個RGB圖像作為輸入,并且包括以下步驟:1)利用基于CNN的檢測器來獲得可靠的2D邊界框和目標(biāo)的觀察方向。該子網(wǎng)稱為2D + O(orientation)子網(wǎng)。2)將獲得的2D邊界框和方向與關(guān)于駕駛場景的先驗知識一起使用,以生成稱為guidance的基本長方體。3)guidance投影在圖像平面上。從2D邊界框和可見表面提取特征。這些特征被融合為可區(qū)分的結(jié)構(gòu)信息,用于消除特征模糊。4)融合的特征被另一個稱為3D子網(wǎng)的CNN用于重新指導(dǎo)。3D檢測被認為是分類問題,質(zhì)量感知分類損失用于學(xué)習(xí)分類器和CNN特征。
 
4.2 二維檢測和方向預(yù)測
對于2D檢測,本文通過添加新的方向預(yù)測分支以獲得更快的R-CNN框架。細節(jié)如圖3所示。
圖3. 2D + O子網(wǎng)頭部的詳細信息。所有線路連接都代表全連接層。
 
具體而言,CNN作為2D + O子網(wǎng)用于從圖像中提取特征,然后區(qū)域提議網(wǎng)絡(luò)生成候選2D邊框提議(proposals)。根據(jù)這些提議,ROI池化層用于提取RoI特征,然后將其用于分類,以及邊界框的回歸和方向估計。在2D + O子網(wǎng)中估計的方向是目標(biāo)的觀察角度,其與目標(biāo)的外觀直接相關(guān)。本文將觀察角度表示為α,以便將其與全局旋轉(zhuǎn)θ區(qū)分開。α和θ都在KITTI數(shù)據(jù)集中注釋,它們的幾何關(guān)系如圖4所示。
圖4.觀察角α和全局旋轉(zhuǎn)角θ的俯視圖。藍色箭頭表示觀察軸,紅色箭頭表示汽車的前進方向。由于它是右手坐標(biāo)系,正向旋轉(zhuǎn)方向是順時針方向。
圖5.3D目標(biāo)檢測范例概述?;贑NN的模型(2D + O子網(wǎng))用于獲得2D邊界框和目標(biāo)的觀察方向。然后通過本文提出的算法使用得到的2D框和投影矩陣來生成指導(dǎo)。從可見表面提取的特征以及投影指導(dǎo)的2D邊界框被改進模型(3D子網(wǎng))利用。改進模型不是直接回歸,而是采用具有質(zhì)量感知損失的分類公式,以獲得更準確的結(jié)果。
 
4.3 guidance生成
基于可靠的2D檢測結(jié)果,本文可以估算每個2D邊界框的3D框。具體來說,本文的目標(biāo)是獲得指導(dǎo),給定2D框,觀察角α和攝像機內(nèi)參矩陣K。
 
4.3.1獲取指導(dǎo)大小
在自動駕駛場景中,相同類別的實例的大小分布是低方差和單峰的。由于目標(biāo)是由2D子網(wǎng)預(yù)測的,因此本文只使用針對具有相同類別的指導(dǎo)的訓(xùn)練數(shù)據(jù)來計算特定類的指導(dǎo)大小。所以本文有,這是依賴于不同的類別的(為了便于表示,類別沒有出現(xiàn)在等式中)。
4.3.2估算指導(dǎo)位置
如第3節(jié)所述,指的是底面中心,表示為。因此,本文研究底部中心的特征,并提出一個精心設(shè)計的方法。
本文的估算方法基于自動駕駛場景設(shè)置中的發(fā)現(xiàn)。物體3D邊框的頂部中心在2D平面上具有穩(wěn)定的投影,非常接近2D邊框的頂部中點,并且3D底部中心具有類似于在2D邊框上方和附近的穩(wěn)定投影。這一發(fā)現(xiàn)可以通過以下事實來解釋:大多數(shù)物體的頂部位置具有非常接近2D圖像的消失線的投影,因為攝像機設(shè)置在數(shù)據(jù)采集車輛的頂部和駕駛場景中的其他物體有相似的高度。
 
使用預(yù)測的2D框,其中是框中心,本文有頂部中點和底部中點。然后得到大約有均勻形式的投影頂部中心和底部中心,其中λ來自訓(xùn)練數(shù)據(jù)的統(tǒng)計結(jié)果。利用已知的相機內(nèi)參矩陣K,本文可以獲得標(biāo)準化的3D坐標(biāo),用于指導(dǎo)底部中心,和頂部中心,如下所示:
如果深度d已知,則可通過以下方式獲得:
所以本文現(xiàn)在的目標(biāo)是獲得d。本文可以通過等式(1)計算頂部中心的歸一化3D坐標(biāo)。底部中心和頂部中心都有標(biāo)準化高度。由于已經(jīng)獲得了的引導(dǎo)高度,因此本文有。最后本文有。
4.3.3計算指導(dǎo)方向θ
從圖4可以看出,觀察角度α與全局旋轉(zhuǎn)角度θ之間的關(guān)系是:
式中,和α可通過先前的估算獲得。
4.4 表面特征提取
本文使用給定3D框的投影表面區(qū)域(guidance)來提取3D結(jié)構(gòu)特定的特征,以便更準確地確定。圖6中示出了一個例子,可見投影表面分別對應(yīng)于淺紅色,綠色和藍色所示的物體的頂部,左側(cè)和后部。
由于所有目標(biāo)物體都在地面上,因此底部表面始終不可見,本文使用頂部表面來提取特征。對于其他4個表面,它們的可見性可以通過目標(biāo)的觀察方向α來確定。在圖4所示的KITTI坐標(biāo)系中,有,觀察者的右手方向為零角度,即,順時針方向為正向旋轉(zhuǎn)。因此,當(dāng)為前表面可見,當(dāng)為后表面可見,時右側(cè)可見,否則左側(cè)可見。
圖6.通過透視變換從3D框的投影表面中提取特征的可視化。
通過透視變換將可見表面區(qū)域中的特征扭曲成規(guī)則形狀(例如,5×5特征圖)。具體而言,對于可見表面F,本文首先使用相機投影矩陣在圖像平面中獲得四邊形,然后根據(jù)網(wǎng)絡(luò)的步幅在特征圖上計算縮放的四邊形。利用4個角的坐標(biāo)和5x5圖的4個角,本文可以得到透視變換矩陣P。設(shè)X,Y分別表示透視變換前后的特征映射。具有X坐標(biāo)(i,j)的Y上的值通過以下等式計算:
通常(u,v)不是整數(shù)坐標(biāo),本文使用最接近的整數(shù)坐標(biāo)和雙線性插值來獲得值??梢姳砻娴奶崛√卣魇沁B接的,本文使用卷積層來壓縮通道的數(shù)量并將信息融合在不同的表面上。如圖7所示,本文還從2D邊框中提取特征以提供上下文信息。2D邊框特征與融合表面特征連接在一起,它們最終用于改進3D邊框。
圖7. 3D子網(wǎng)頭部的詳細信息。
4.5 改進方法
4.5.1殘差回歸
使用候選框和目標(biāo)基礎(chǔ),殘差可以寫為:
常用的方法是通過回歸模型預(yù)測殘差。
4.5.2分類方法
大范圍內(nèi)的回歸通常不會比離散分類更好,因此本文將殘差回歸轉(zhuǎn)換為3D邊框改進的分類公式。主要思想是將殘差范圍分成幾個區(qū)間,并將殘差值分類為一個區(qū)間。
將表示為第i個指導(dǎo)(guidance)與其對應(yīng)的地面實況3D設(shè)置的區(qū)別,其中。計算訓(xùn)練數(shù)據(jù)中的標(biāo)準偏差。然后本文將指定為描述符d的間隔的中心,并且每個間隔的長度為。根據(jù)的范圍選擇。由于指導(dǎo)可能來自誤報的2D框,本文將區(qū)間視為多個二元分類問題。在訓(xùn)練期間,如果指導(dǎo)的2D邊框不能與任何地面實況相匹配,則所有區(qū)間的分類概率將接近0。通過這種方式,本文可以將指導(dǎo)視為背景,如果所有類別的信息都非常低,則可以在推理期間拒絕它。
4.5.3偏移后的分類
由于將2D區(qū)域映射到3D空間是一個未確定的問題,本文進一步考慮從3D坐標(biāo)中的偏差開始。具體而言,每個類(殘差區(qū)間)使用最相關(guān)的區(qū)域(相應(yīng)的殘差移位后的引導(dǎo)投影)來為自身提取單個特征。所有剩余的間隔的分類都可以共享參數(shù)。
 
該模塊的作用指在原來的guidance的基礎(chǔ)上,對guidance的長寬高進行4.5.2節(jié)中所給方差的偏移,偏移完成后會得到一系列的3D候選框,然后對這些候選框與真值進行比較,得到分數(shù)最高的那個候選框即為最后檢測的結(jié)果。
 
4.5.4質(zhì)量意識損失
本文期望分類中預(yù)測的置信度反映相應(yīng)類別的目標(biāo)邊框的質(zhì)量,以便更準確的目標(biāo)邊框獲得更高的分數(shù)。這很重要,因為AP(平均精度)是通過對候選框的分數(shù)進行排序來計算的。但是,常用的0/1標(biāo)簽不適用于此問題,因為無論質(zhì)量如何變化,模型都被迫為所有正候選者預(yù)測1。受2D檢測損失的啟發(fā),本文將0/1標(biāo)簽更改為質(zhì)量感知形式:
其中ov是目標(biāo)框與地面實況之間的3D重疊。本文使用BCE作為損失函數(shù):

 
5、實驗
本文在KITTI目標(biāo)檢測數(shù)據(jù)集上評估本文的框架。它包括7,481個訓(xùn)練和7,518個測試圖像。本文的實驗與之前其他的相關(guān)工作一樣只針對汽車的類別。
5.1、實施細節(jié)
5.1.1網(wǎng)絡(luò)設(shè)置
本文的2D子網(wǎng)和3D子網(wǎng)都基于VGG16網(wǎng)絡(luò)架構(gòu)。2D子網(wǎng)在ImageNet數(shù)據(jù)集上進行了預(yù)訓(xùn)練。并且2D子網(wǎng)訓(xùn)練模型用于初始化訓(xùn)練中的3D子網(wǎng)參數(shù)。
5.1.2優(yōu)化
本文使用Caffe深度學(xué)習(xí)框架進行訓(xùn)練和評估。在訓(xùn)練期間,本文將圖像放大2倍,并使用4個GPU,每個GPU上同時訓(xùn)練一張圖像。本文采用SGD優(yōu)化器,在第一個30K迭代中基本學(xué)習(xí)率為0.001,并在后續(xù)的10K迭代中將其降低到0.0001。
5.2、消融研究
5.2.1二維檢測和定位
由于本文的工作重點是3D檢測,本文不遺余力地調(diào)整超參數(shù)(例如損失權(quán)重,anchor的尺寸)以獲得2D模型的最佳性能。本文按照標(biāo)準的KITTI設(shè)置評估了2D模型的平均精度(AP)和平均方向相似度(AOS)。得到結(jié)果并與表2中其他最先進的工作進行了比較。本文的結(jié)果優(yōu)于或與其他方法相當(dāng),盡管Deep3Dbox具有更高的AP。此外,雖然Deep3DBox使用更好的2D邊框來進行3D邊框估計,但本文的3D結(jié)果大大超過了他們的范圍(表1),這突出了本文的3D邊框檢測方法的強度。
5.2.2指導(dǎo)(guidance)生成
根據(jù)訓(xùn)練數(shù)據(jù)的統(tǒng)計數(shù)據(jù),本文將,,設(shè)置為指導(dǎo)大小,將設(shè)置為預(yù)測底部中心的移位。
為了更好地評估準確性,本文使用Recallloc和Recall3D度量。對于Recallloc,計算候選框中心與地面實況之間的歐幾里德距離,如果候選框的距離在閾值范圍內(nèi),則調(diào)用地面實況框。Recall3D類似于從距離到3D重疊的標(biāo)準。
如表3所示,本文還將本文的指導(dǎo)建議與Mono3D的召回建議進行了比較,因為它們在3D檢測框架中具有相似的作用。結(jié)果表明比生成Mono3D的復(fù)雜提議方法更有效。
注意,指導(dǎo)(guidance)的數(shù)量恰好等于2D檢測到的邊框的數(shù)量,其與地面實況具有相同的數(shù)量級。所以Recall3D的指導(dǎo)與AP3D類似,本文改進的3D邊框可以達到超過指導(dǎo)Recall值的AP。
5.2.3改進粗糙的3D框
表5中給出了表面特征,分類公式和質(zhì)量意識損失貢獻的消融研究。
本文首先在先前的工作中使用直接殘差回歸訓(xùn)練基線模型。并且比較基準僅使用從圖像的特征圖匯集的引導(dǎo)區(qū)域(邊界框)特征。
然后本文采用圖7中的網(wǎng)絡(luò)架構(gòu)并訓(xùn)練表面特征識別模型。利用表面特征提供3D結(jié)構(gòu)可區(qū)分的信息,回歸精度得到改善。對于分類制定的改進,分析訓(xùn)練集上每個維度的的分布,如表4所示。如第4.5.2節(jié)所述,本文將每個維度的區(qū)間長度設(shè)置為。本文選擇用于和,主要是根據(jù)超過std比率的范圍。
在確定了類的參數(shù)后,本文使用分類公式而不是直接回歸的方法進行實驗。還進行了使用shift后的特征進行分類的比較實驗。在表5中,“+ cls”和“+ scls”分別代表這兩種方法。本文可以看到兩類制定的方法都超過了回歸方法?;诠潭ㄌ卣鞯姆椒ㄔ贏P@0.5中表現(xiàn)更好,而基于移位特征的方法在AP@0.7中表現(xiàn)更好。
表1.使用AP3D的度量評估的汽車類別的KITTI的3D檢測精度。結(jié)果在兩個驗證集 / 上。 “額外”是指培訓(xùn)中使用的額外數(shù)據(jù)或標(biāo)簽。“scls”表示使用移位特征進行分類的方法。
表2.在KITTI數(shù)據(jù)集的 / 中評估的汽車類別的2D檢測和方向結(jié)果的比較。僅顯示moderate標(biāo)準下的結(jié)果,即KITTI的原始度量,以便于表的大小。
表3.與Mono3D相比,本文的結(jié)果的Recallloc和Recall3D。Recall3D的IoU閾值為0.5。這些是在集上評估的。
表4. 對訓(xùn)練數(shù)據(jù)的分布分析
最后,本文將基于0-1標(biāo)簽的損失更改為第4.5.4節(jié)中介紹的質(zhì)量感知形式。在基于分類的兩種方法中都獲得了顯著的增益。
5.3 與其他方法比較
本文將本文的工作與基于最先進RGB圖像的3D目標(biāo)檢測方法進行比較:Mono3D ,Deep3DBox ,DeepManta ,MF3D 和3DOP 。
除了單個RGB圖像之外,大多數(shù)這些方法還需要額外的數(shù)據(jù)或標(biāo)簽。3DOP是基于立體數(shù)據(jù)的方法。Mono3D需要分割數(shù)據(jù)。DeepManta需要3D CAD數(shù)據(jù)和頂點進行3D模型預(yù)測。MF3D采用MonoDepth中的模型進行視差預(yù)測,實際上是對立體數(shù)據(jù)進行訓(xùn)練。而只有Deep3DBox以及本文的工作,不需要額外的數(shù)據(jù)或標(biāo)簽。
表5.KITTI 組中汽車類別的3D檢測結(jié)果的消融研究。“Modr”在這里意味著難度適中。并且“+ surf”,“+ cls”,“+ scls”,“+qua”分別代表表面特征,類別公式,基于shift的類別表達和質(zhì)量意識損失的使用。
AP3D:本文的3D檢測評估的主要指標(biāo)是官方3D平均精度(AP3D)的KITTI:如果檢測框具有重疊(IoU)且地面實況框大于閾值IoU = 0.7,則認為檢測框為真陽性。本文還顯示了與IoU = 0.5的結(jié)果比較。正如本文在表1中所看到的,本文的方法在官方度量(IoU = 0.7)中大大超過了其他工作,而3DOP在IoU = 0.5時評估的性能更好。這表明本文的方法可以為某些良好的指導(dǎo)實現(xiàn)精確的結(jié)果,但不善于糾正大部分偏離的指導(dǎo)。推理時間也顯示在此表中,這表明了本文方法的效率。
ALP:由于DeepMANTA僅提供在平均本地化精度(ALP)度量[1]中評估的結(jié)果,因此本文還在此度量標(biāo)準中進行結(jié)果比較。如表6所示,本文的方法在當(dāng)前最先進的工作中非常出色,只是3DOP在這個指標(biāo)中優(yōu)于本文。由于ALP僅關(guān)注位置精度并且不考慮尺寸和旋轉(zhuǎn),因此其反映3D盒子的性能的能力可能不如3D重疊。
圖8.本文的3D檢測結(jié)果的定性圖示
表6.使用ALP度量評估的汽車類別的3D檢測。結(jié)果在兩個驗證集 / 中。“額外”是指培訓(xùn)中使用的額外數(shù)據(jù)或標(biāo)簽。
測試集的結(jié)果:在所有已發(fā)表的單目3D檢測工作中,只有MF3D顯示了在官方測試集上評估的結(jié)果。他們的結(jié)果與本文的結(jié)果比較如表7所示。
本文只提交一次,因此沒有超參數(shù)搜索技巧。但即便如此,本文的方法也勝過其他工作。請注意,MF3D和本文在測試集上的結(jié)果與驗證集上的結(jié)果相比有差距(表1)。這很可能是由于訓(xùn)練和測試集之間的數(shù)據(jù)分配差距造成的,因為KITTI訓(xùn)練集非常小。
5.4 定性結(jié)果
圖8顯示了本文方法的一些定性結(jié)果。本文的方法在可以處理不同的場景,它在距離相機不同距離的物體的檢測中仍然非常穩(wěn)定。當(dāng)場景擁擠時,本文的方法在大多數(shù)情況下仍然表現(xiàn)良好。最后一行中兩個圖像中的紅色框顯示了本文工作的典型故障情況。在左圖中,右下角的車廂(紅色)位置與真車有明顯的偏差。在右圖中,本文的模型將紅色虛線框誤認為是負框。本文的方法不善于處理圖像邊界上的對象(通常使用遮擋或截斷)。需要進一步努力來解決這個問題。
表7.本文在官方測試集上的3D檢測結(jié)果
6、結(jié)論
在本文中,本文提出了一種用于自動駕駛的單目3D目標(biāo)檢測框架。本文利用成熟的2D檢測技術(shù)和投影知識,有效地生成稱為guidance的基本3D邊框?;谠揼uidance,進行進一步的改進以實現(xiàn)高精度。本文利用表面特征中潛在的三維結(jié)構(gòu)信息,消除了僅使用二維邊框造成的表示模糊。本文將殘差回歸問題重新劃分為分類,這更容易受到良好的訓(xùn)練。本文使用質(zhì)量意識損失來增強模型的辨別能力。實驗表明,本文的框架達到了最高的檢測水平,并且作為僅使用單個RGB圖像的方法,沒有任何額外的數(shù)據(jù)或標(biāo)簽用于訓(xùn)練。 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25