GS3D：一種用于自動駕駛的高效3D物體檢測框架

2019-10-08 23:27:25· 來源：同濟智能汽車研究所

編者按：在自動駕駛中，對目標(biāo)進行3D檢測近年來受到了越來越多的關(guān)注。雖然可以通過激光雷達生成的點云獲取3D信息，但是從經(jīng)濟性的角度考慮，我們更希望能夠直接

編者按：在自動駕駛中，對目標(biāo)進行3D檢測近年來受到了越來越多的關(guān)注。雖然可以通過激光雷達生成的點云獲取3D信息，但是從經(jīng)濟性的角度考慮，我們更希望能夠直接從RGB相機中獲取3D信息。這篇文章提出了在自動駕駛場景中基于單目圖像并結(jié)合可見表面的視覺特征投影來進行3D目標(biāo)檢測的框架，達到了目前最先進的水平。這篇文章對相關(guān)領(lǐng)域的研究具有非常大的學(xué)習(xí)和借鑒價值。

本文摘自：CVPR2019

原文題目："GS3D: An Efficient 3D Object Detection framework for Autonomous Driving"

原作者：Buyu Li，Wanli Ouyang，Lu Sheng等

摘要：本文提出了在自動駕駛場景中基于單個RGB圖像的高效3D物體檢測框架。本文所做的貢獻是在沒有使用點云或雙目數(shù)據(jù)的條件下，從2D圖像中提取底層3D信息并確定對象的精確3D邊框。利用現(xiàn)成的2D物體檢測工具，本文提出了一種巧妙的方法，可以有效地為每個預(yù)測的2D框確定粗糙的3D邊框。然后將其作為guidance，通過改進來確定目標(biāo)精確的3D邊框。與先前僅使用從2D邊框提取的特征進行3D邊框生成的最先進方法相比，本文通過使用可見表面的視覺特征來獲取對象的3D結(jié)構(gòu)信息。表面的視覺特征用于消除僅使用2D邊界框造成的表示模糊的問題。此外，本文研究了3D邊框改進的不同方法，并發(fā)現(xiàn)具有質(zhì)量意識損失的分類方法具有比回歸更好的性能。在KITTI數(shù)據(jù)集評估中，本文的方法達到了當(dāng)前基于單個RGB圖像的3D目標(biāo)檢測的最高水平。

1、簡介

3D目標(biāo)檢測是自動駕駛領(lǐng)域的研究熱點之一。近年來，它在計算機視覺社區(qū)中引起了越來越多的關(guān)注。使用3D激光雷達，可以獲取點云形式的物體的離散3D位置數(shù)據(jù)，但設(shè)備非常昂貴。相反，對于大多數(shù)車輛而言，車載RGB相機更便宜且更靈活，但是它們只能提供2D照片。因此，使用單個RGB相機的3D目標(biāo)檢測對于經(jīng)濟的自動駕駛系統(tǒng)而言變得重要并且具有挑戰(zhàn)性。本文著重于只使用單目圖像來進行3D目標(biāo)檢測。

圖1.本文方法的關(guān)鍵思想：（a）本文首先預(yù)測可靠的2D邊界框及其橫擺角的方向。（b）基于預(yù)測的2D信息，本文利用巧妙的技術(shù)有效地確定相應(yīng)對象的基本長方體，稱為guidance。（c）本文的模型將利用guidance 投影至二維圖像上，再利用該投影中的可見表面來提取的特征以及它的緊密2D邊界框來執(zhí)行具有分類公式和質(zhì)量感知損失的精確改進。

本文提出了一種基于有效框架3Dguidance并使用表面特征進行改進的3D目標(biāo)檢測框架（GS3D）。并且，本文僅使用單目RGB圖像檢測目標(biāo)的3D信息。典型的單目圖像3D檢測方法有如下：Mono3d采用的是傳統(tǒng)的二維檢測框架，利用三維空間中的窮舉滑動窗口作為proposal，任務(wù)是選擇那些能夠很好地覆蓋物體的proposal。但是問題是3D空間比2D空間大得多，這需要更多的計算成本，但是這些計算不是必需的。

圖2.僅使用2D邊界框?qū)е碌奶卣鞅硎酒缌x的示例。3D框彼此差異很大，只有左框是正確的，但它們對應(yīng)的2D邊界框完全相同。

本文的第二個觀察到的方面，是可以通過利用3D框的可見表面來作為基礎(chǔ)的3D信息?；谠揼uidance來進行下一步的優(yōu)化，為了實現(xiàn)高精度，需要進一步分類以消除誤報以及適當(dāng)?shù)母倪M來實現(xiàn)更好的定位。但是，僅使用2D邊界框進行特征提取時缺少的信息會帶來3D框表示模糊的問題。如圖2所示，彼此大小不同的3D框具有相同的2D邊界框。因此，該模型將采用與輸入相同的特征，但是分類器預(yù)期會預(yù)測它們不同的置信度（左圖所示為高置信度，圖2中其他兩張圖片所示情況為低置信度）。僅從2D邊界框，模型幾乎不知道（指導(dǎo)的）原始參數(shù)是什么，但是卻基于這些參數(shù)來預(yù)測殘差，因此訓(xùn)練是沒有效果的。為了解決這個問題，本文探究了2D圖像中的基礎(chǔ)3D信息，并提出了一種新方法，該方法采用從3D框投影的可見表面來解析特征。如圖1（c）所示，分別提取可見表面的特征然后合并，以便利用結(jié)構(gòu)信息來區(qū)分不同形式的3D框。

對于3D框的進一步修正，本文將傳統(tǒng)的回歸形式重新修改為分類形式，并為其設(shè)計了質(zhì)量損失函數(shù)，結(jié)果顯示這樣對檢測性能有了顯著提高。

本文的主要貢獻如下：

1.基于可靠的2D檢測結(jié)果，本文提出了一種基于單張RGB圖像的3D目標(biāo)檢測方法。該方法可以有效地獲得目標(biāo)的基本長方體輪廓。基本長方體提供了對象的位置，大小和方向的可靠近似，并作為進一步改進的guidance。

2.本文利用2D圖像上投影3D框的可見表面中的潛在3D結(jié)構(gòu)信息，并通過從這些表面提取的特征來克服以前方法中的特征模糊問題。通過表面特征的融合，該模型實現(xiàn)了更好的判斷能力，提高了檢測精度。

本文設(shè)計并研究了幾種改進方法，并得出結(jié)論：基于離散分類的方法具有質(zhì)量意識損失，比直接采用回歸方法對3D框改進的效果要好得多。

本文在KITTI目標(biāo)檢測數(shù)據(jù)集上評估了本文提出的方法。實驗表明，本文的提出方法在僅使用單個RGB圖像的條件下效果超越了當(dāng)前最先進的方法，甚至可以與使用立體數(shù)據(jù)的方法相媲美。

2、相關(guān)工作

隨著對物體和場景的3D理解受到越來越多的關(guān)注。早期的方法主要使用低級特征或統(tǒng)計分析的方法來處理3D識別或恢復(fù)任務(wù)，而3D目標(biāo)檢測任務(wù)更具挑戰(zhàn)性。

3D目標(biāo)檢測方法可以通過數(shù)據(jù)分為三類，即點云，多視角圖像（視頻或立體數(shù)據(jù)）和單目圖像?；邳c云的方法，可以直接獲取三維空間中物體表面上點的坐標(biāo)，因此與沒有點云的方法相比，它們可以輕松獲得更高的精度?；诙嘁晥D的方法，可以使用從不同視角的圖像計算的視差來獲得深度圖。雖然基于點云和立體數(shù)據(jù)的方法具有更準確的3D推理信息，但是使用單目RGB相機更加便宜和便利。

與本文最相關(guān)的文獻是那些在自動駕駛場景中使用單個RGB圖像進行3D物體檢測的文獻。由于缺乏3D空間信息，因此最具挑戰(zhàn)性。最近的許多文章的重點都在單目圖像上。Mono3d通過使用3D滑動窗口解決了這個問題。它詳盡地從幾個預(yù)定義的3D區(qū)域中采集3D的proposals(候選框)。然后，它利用分段，形狀，上下文和位置的復(fù)雜特征來過濾不可能的proposals，并最終通過分類器選擇最佳的proposals。

Mono3d的復(fù)雜性帶來了嚴重的低效問題。而本文設(shè)計了一種基于純投影幾何的方法，并采用合理的假設(shè)，可以有效地生成數(shù)量少得多但精度更高的3D proposals。

3、問題描述

本文采用KITTI數(shù)據(jù)集的3D坐標(biāo)系：坐標(biāo)原點在攝像機中心， x軸指向2D圖像平面的右側(cè)， y軸指向下方，z軸指向與圖像平面正交代表深度。3D邊框表示為。這里是盒子的大?。▽挾龋叨群烷L度），是底部中心的坐標(biāo)，它遵循KITTI注釋。尺寸和中心坐標(biāo)以米為單位測量。分別圍繞y軸，x軸和z軸旋轉(zhuǎn)。由于本文的目標(biāo)物體都在地面上，本文只考慮θ旋轉(zhuǎn)，就像之前的所有工作一樣。2D邊界框用特定標(biāo)記表示，即，其中是二維框的中心。

4、GS3D

4.1 概觀

圖5表示了本文所提出的框架的概述。該框架將單個RGB圖像作為輸入，并且包括以下步驟：1）利用基于CNN的檢測器來獲得可靠的2D邊界框和目標(biāo)的觀察方向。該子網(wǎng)稱為2D + O（orientation）子網(wǎng)。2）將獲得的2D邊界框和方向與關(guān)于駕駛場景的先驗知識一起使用，以生成稱為guidance的基本長方體。3）guidance投影在圖像平面上。從2D邊界框和可見表面提取特征。這些特征被融合為可區(qū)分的結(jié)構(gòu)信息，用于消除特征模糊。4）融合的特征被另一個稱為3D子網(wǎng)的CNN用于重新指導(dǎo)。3D檢測被認為是分類問題，質(zhì)量感知分類損失用于學(xué)習(xí)分類器和CNN特征。

4.2 二維檢測和方向預(yù)測

對于2D檢測，本文通過添加新的方向預(yù)測分支以獲得更快的R-CNN框架。細節(jié)如圖3所示。

圖3. 2D + O子網(wǎng)頭部的詳細信息。所有線路連接都代表全連接層。

具體而言，CNN作為2D + O子網(wǎng)用于從圖像中提取特征，然后區(qū)域提議網(wǎng)絡(luò)生成候選2D邊框提議（proposals）。根據(jù)這些提議，ROI池化層用于提取RoI特征，然后將其用于分類，以及邊界框的回歸和方向估計。在2D + O子網(wǎng)中估計的方向是目標(biāo)的觀察角度，其與目標(biāo)的外觀直接相關(guān)。本文將觀察角度表示為α，以便將其與全局旋轉(zhuǎn)θ區(qū)分開。α和θ都在KITTI數(shù)據(jù)集中注釋，它們的幾何關(guān)系如圖4所示。

圖4.觀察角α和全局旋轉(zhuǎn)角θ的俯視圖。藍色箭頭表示觀察軸，紅色箭頭表示汽車的前進方向。由于它是右手坐標(biāo)系，正向旋轉(zhuǎn)方向是順時針方向。

圖5.3D目標(biāo)檢測范例概述?；贑NN的模型（2D + O子網(wǎng)）用于獲得2D邊界框和目標(biāo)的觀察方向。然后通過本文提出的算法使用得到的2D框和投影矩陣來生成指導(dǎo)。從可見表面提取的特征以及投影指導(dǎo)的2D邊界框被改進模型（3D子網(wǎng)）利用。改進模型不是直接回歸，而是采用具有質(zhì)量感知損失的分類公式，以獲得更準確的結(jié)果。

4.3 guidance生成

基于可靠的2D檢測結(jié)果，本文可以估算每個2D邊界框的3D框。具體來說，本文的目標(biāo)是獲得指導(dǎo)，給定2D框，觀察角α和攝像機內(nèi)參矩陣K。

4.3.1獲取指導(dǎo)大小

在自動駕駛場景中，相同類別的實例的大小分布是低方差和單峰的。由于目標(biāo)是由2D子網(wǎng)預(yù)測的，因此本文只使用針對具有相同類別的指導(dǎo)的訓(xùn)練數(shù)據(jù)來計算特定類的指導(dǎo)大小。所以本文有，這是依賴于不同的類別的（為了便于表示，類別沒有出現(xiàn)在等式中）。

4.3.2估算指導(dǎo)位置

如第3節(jié)所述，指的是底面中心，表示為。因此，本文研究底部中心的特征，并提出一個精心設(shè)計的方法。

本文的估算方法基于自動駕駛場景設(shè)置中的發(fā)現(xiàn)。物體3D邊框的頂部中心在2D平面上具有穩(wěn)定的投影，非常接近2D邊框的頂部中點，并且3D底部中心具有類似于在2D邊框上方和附近的穩(wěn)定投影。這一發(fā)現(xiàn)可以通過以下事實來解釋：大多數(shù)物體的頂部位置具有非常接近2D圖像的消失線的投影，因為攝像機設(shè)置在數(shù)據(jù)采集車輛的頂部和駕駛場景中的其他物體有相似的高度。

使用預(yù)測的2D框，其中是框中心，本文有頂部中點和底部中點。然后得到大約有均勻形式的投影頂部中心和底部中心，其中λ來自訓(xùn)練數(shù)據(jù)的統(tǒng)計結(jié)果。利用已知的相機內(nèi)參矩陣K，本文可以獲得標(biāo)準化的3D坐標(biāo)，用于指導(dǎo)底部中心，和頂部中心，如下所示：

如果深度d已知，則可通過以下方式獲得：

所以本文現(xiàn)在的目標(biāo)是獲得d。本文可以通過等式（1）計算頂部中心的歸一化3D坐標(biāo)。底部中心和頂部中心都有標(biāo)準化高度。由于已經(jīng)獲得了的引導(dǎo)高度，因此本文有。最后本文有。

4.3.3計算指導(dǎo)方向θ

從圖4可以看出，觀察角度α與全局旋轉(zhuǎn)角度θ之間的關(guān)系是：

式中，和α可通過先前的估算獲得。

4.4 表面特征提取

本文使用給定3D框的投影表面區(qū)域（guidance）來提取3D結(jié)構(gòu)特定的特征，以便更準確地確定。圖6中示出了一個例子，可見投影表面分別對應(yīng)于淺紅色，綠色和藍色所示的物體的頂部，左側(cè)和后部。

由于所有目標(biāo)物體都在地面上，因此底部表面始終不可見，本文使用頂部表面來提取特征。對于其他4個表面，它們的可見性可以通過目標(biāo)的觀察方向α來確定。在圖4所示的KITTI坐標(biāo)系中，有，觀察者的右手方向為零角度，即，順時針方向為正向旋轉(zhuǎn)。因此，當(dāng)為前表面可見，當(dāng)為后表面可見，時右側(cè)可見，否則左側(cè)可見。

圖6.通過透視變換從3D框的投影表面中提取特征的可視化。

通過透視變換將可見表面區(qū)域中的特征扭曲成規(guī)則形狀（例如，5×5特征圖）。具體而言，對于可見表面F，本文首先使用相機投影矩陣在圖像平面中獲得四邊形，然后根據(jù)網(wǎng)絡(luò)的步幅在特征圖上計算縮放的四邊形。利用4個角的坐標(biāo)和5x5圖的4個角，本文可以得到透視變換矩陣P。設(shè)X，Y分別表示透視變換前后的特征映射。具有X坐標(biāo)（i，j）的Y上的值通過以下等式計算：

通常（u，v）不是整數(shù)坐標(biāo)，本文使用最接近的整數(shù)坐標(biāo)和雙線性插值來獲得值?？梢姳砻娴奶崛√卣魇沁B接的，本文使用卷積層來壓縮通道的數(shù)量并將信息融合在不同的表面上。如圖7所示，本文還從2D邊框中提取特征以提供上下文信息。2D邊框特征與融合表面特征連接在一起，它們最終用于改進3D邊框。

圖7. 3D子網(wǎng)頭部的詳細信息。

4.5 改進方法

4.5.1殘差回歸

使用候選框和目標(biāo)基礎(chǔ)，殘差可以寫為：

常用的方法是通過回歸模型預(yù)測殘差。

4.5.2分類方法

大范圍內(nèi)的回歸通常不會比離散分類更好，因此本文將殘差回歸轉(zhuǎn)換為3D邊框改進的分類公式。主要思想是將殘差范圍分成幾個區(qū)間，并將殘差值分類為一個區(qū)間。

將表示為第i個指導(dǎo)（guidance）與其對應(yīng)的地面實況3D設(shè)置的區(qū)別，其中。計算訓(xùn)練數(shù)據(jù)中的標(biāo)準偏差。然后本文將指定為描述符d的間隔的中心，并且每個間隔的長度為。根據(jù)的范圍選擇。由于指導(dǎo)可能來自誤報的2D框，本文將區(qū)間視為多個二元分類問題。在訓(xùn)練期間，如果指導(dǎo)的2D邊框不能與任何地面實況相匹配，則所有區(qū)間的分類概率將接近0。通過這種方式，本文可以將指導(dǎo)視為背景，如果所有類別的信息都非常低，則可以在推理期間拒絕它。

4.5.3偏移后的分類

由于將2D區(qū)域映射到3D空間是一個未確定的問題，本文進一步考慮從3D坐標(biāo)中的偏差開始。具體而言，每個類（殘差區(qū)間）使用最相關(guān)的區(qū)域（相應(yīng)的殘差移位后的引導(dǎo)投影）來為自身提取單個特征。所有剩余的間隔的分類都可以共享參數(shù)。

該模塊的作用指在原來的guidance的基礎(chǔ)上，對guidance的長寬高進行4.5.2節(jié)中所給方差的偏移，偏移完成后會得到一系列的3D候選框，然后對這些候選框與真值進行比較，得到分數(shù)最高的那個候選框即為最后檢測的結(jié)果。

4.5.4質(zhì)量意識損失

本文期望分類中預(yù)測的置信度反映相應(yīng)類別的目標(biāo)邊框的質(zhì)量，以便更準確的目標(biāo)邊框獲得更高的分數(shù)。這很重要，因為AP（平均精度）是通過對候選框的分數(shù)進行排序來計算的。但是，常用的0/1標(biāo)簽不適用于此問題，因為無論質(zhì)量如何變化，模型都被迫為所有正候選者預(yù)測1。受2D檢測損失的啟發(fā)，本文將0/1標(biāo)簽更改為質(zhì)量感知形式：

其中ov是目標(biāo)框與地面實況之間的3D重疊。本文使用BCE作為損失函數(shù)：

5、實驗

本文在KITTI目標(biāo)檢測數(shù)據(jù)集上評估本文的框架。它包括7,481個訓(xùn)練和7,518個測試圖像。本文的實驗與之前其他的相關(guān)工作一樣只針對汽車的類別。

5.1、實施細節(jié)

5.1.1網(wǎng)絡(luò)設(shè)置

本文的2D子網(wǎng)和3D子網(wǎng)都基于VGG16網(wǎng)絡(luò)架構(gòu)。2D子網(wǎng)在ImageNet數(shù)據(jù)集上進行了預(yù)訓(xùn)練。并且2D子網(wǎng)訓(xùn)練模型用于初始化訓(xùn)練中的3D子網(wǎng)參數(shù)。

5.1.2優(yōu)化

本文使用Caffe深度學(xué)習(xí)框架進行訓(xùn)練和評估。在訓(xùn)練期間，本文將圖像放大2倍，并使用4個GPU，每個GPU上同時訓(xùn)練一張圖像。本文采用SGD優(yōu)化器，在第一個30K迭代中基本學(xué)習(xí)率為0.001，并在后續(xù)的10K迭代中將其降低到0.0001。

5.2、消融研究

5.2.1二維檢測和定位

由于本文的工作重點是3D檢測，本文不遺余力地調(diào)整超參數(shù)（例如損失權(quán)重，anchor的尺寸）以獲得2D模型的最佳性能。本文按照標(biāo)準的KITTI設(shè)置評估了2D模型的平均精度（AP）和平均方向相似度（AOS）。得到結(jié)果并與表2中其他最先進的工作進行了比較。本文的結(jié)果優(yōu)于或與其他方法相當(dāng)，盡管Deep3Dbox具有更高的AP。此外，雖然Deep3DBox使用更好的2D邊框來進行3D邊框估計，但本文的3D結(jié)果大大超過了他們的范圍（表1），這突出了本文的3D邊框檢測方法的強度。

5.2.2指導(dǎo)（guidance）生成

根據(jù)訓(xùn)練數(shù)據(jù)的統(tǒng)計數(shù)據(jù)，本文將，，設(shè)置為指導(dǎo)大小，將設(shè)置為預(yù)測底部中心的移位。

為了更好地評估準確性，本文使用Recallloc和Recall3D度量。對于Recallloc，計算候選框中心與地面實況之間的歐幾里德距離，如果候選框的距離在閾值范圍內(nèi)，則調(diào)用地面實況框。Recall3D類似于從距離到3D重疊的標(biāo)準。

如表3所示，本文還將本文的指導(dǎo)建議與Mono3D的召回建議進行了比較，因為它們在3D檢測框架中具有相似的作用。結(jié)果表明比生成Mono3D的復(fù)雜提議方法更有效。

注意，指導(dǎo)（guidance）的數(shù)量恰好等于2D檢測到的邊框的數(shù)量，其與地面實況具有相同的數(shù)量級。所以Recall3D的指導(dǎo)與AP3D類似，本文改進的3D邊框可以達到超過指導(dǎo)Recall值的AP。

5.2.3改進粗糙的3D框

表5中給出了表面特征，分類公式和質(zhì)量意識損失貢獻的消融研究。

本文首先在先前的工作中使用直接殘差回歸訓(xùn)練基線模型。并且比較基準僅使用從圖像的特征圖匯集的引導(dǎo)區(qū)域（邊界框）特征。

然后本文采用圖7中的網(wǎng)絡(luò)架構(gòu)并訓(xùn)練表面特征識別模型。利用表面特征提供3D結(jié)構(gòu)可區(qū)分的信息，回歸精度得到改善。對于分類制定的改進，分析訓(xùn)練集上每個維度的的分布，如表4所示。如第4.5.2節(jié)所述，本文將每個維度的區(qū)間長度設(shè)置為。本文選擇用于和，主要是根據(jù)超過std比率的范圍。

在確定了類的參數(shù)后，本文使用分類公式而不是直接回歸的方法進行實驗。還進行了使用shift后的特征進行分類的比較實驗。在表5中，“+ cls”和“+ scls”分別代表這兩種方法。本文可以看到兩類制定的方法都超過了回歸方法?；诠潭ㄌ卣鞯姆椒ㄔ贏P@0.5中表現(xiàn)更好，而基于移位特征的方法在AP@0.7中表現(xiàn)更好。

表1.使用AP3D的度量評估的汽車類別的KITTI的3D檢測精度。結(jié)果在兩個驗證集 / 上。 “額外”是指培訓(xùn)中使用的額外數(shù)據(jù)或標(biāo)簽。“scls”表示使用移位特征進行分類的方法。

表2.在KITTI數(shù)據(jù)集的 / 中評估的汽車類別的2D檢測和方向結(jié)果的比較。僅顯示moderate標(biāo)準下的結(jié)果，即KITTI的原始度量，以便于表的大小。

表3.與Mono3D相比，本文的結(jié)果的Recallloc和Recall3D。Recall3D的IoU閾值為0.5。這些是在集上評估的。

表4. 對訓(xùn)練數(shù)據(jù)的分布分析

最后，本文將基于0-1標(biāo)簽的損失更改為第4.5.4節(jié)中介紹的質(zhì)量感知形式。在基于分類的兩種方法中都獲得了顯著的增益。

5.3 與其他方法比較

本文將本文的工作與基于最先進RGB圖像的3D目標(biāo)檢測方法進行比較：Mono3D ，Deep3DBox ，DeepManta ，MF3D 和3DOP 。

除了單個RGB圖像之外，大多數(shù)這些方法還需要額外的數(shù)據(jù)或標(biāo)簽。3DOP是基于立體數(shù)據(jù)的方法。Mono3D需要分割數(shù)據(jù)。DeepManta需要3D CAD數(shù)據(jù)和頂點進行3D模型預(yù)測。MF3D采用MonoDepth中的模型進行視差預(yù)測，實際上是對立體數(shù)據(jù)進行訓(xùn)練。而只有Deep3DBox以及本文的工作，不需要額外的數(shù)據(jù)或標(biāo)簽。

表5.KITTI 組中汽車類別的3D檢測結(jié)果的消融研究。“Modr”在這里意味著難度適中。并且“+ surf”，“+ cls”，“+ scls”，“+qua”分別代表表面特征，類別公式，基于shift的類別表達和質(zhì)量意識損失的使用。

AP3D：本文的3D檢測評估的主要指標(biāo)是官方3D平均精度（AP3D）的KITTI：如果檢測框具有重疊（IoU）且地面實況框大于閾值IoU = 0.7，則認為檢測框為真陽性。本文還顯示了與IoU = 0.5的結(jié)果比較。正如本文在表1中所看到的，本文的方法在官方度量（IoU = 0.7）中大大超過了其他工作，而3DOP在IoU = 0.5時評估的性能更好。這表明本文的方法可以為某些良好的指導(dǎo)實現(xiàn)精確的結(jié)果，但不善于糾正大部分偏離的指導(dǎo)。推理時間也顯示在此表中，這表明了本文方法的效率。

ALP：由于DeepMANTA僅提供在平均本地化精度（ALP）度量[1]中評估的結(jié)果，因此本文還在此度量標(biāo)準中進行結(jié)果比較。如表6所示，本文的方法在當(dāng)前最先進的工作中非常出色，只是3DOP在這個指標(biāo)中優(yōu)于本文。由于ALP僅關(guān)注位置精度并且不考慮尺寸和旋轉(zhuǎn)，因此其反映3D盒子的性能的能力可能不如3D重疊。

圖8.本文的3D檢測結(jié)果的定性圖示

表6.使用ALP度量評估的汽車類別的3D檢測。結(jié)果在兩個驗證集 / 中。“額外”是指培訓(xùn)中使用的額外數(shù)據(jù)或標(biāo)簽。

測試集的結(jié)果：在所有已發(fā)表的單目3D檢測工作中，只有MF3D顯示了在官方測試集上評估的結(jié)果。他們的結(jié)果與本文的結(jié)果比較如表7所示。

本文只提交一次，因此沒有超參數(shù)搜索技巧。但即便如此，本文的方法也勝過其他工作。請注意，MF3D和本文在測試集上的結(jié)果與驗證集上的結(jié)果相比有差距（表1）。這很可能是由于訓(xùn)練和測試集之間的數(shù)據(jù)分配差距造成的，因為KITTI訓(xùn)練集非常小。

5.4 定性結(jié)果

圖8顯示了本文方法的一些定性結(jié)果。本文的方法在可以處理不同的場景，它在距離相機不同距離的物體的檢測中仍然非常穩(wěn)定。當(dāng)場景擁擠時，本文的方法在大多數(shù)情況下仍然表現(xiàn)良好。最后一行中兩個圖像中的紅色框顯示了本文工作的典型故障情況。在左圖中，右下角的車廂（紅色）位置與真車有明顯的偏差。在右圖中，本文的模型將紅色虛線框誤認為是負框。本文的方法不善于處理圖像邊界上的對象（通常使用遮擋或截斷）。需要進一步努力來解決這個問題。

表7.本文在官方測試集上的3D檢測結(jié)果

6、結(jié)論

在本文中，本文提出了一種用于自動駕駛的單目3D目標(biāo)檢測框架。本文利用成熟的2D檢測技術(shù)和投影知識，有效地生成稱為guidance的基本3D邊框?；谠揼uidance，進行進一步的改進以實現(xiàn)高精度。本文利用表面特征中潛在的三維結(jié)構(gòu)信息，消除了僅使用二維邊框造成的表示模糊。本文將殘差回歸問題重新劃分為分類，這更容易受到良好的訓(xùn)練。本文使用質(zhì)量意識損失來增強模型的辨別能力。實驗表明，本文的框架達到了最高的檢測水平，并且作為僅使用單個RGB圖像的方法，沒有任何額外的數(shù)據(jù)或標(biāo)簽用于訓(xùn)練。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：UL 4600草案使自動駕駛的安全性問題有了希望
上一篇：大眾集團全球采購洪浩博士考察越博動力

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標(biāo)準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

GS3D：一種用于自動駕駛的高效3D物體檢測框架

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工