基于重建和不確定性傳播的單目視覺3D物體檢測

2021-11-09 15:37:18· 來源：同濟智能汽車研究所

編者按：3D物體檢測（目標(biāo)檢測）是智能汽車感知系統(tǒng)的重要任務(wù)。在眾多應(yīng)用于智能汽車的傳感器中，相機這一視覺傳感器具有分辨率高、成本較低、部署方便等優(yōu)點。

編者按：3D物體檢測（目標(biāo)檢測）是智能汽車感知系統(tǒng)的重要任務(wù)。在眾多應(yīng)用于智能汽車的傳感器中，相機這一視覺傳感器具有分辨率高、成本較低、部署方便等優(yōu)點?；谙鄼CRGB圖像的低成本3D物體檢測是當(dāng)下學(xué)界和工業(yè)界的研究熱點。其中，相比多目視覺3D物體檢測，單目視覺3D物體檢測是更為基礎(chǔ)的問題，其難點在于估計物體的距離。本文將6DoF位姿估計領(lǐng)域常用的稠密關(guān)聯(lián)方法應(yīng)用到了交通場景的單目3D物體檢測，并引入了不確定性傳播，可以描述物體位置的不確定性。針對深度回歸問題中偶然不確定性的估計，本文提出了魯棒KL損失，顯著提升了檢測精度，對于一般的不確定性估計網(wǎng)絡(luò)有借鑒價值。

本文譯自：《MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation》

文章來源：IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

作者：Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong

原文鏈接：https://arxiv.org/abs/2103.12605

摘要：單目視覺3D物體檢測的主要難點在于物體在3D空間中的定位。近年關(guān)于6DoF位姿估計的研究表明，預(yù)測圖像與物體3D模型之間的2D-3D稠密關(guān)聯(lián)（Dense Correspondence）并使用PnP算法求解物體位姿，可以取得很高的定位精度。然而，在這些研究中，模型的訓(xùn)練均依賴物體的3D模型真值，這一條件在真實的室外場景中難以滿足。為解決這一問題，本文提出了MonoRUn檢測算法，以自監(jiān)督的形式學(xué)習(xí)稠密關(guān)聯(lián)和物體幾何，這一過程中僅需用到物體的3D框標(biāo)注。本文使用基于不確定性的區(qū)域重建網(wǎng)絡(luò)回歸與2D像素相關(guān)聯(lián)的3D坐標(biāo)。自監(jiān)督訓(xùn)練是指將3D坐標(biāo)重投影以重構(gòu)圖像的2D坐標(biāo)。為優(yōu)化重投影誤差并考慮其不確定性，本文提出了魯棒KL損失。在測試階段，網(wǎng)絡(luò)預(yù)測的不確定性將傳播至所有下游模塊。具體而言，模型使用不確定性PnP算法估計物體的位姿及其協(xié)方差。在KITTI數(shù)據(jù)集上的實驗表明，本文所提出方法的檢測精度超過了目前的前沿方法。

關(guān)鍵詞：3D目標(biāo)檢測，自監(jiān)督學(xué)習(xí)，不確定性PnP算法

1 引言

單目視覺3D物體檢測是計算機視覺的重要研究領(lǐng)域之一。盡管深度學(xué)習(xí)在2D物體檢測上取得了突破[3, 30]，3D物體檢測仍面臨諸多挑戰(zhàn)，其最大的困難就是單張圖像無法提供顯式的深度信息。為解決這一問題，大量現(xiàn)有研究利用物體的幾何先驗信息，通過2D-3D約束求解物體的位姿（即物體在相機坐標(biāo)系中的位置和角度）。這些約束需要額外的關(guān)鍵點標(biāo)注[4, 13]，或利用物體真值框的角點、中心點、邊界作為約束[21, 27]。檢測的精度取決于約束的數(shù)量和質(zhì)量。因此，當(dāng)物體被部分遮擋或截斷（位于圖像邊界以外）時，檢測精度會下降。6DoF位姿估計[15]的相關(guān)研究表明，使用2D-3D稠密關(guān)聯(lián)——將物體的每一個像素點映射到物體局部坐標(biāo)系中的3D點，可以使定位更加魯棒。

目前的前沿稠密關(guān)聯(lián)方法[22, 28, 40]需要的標(biāo)注信息包括物體的真實位姿和3D模型，借此可以在圖像中渲染并得到目標(biāo)3D坐標(biāo)圖及其掩膜，作為網(wǎng)絡(luò)訓(xùn)練的監(jiān)督信號。這一要求使得訓(xùn)練數(shù)據(jù)的來源受限，只能使用合成數(shù)據(jù)或可控的實驗室數(shù)據(jù)，因其可以獲取精確的物體3D模型。然而，真實場景中的3D物體檢測需要面對類別級物體，獲取某類物體所有實例的3D模型并不實際。一種直觀的解決方法是使用激光雷達的點云生成稀疏的局部坐標(biāo)圖作為監(jiān)督信號，但遠(yuǎn)距離或高反光物體沒有足夠的點能用于監(jiān)督。

在缺少真值時，自監(jiān)督是訓(xùn)練模型的重要方法。例如，Wang等人[35]在有物體幾何真值而缺少物體位姿真值時，使用了自監(jiān)督網(wǎng)絡(luò)來直接學(xué)習(xí)物體的位姿。本文則采用了相反的思路：在訓(xùn)練時利用位姿真值自監(jiān)督地學(xué)習(xí)3D幾何，在測試時用網(wǎng)絡(luò)學(xué)到的2D-3D稠密關(guān)聯(lián)求解物體位姿。

本文提出了MonoRUn方法——基于重建和不確定性傳播的單目視覺3D物體檢測（Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation）。MonoRUn可在現(xiàn)有的2D檢測器上增加區(qū)域（RoI）3D分支，用于回歸2D檢測框內(nèi)的稠密3D坐標(biāo)，這一過程便實現(xiàn)了幾何重建和2D-3D稠密關(guān)聯(lián)。

為減少冗余，避免對有監(jiān)督前景分割的依賴，本文估計了坐標(biāo)預(yù)測結(jié)果的不確定性并使用不確定性PnP算法，使其關(guān)注不確定性較低的前景點。此外，將不確定性通過PnP進行傳播還可以獲得位姿的協(xié)方差矩陣，并用于評價檢測置信度。

自監(jiān)督是指將預(yù)測的3D坐標(biāo)重投影為圖像坐標(biāo)，這一過程需要用到物體的真實位姿和相機內(nèi)參。為優(yōu)化重投影誤差并估計其不確定性，本文提出了魯棒KL損失，用于最小化預(yù)測坐標(biāo)的高斯分布和真值坐標(biāo)的狄拉克分布之間的KL散度。這一損失函數(shù)是本文檢測性能提升的關(guān)鍵。

總之，本文的主要貢獻如下：

本文提出了一種基于不確定性的新3D物體檢測網(wǎng)絡(luò)，該網(wǎng)絡(luò)的訓(xùn)練過程可以無需額外標(biāo)注（例如關(guān)鍵點、3D模型、分割掩膜）。本文首次將稠密關(guān)聯(lián)方法用于真實交通場景的3D物體檢測。
本文提出的魯棒KL損失適用于一般的基于深度學(xué)習(xí)的不確定性估計問題，并通過實驗驗證了其相對于普通KL損失的優(yōu)勢。
在KITTI數(shù)據(jù)集上的實驗表明，本文的檢測精度相對于現(xiàn)有的前沿方法具有顯著的提升。

圖1 檢測算法的總體思路

2 相關(guān)研究

A. 單目3D物體檢測　　

根據(jù)深度信息的來源，現(xiàn)有的主流方法可以被粗略分為兩類。

1)借助現(xiàn)有的單目深度估計方法。Pseudo-LiDAR方法[39]將深度圖轉(zhuǎn)換為3D偽點云表征，將其輸入至激光點云3D物體檢測方法。D4LCN[8]使用深度圖作為導(dǎo)向生成動態(tài)濾波器，用于高效提取圖像中的3D信息。這些方法的優(yōu)勢來源于預(yù)訓(xùn)練的深度估計網(wǎng)絡(luò)，例如DORN[9]，但單目深度估計網(wǎng)絡(luò)可能存在泛化問題。

2)使用2D-3D幾何約束。Deep MANTA方法[4]用含有36個關(guān)鍵點的車輛模板標(biāo)注了訓(xùn)練數(shù)據(jù)，然后訓(xùn)練網(wǎng)絡(luò)找到最佳匹配的模板，同時回歸2D關(guān)鍵點的坐標(biāo)，最后使用EPnP算法[20]計算車輛位姿。RTM3D方法[21]使用類似CenterNet[41]的網(wǎng)絡(luò)檢測虛擬關(guān)鍵點（3D框的角點和中心點）。此外，Mousavian等人[27]還提出了3D框內(nèi)接2D框的約束。上述方法在遮擋和截斷情況下約束不充分。

B. 稠密關(guān)聯(lián)和3D重建　　

現(xiàn)有研究大多使用幾何真值來訓(xùn)練稠密關(guān)聯(lián)網(wǎng)絡(luò)，也有部分研究嘗試了在沒有幾何真值的情況下使用可導(dǎo)PnP算法訓(xùn)練端到端網(wǎng)絡(luò)。

1)有幾何監(jiān)督。Pix2Pose方法[28]直接回歸物體像素點的歸一化物體坐標(biāo)（Normalized Object Coordinate，NOC）。DPOD方法[40]預(yù)測兩通道UV坐標(biāo)將物體表面映射至3D坐標(biāo)。關(guān)于類別級物體，Wang等人[36]展示了具有尺度不變性的NOC可以處理同類別中未出現(xiàn)過的實例。這些方法只在合成或簡單室內(nèi)數(shù)據(jù)上進行了測試。

2)無幾何監(jiān)督。Brachmann和Rother[1]提出了一種近似的PnP反向傳播算法端到端地訓(xùn)練網(wǎng)絡(luò)以解決SfM問題。Chen等人[5]提出了具有解析求導(dǎo)形式的BPnP方法。這些方法在訓(xùn)練時都使用重投影損失作為正則化，也就自監(jiān)督，而沒有充分研究僅依賴自監(jiān)督本身的訓(xùn)練。

C. 不確定性估計　

深度學(xué)習(xí)中的不確定性可以分為偶然不確定性和認(rèn)知不確定性[18]。前者與觀測噪聲有關(guān)，后者反映模型參數(shù)的不確定性。Kendall和Gal[18]將異方差回歸引入深度學(xué)習(xí)，通過KL損失[14, 18]訓(xùn)練網(wǎng)絡(luò)直接輸出與數(shù)據(jù)相關(guān)的偶然不確定性。然而，普通KL損失對離群值敏感，且不易與其他損失函數(shù)平衡，存在改進空間。

3 本文所提出的方法

圖2 MonoRUn網(wǎng)絡(luò)架構(gòu)

3.1. 問題描述與方法概述

給定一張RGB圖像，3D物體檢測需要對其中所有受關(guān)注的物體進行定位和分類，以獲得每個物體的3D包圍框和類別標(biāo)簽。3D框的參數(shù)包括尺寸

和位姿

。其中

是物體橫擺角，

是3D框底面中心點在相機坐標(biāo)系下的角度。

基于現(xiàn)有的2D檢測器，本文需要提取2D檢測框中的RoI特征，用于預(yù)測3D坐標(biāo)圖。對于自監(jiān)督訓(xùn)練，需要用物體真實位姿

和相機模型將3D坐標(biāo)重投影為2D坐標(biāo)

，其目標(biāo)是恢復(fù)圖像本身的2D坐標(biāo)

。如果直接最小化重投影誤差而不考慮物體前景和背景，網(wǎng)絡(luò)會受無關(guān)背景處的較大誤差干擾。因此，本文設(shè)計了不確定性重建模塊，對重投影坐標(biāo)

的不確定性進行估計，并使用魯棒KL損失優(yōu)化由不確定性加權(quán)的重投影誤差。在測試階段，本文采用不確定性PnP模塊將上述不確定性傳播至物體位姿，并用多元高斯分布表示位姿。這一分布被進一步用于評判檢測的置信度。

3.2. 自監(jiān)督重建網(wǎng)絡(luò)

為處理不同尺寸的類別級物體，采用兩個網(wǎng)絡(luò)分支分別預(yù)測3D尺寸和具有尺度不變性的歸一化物體坐標(biāo)（NOC）[36]。最終的物體坐標(biāo)向量

則是NOC向量

和尺寸向量

的元素乘積：

第一個分支稱為全局提取器，負(fù)責(zé)對物體的全局認(rèn)知并預(yù)測物體的3D尺寸。第二個分支稱為NOC解碼器，使用卷積層預(yù)測稠密NOC圖。由于卷積層的全局感知能力有限，令全局提取器額外輸出一個全局隱向量以增強NOC解碼器。隱向量可能編碼了物體的遮擋、截斷、形狀等信息，后文的實驗表明其有利于偶然不確定性的估計。網(wǎng)絡(luò)細(xì)節(jié)如下。

圖3 全局提取器和MLP評分分支

全局提取器　　如圖2所示，7×7的RoI特征是由特征金字塔中更高一級的特征提取而來。這一特征被展平后輸入到全局提取分支，輸出16通道的全局隱向量并預(yù)測3D尺寸。尺寸可由標(biāo)注的3D框尺寸直接監(jiān)督。如圖3所示，這一網(wǎng)絡(luò)由兩層1024通道的全連接層構(gòu)成。

圖4 NOC解碼器網(wǎng)絡(luò)，其中上采樣部分采用CARAFE層[37]

NOC解碼器　　這一網(wǎng)絡(luò)需要聚合全局隱向量和局部卷積特征，用于預(yù)測NOC。具體的實現(xiàn)方法借鑒了Squeeze-Excitation網(wǎng)絡(luò)中的Excitation操作。如圖4所示，首先將隱向量的通道數(shù)擴展為256，然后在上采樣層前將其和卷積特征之間按通道求和。除了預(yù)測三通道的NOC圖，NOC解碼器還需要估計兩通道的偶然不確定性，具體在下面一段描述。

基于偶然不確定性的自監(jiān)督訓(xùn)練　　給定物體真實位姿，可將預(yù)測的物體坐標(biāo)重投影到圖像中。像素點

的重投影誤差為：

其中

為相機投影函數(shù)，

為物體旋轉(zhuǎn)矩陣，

為物體位移向量。為使得網(wǎng)絡(luò)能在沒有實例分割的情況下專注于前景誤差，本文引入了偶然不確定性。具體而言，本文使用一元高斯分布表示重投影的2D坐標(biāo)，令網(wǎng)絡(luò)預(yù)測其均值和標(biāo)準(zhǔn)差，并由魯棒KL損失進行訓(xùn)練。從嚴(yán)格意義上說，可以按照圖2中的不確定性傳播路徑，先估計中間變量的不確定性再將其傳播。從實用角度出發(fā)，可以選擇更靈活的捷徑，直接令NOC解碼器估計重投影2D坐標(biāo)的標(biāo)準(zhǔn)差，如圖4所示。

附加認(rèn)知不確定性　　認(rèn)知不確定性對于自動駕駛這種強調(diào)安全的應(yīng)用場景十分重要。參考[18]中的方法，本文在測試中使用蒙特卡洛dropout計算

的均值和方差，在RoI Align后插入通道dropout層，在每個全連接層后插入1D dropout層。由于PnP算法處理2D投影方差效率更高，本文先將物體坐標(biāo)的3D方差近似轉(zhuǎn)換為2D重投影坐標(biāo)的方差，并將其與偶然不確定性合并。

3.3. 魯棒KL損失

根據(jù)定義，KL損失是由預(yù)測分布和目標(biāo)分布的KL散度推導(dǎo)而來。假定分布均為高斯，則KL散度為：

對于固定的目標(biāo)分布，

是定值，在最小化過程中可以省略。假設(shè)目標(biāo)分布狹窄（類似狄拉克分布），

遠(yuǎn)大于

。記

，可以得到簡化的目標(biāo)函數(shù)：

本文將式（4）稱為高斯KL損失。后文將省略下標(biāo)

。為估計回歸問題中的異方差，Kendall和Gal[18]提出用深度網(wǎng)絡(luò)直接預(yù)測依賴數(shù)據(jù)的均值

和對數(shù)方差

，并用式（4）進行優(yōu)化。顯然，式（4）的第一項是加權(quán)的L2損失，使不確定性較大的誤差項懲罰更小。

高斯KL損失雖然是由概率理論推導(dǎo)而來，在應(yīng)用于深度回歸模型中仍面臨兩個問題：

作為L2損失的推廣，高斯KL損失對離群值的魯棒性差；
訓(xùn)練過程中，隨著分母

減小，損失關(guān)于

的梯度會越來越大，而常規(guī)的L2或L1損失的梯度一般是減小或不變的，這導(dǎo)致不同的損失函數(shù)之間難以平衡。

針對第一個問題，[7, 18]由拉普拉斯分布推導(dǎo)了另一種KL損失：

類似于L1損失，該函數(shù)在

時不可導(dǎo)。為解決這一問題，本文設(shè)計了一種混合KL損失，并將其記作加權(quán)誤差

和標(biāo)準(zhǔn)差

的函數(shù)：

可以驗證該函數(shù)對

和

均可導(dǎo)。混合KL損失即為Huber損失（smooth L1）的推廣，具有對離群值魯棒且易于優(yōu)化的特點。

對于第二個問題，隨著訓(xùn)練時間增加，

逐漸減小，使得權(quán)重系數(shù)

不斷增大。這一問題可以通過權(quán)重歸一化解決。受Batch Normalization[17]啟發(fā)，本文通過指數(shù)移動平均在線估計平均權(quán)重：

其中

是動量項，

是batch中的樣本數(shù)量。最終的魯棒KL損失即為權(quán)重歸一化后的混合KL損失：

實際操作中，直接優(yōu)化

會導(dǎo)致梯度爆炸，需要令網(wǎng)絡(luò)輸出其對數(shù)值

。

3.4. 不確定性PnP

極大似然估計　　求解PnP問題即為求解位姿

的極大似然估計（MLE），其負(fù)對數(shù)似然（NLL）函數(shù)為重投影誤差

的馬氏距離平方和：

其中

，

表示預(yù)測的重投影坐標(biāo)標(biāo)準(zhǔn)差。這一優(yōu)化問題可由Levenberg-Marquardt算法高效求解。

協(xié)方差估計　　位姿

的協(xié)方差矩陣近似為NLL在

點的Hessian矩陣之逆[29]：

為避免在測試時求二階導(dǎo)數(shù)，本文用高斯-牛頓矩陣

作為Hessian矩陣的近似，其定義為

，其中

（加權(quán)重投影誤差展平后的向量）。

在線協(xié)方差校正　　實際應(yīng)用中，式（10）估計的協(xié)方差矩陣數(shù)值偏小，其主要原因是式（9）假定了重投影誤差是相互獨立的，而實際網(wǎng)絡(luò)輸出的結(jié)果是具有相關(guān)性的。因此，本文引入了一個4×1的可學(xué)習(xí)校正向量

，用于協(xié)方差的在線校正：

校正向量可以通過施加多元高斯KL損失進行優(yōu)化：

其中

不參與優(yōu)化，只有

被優(yōu)化。盡管本文3.3節(jié)指出了普通高斯KL損失的不足，這一損失函數(shù)足以用于處理這一簡單優(yōu)化任務(wù)。

3.5. 評分分支

如圖3所示，本文采用多層感知機（MLP），將帶有不確定性的位姿估計結(jié)果與全局提取器的特征融合，輸出檢測的置信度。對于評分分支的訓(xùn)練，使用與[31, 32]中相同的二分類交叉熵?fù)p失函數(shù)：

其中

是MLP輸出的3D定位置信度，目標(biāo)置信度

是預(yù)測與真值之間3D IoU的函數(shù)：

最終的檢測置信度是2D檢測置信度與

的乘積。

3.6. 網(wǎng)絡(luò)訓(xùn)練

本文在實驗中設(shè)置了三種訓(xùn)練方法。

自監(jiān)督重建（無附加監(jiān)督）　　該模式中，訓(xùn)練沒有用到激光點云和可導(dǎo)PnP，除了尺寸有直接監(jiān)督以外，3D重建完全由自監(jiān)督的方式進行訓(xùn)練?？倱p失函數(shù)為：

其中

是2D檢測損失，

是關(guān)于重投影誤差的魯棒KL損失，

是關(guān)于尺寸誤差的smooth L1損失，

是協(xié)方差校正損失的權(quán)重，設(shè)為0.01。

加激光監(jiān)督　　前景激光點云可以轉(zhuǎn)化為NOC的稀疏真值，用以施加直接NOC損失。因為只有前景點，無需采用偶然不確定性。因此，本文采用加權(quán)的smooth L1損失：

其中

表示NOC張量的第i個元素，

在有真值處為1，其余為0?？倱p失函數(shù)為：

除非有特殊說明，本文默認(rèn)采用該方法訓(xùn)練網(wǎng)絡(luò)。

端到端訓(xùn)練　　引入[5]中的PnP反向傳播方法，可以對位姿估計誤差施加smooth L1損失。由于端到端訓(xùn)練PnP在初始階段不穩(wěn)定，本文采用與[1]中類似的訓(xùn)練策略，即先自監(jiān)督訓(xùn)練、再用端到端進行微調(diào)。該方法只在實驗中作為對照。

4 實驗

4.1. 數(shù)據(jù)集

本文在KITTI-Object數(shù)據(jù)集上評價模型的性能。KITTI數(shù)據(jù)集中共有7481張訓(xùn)練圖像，7518張測試圖像，以及相應(yīng)的點云，總共有8個物體類別、80256個標(biāo)注的物體實例。每個物體根據(jù)其遮擋、截斷和2D框高度分為了簡單、中等、困難三個級別。訓(xùn)練集又被進一步分為3712張訓(xùn)練圖像和3769張驗證圖像[6]。官方排行榜需要對Car，Pedestrian，Cyclist三類物體進行評價。評價指標(biāo)是基于特定IoU閾值（0.7或0.5）的準(zhǔn)確率-召回率曲線計算的的。本文采用官方評價方法，計算40點插值平均精度（AP）[33]。

4.2. 實現(xiàn)細(xì)節(jié)

2D檢測器　　使用預(yù)訓(xùn)練的Faster R-CNN[30]作為2D檢測器，其骨干網(wǎng)絡(luò)使用ResNet-101[12]。本文采用6層FPN[23]，比常規(guī)FPN多一層上采樣層。

重建模塊　　對于dropout比率，設(shè)置1D dropout層為0.5，通道dropout層為0.2。網(wǎng)絡(luò)輸出（尺寸，NOC）使用訓(xùn)練數(shù)據(jù)的均值和方差進行了歸一化。當(dāng)訓(xùn)練多類物體時，對每個類別預(yù)測一組特定的隱向量、尺寸、NOC。

數(shù)據(jù)增強　　在訓(xùn)練過程中，采用隨機翻轉(zhuǎn)和調(diào)色增強。對于NOC解碼器，設(shè)置兩個輸出分支，分別對應(yīng)原始和翻轉(zhuǎn)物體。

訓(xùn)練策略　　網(wǎng)絡(luò)使用AdamW[24]優(yōu)化器，權(quán)重衰減設(shè)為0.01。本文使用兩張Nvidia RTX 2080 Ti GPU，總batch size為6張圖像。初始學(xué)習(xí)率設(shè)為0.0002，使用余弦衰減。在完整訓(xùn)練集上訓(xùn)練32個周期，在訓(xùn)練子集上訓(xùn)練50個周期。對于端到端訓(xùn)練，附加一個15周期的第二輪訓(xùn)練，初始學(xué)習(xí)率降為0.00003。

測試方法　　對于認(rèn)知不確定性，蒙特卡洛dropout采用數(shù)設(shè)為50[18]，默認(rèn)只對全局提取器進行采樣。在后處理階段，使用3D NMS，IoU閾值設(shè)為0.01。

4.3. 與現(xiàn)有前沿方法的比較

表1 KITTI測試集合驗證集上類別Car的3D檢測性能。*表示使用了預(yù)訓(xùn)練深度估計網(wǎng)絡(luò)DORN[9]。Wang等人[38]指出DORN的訓(xùn)練數(shù)據(jù)與KITTI-Object的驗證數(shù)據(jù)有重疊，因此造成3D檢測性能過擬合，表中灰色數(shù)字表示受過擬合影響的結(jié)果。

表1列出了本文方法和其它前沿方法在KITTI的驗證集（Val）和官方測試集（Test）上的檢測結(jié)果?？梢缘玫揭韵陆Y(jié)論：（1）當(dāng)使用激光點云監(jiān)督時，本文方法在測試集上的精度顯著高于現(xiàn)有前沿方法。其余標(biāo)有*的前三名也用到了額外的深度監(jiān)督。（2）當(dāng)不使用額外監(jiān)督時，本文提出的方法仍超過了其它不使用深度估計的方法。（3）本文方法的單幀測試時間為0.07 s（包括蒙特卡洛和PnP），速度尚可，而其余前三名的單幀時間超過0.2 s（不包括DORN[9]的0.5 s深度估計時間）。

表2 KITTI測試集上Pedestrian和Cyclist的3D檢測性能

表2列出了本文方法和其它前沿方法在Pedestrian和Cyclist類上的檢測性能。本文的Pedestrian檢測精度目前為排行榜最高，但Cyclist精度較差。鑒于KITTI數(shù)據(jù)集中Pedestrian和Cyclist實例輸入太少，存在較大偶然性，該結(jié)果僅供參考。

4.4. 消融實驗

本節(jié)所有實驗都在訓(xùn)練子集和驗證子集上進行，評價指標(biāo)采用驗證集上類別Car的6個AP指標(biāo)的平均，即mAP。所有結(jié)果在表2中給出。

表2 關(guān)于重投影損失函數(shù)、激光點云監(jiān)督、端到端訓(xùn)練、認(rèn)知不確定性和隱向量的消融實驗

自監(jiān)督與激光監(jiān)督　　僅使用自監(jiān)督重建時，就可達到較好的檢測性能（28.57），僅使用激光監(jiān)督則效果很差（18.84），二者都使用時可以達到最好的效果（31.21）。圖6顯示，自監(jiān)督重建的幾何并不是物體的精確表面，易于過擬合，增加激光點云監(jiān)督具有提供形狀正則化，減少過擬合的作用。

魯棒KL損失　　通過比較smooth L1損失（26.35），拉普拉斯KL損失（29.47），混合KL損失（30.05），魯棒KL損失（31.21），可以觀察到性能在不斷提升。其中最大的提升在smooth L1和拉普拉斯KL損失之間，這顯示了偶然不確定性的重要作用。

端到端訓(xùn)練　　本文中端到端PnP只作微調(diào)，因此與微調(diào)前性能強相關(guān)。對于拉普拉斯KL損失訓(xùn)練的結(jié)果（29.47），端到端訓(xùn)練略微提升了精度（29.73）。對于魯棒KL損失訓(xùn)練的結(jié)果（31.21），端到端反而略微降低精度（31.09）。這說明魯棒KL損失比端到端PnP更易于優(yōu)化網(wǎng)絡(luò)。

隱向量　　有隱向量相比沒有隱向量顯著提升了檢測性能（31.21 vs 29.78）。

圖5 檢測結(jié)果在圖像和鳥瞰圖中的可視化。紅色表示預(yù)測結(jié)果（及其位置的95%置信區(qū)間），綠色、青色、藍(lán)色分別表示完全可見、部分可見、嚴(yán)重遮擋的真值。

圖6 不確定性和3D重建結(jié)果的可視化。

5 結(jié)論

本文提出了一種新穎的高性能實用3D物體檢測器——MonoRUn。為將稠密關(guān)聯(lián)方法用于真實交通場景中的3D物體檢測，本文使用自監(jiān)督重構(gòu)和不確定性克服了數(shù)據(jù)集缺少幾何監(jiān)督的難題。同時，本文提出了魯棒KL損失函數(shù)，使不確定性深度回歸網(wǎng)絡(luò)更容易優(yōu)化。最后，本文探索了基于PnP不確定性傳播的概率3D物體定位，為魯棒跟蹤和預(yù)測等下游任務(wù)開拓了新的可能。

參考文獻

聯(lián)系人：張老師

電話：15221659529

郵箱：20666080@#edu.cn

分享到：

微信“掃一掃”
分享到朋友圈

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于重建和不確定性傳播的單目視覺3D物體檢測

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工