日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

基于重建和不確定性傳播的單目視覺3D物體檢測

2021-11-09 15:37:18·  來源:同濟智能汽車研究所  
 
編者按:3D物體檢測(目標(biāo)檢測)是智能汽車感知系統(tǒng)的重要任務(wù)。在眾多應(yīng)用于智能汽車的傳感器中,相機這一視覺傳感器具有分辨率高、成本較低、部署方便等優(yōu)點。
編者按:3D物體檢測(目標(biāo)檢測)是智能汽車感知系統(tǒng)的重要任務(wù)。在眾多應(yīng)用于智能汽車的傳感器中,相機這一視覺傳感器具有分辨率高、成本較低、部署方便等優(yōu)點?;谙鄼CRGB圖像的低成本3D物體檢測是當(dāng)下學(xué)界和工業(yè)界的研究熱點。其中,相比多目視覺3D物體檢測,單目視覺3D物體檢測是更為基礎(chǔ)的問題,其難點在于估計物體的距離。本文將6DoF位姿估計領(lǐng)域常用的稠密關(guān)聯(lián)方法應(yīng)用到了交通場景的單目3D物體檢測,并引入了不確定性傳播,可以描述物體位置的不確定性。針對深度回歸問題中偶然不確定性的估計,本文提出了魯棒KL損失,顯著提升了檢測精度,對于一般的不確定性估計網(wǎng)絡(luò)有借鑒價值。

本文譯自:《MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation》
文章來源:IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
作者:Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong
原文鏈接:https://arxiv.org/abs/2103.12605

摘要:單目視覺3D物體檢測的主要難點在于物體在3D空間中的定位。近年關(guān)于6DoF位姿估計的研究表明,預(yù)測圖像與物體3D模型之間的2D-3D稠密關(guān)聯(lián)(Dense Correspondence)并使用PnP算法求解物體位姿,可以取得很高的定位精度。然而,在這些研究中,模型的訓(xùn)練均依賴物體的3D模型真值,這一條件在真實的室外場景中難以滿足。為解決這一問題,本文提出了MonoRUn檢測算法,以自監(jiān)督的形式學(xué)習(xí)稠密關(guān)聯(lián)和物體幾何,這一過程中僅需用到物體的3D框標(biāo)注。本文使用基于不確定性的區(qū)域重建網(wǎng)絡(luò)回歸與2D像素相關(guān)聯(lián)的3D坐標(biāo)。自監(jiān)督訓(xùn)練是指將3D坐標(biāo)重投影以重構(gòu)圖像的2D坐標(biāo)。為優(yōu)化重投影誤差并考慮其不確定性,本文提出了魯棒KL損失。在測試階段,網(wǎng)絡(luò)預(yù)測的不確定性將傳播至所有下游模塊。具體而言,模型使用不確定性PnP算法估計物體的位姿及其協(xié)方差。在KITTI數(shù)據(jù)集上的實驗表明,本文所提出方法的檢測精度超過了目前的前沿方法。

關(guān)鍵詞:3D目標(biāo)檢測,自監(jiān)督學(xué)習(xí),不確定性PnP算法

1 引言
單目視覺3D物體檢測是計算機視覺的重要研究領(lǐng)域之一。盡管深度學(xué)習(xí)在2D物體檢測上取得了突破[3, 30],3D物體檢測仍面臨諸多挑戰(zhàn),其最大的困難就是單張圖像無法提供顯式的深度信息。為解決這一問題,大量現(xiàn)有研究利用物體的幾何先驗信息,通過2D-3D約束求解物體的位姿(即物體在相機坐標(biāo)系中的位置和角度)。這些約束需要額外的關(guān)鍵點標(biāo)注[4, 13],或利用物體真值框的角點、中心點、邊界作為約束[21, 27]。檢測的精度取決于約束的數(shù)量和質(zhì)量。因此,當(dāng)物體被部分遮擋或截斷(位于圖像邊界以外)時,檢測精度會下降。6DoF位姿估計[15]的相關(guān)研究表明,使用2D-3D稠密關(guān)聯(lián)——將物體的每一個像素點映射到物體局部坐標(biāo)系中的3D點,可以使定位更加魯棒。

目前的前沿稠密關(guān)聯(lián)方法[22, 28, 40]需要的標(biāo)注信息包括物體的真實位姿和3D模型,借此可以在圖像中渲染并得到目標(biāo)3D坐標(biāo)圖及其掩膜,作為網(wǎng)絡(luò)訓(xùn)練的監(jiān)督信號。這一要求使得訓(xùn)練數(shù)據(jù)的來源受限,只能使用合成數(shù)據(jù)或可控的實驗室數(shù)據(jù),因其可以獲取精確的物體3D模型。然而,真實場景中的3D物體檢測需要面對類別級物體,獲取某類物體所有實例的3D模型并不實際。一種直觀的解決方法是使用激光雷達的點云生成稀疏的局部坐標(biāo)圖作為監(jiān)督信號,但遠(yuǎn)距離或高反光物體沒有足夠的點能用于監(jiān)督。

在缺少真值時,自監(jiān)督是訓(xùn)練模型的重要方法。例如,Wang等人[35]在有物體幾何真值而缺少物體位姿真值時,使用了自監(jiān)督網(wǎng)絡(luò)來直接學(xué)習(xí)物體的位姿。本文則采用了相反的思路:在訓(xùn)練時利用位姿真值自監(jiān)督地學(xué)習(xí)3D幾何,在測試時用網(wǎng)絡(luò)學(xué)到的2D-3D稠密關(guān)聯(lián)求解物體位姿。

本文提出了MonoRUn方法——基于重建和不確定性傳播的單目視覺3D物體檢測(Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation)。MonoRUn可在現(xiàn)有的2D檢測器上增加區(qū)域(RoI)3D分支,用于回歸2D檢測框內(nèi)的稠密3D坐標(biāo),這一過程便實現(xiàn)了幾何重建和2D-3D稠密關(guān)聯(lián)。

為減少冗余,避免對有監(jiān)督前景分割的依賴,本文估計了坐標(biāo)預(yù)測結(jié)果的不確定性并使用不確定性PnP算法,使其關(guān)注不確定性較低的前景點。此外,將不確定性通過PnP進行傳播還可以獲得位姿的協(xié)方差矩陣,并用于評價檢測置信度。

自監(jiān)督是指將預(yù)測的3D坐標(biāo)重投影為圖像坐標(biāo),這一過程需要用到物體的真實位姿和相機內(nèi)參。為優(yōu)化重投影誤差并估計其不確定性,本文提出了魯棒KL損失,用于最小化預(yù)測坐標(biāo)的高斯分布和真值坐標(biāo)的狄拉克分布之間的KL散度。這一損失函數(shù)是本文檢測性能提升的關(guān)鍵。

總之,本文的主要貢獻如下:
  • 本文提出了一種基于不確定性的新3D物體檢測網(wǎng)絡(luò),該網(wǎng)絡(luò)的訓(xùn)練過程可以無需額外標(biāo)注(例如關(guān)鍵點、3D模型、分割掩膜)。本文首次將稠密關(guān)聯(lián)方法用于真實交通場景的3D物體檢測。
  • 本文提出的魯棒KL損失適用于一般的基于深度學(xué)習(xí)的不確定性估計問題,并通過實驗驗證了其相對于普通KL損失的優(yōu)勢。
  • 在KITTI數(shù)據(jù)集上的實驗表明,本文的檢測精度相對于現(xiàn)有的前沿方法具有顯著的提升。


圖1 檢測算法的總體思路

2 相關(guān)研究
A. 單目3D物體檢測  
根據(jù)深度信息的來源,現(xiàn)有的主流方法可以被粗略分為兩類。
1)借助現(xiàn)有的單目深度估計方法。Pseudo-LiDAR方法[39]將深度圖轉(zhuǎn)換為3D偽點云表征,將其輸入至激光點云3D物體檢測方法。D4LCN[8]使用深度圖作為導(dǎo)向生成動態(tài)濾波器,用于高效提取圖像中的3D信息。這些方法的優(yōu)勢來源于預(yù)訓(xùn)練的深度估計網(wǎng)絡(luò),例如DORN[9],但單目深度估計網(wǎng)絡(luò)可能存在泛化問題。
2)使用2D-3D幾何約束。Deep MANTA方法[4]用含有36個關(guān)鍵點的車輛模板標(biāo)注了訓(xùn)練數(shù)據(jù),然后訓(xùn)練網(wǎng)絡(luò)找到最佳匹配的模板,同時回歸2D關(guān)鍵點的坐標(biāo),最后使用EPnP算法[20]計算車輛位姿。RTM3D方法[21]使用類似CenterNet[41]的網(wǎng)絡(luò)檢測虛擬關(guān)鍵點(3D框的角點和中心點)。此外,Mousavian等人[27]還提出了3D框內(nèi)接2D框的約束。上述方法在遮擋和截斷情況下約束不充分。
B. 稠密關(guān)聯(lián)和3D重建  
現(xiàn)有研究大多使用幾何真值來訓(xùn)練稠密關(guān)聯(lián)網(wǎng)絡(luò),也有部分研究嘗試了在沒有幾何真值的情況下使用可導(dǎo)PnP算法訓(xùn)練端到端網(wǎng)絡(luò)。
1)有幾何監(jiān)督。Pix2Pose方法[28]直接回歸物體像素點的歸一化物體坐標(biāo)(Normalized Object Coordinate,NOC)。DPOD方法[40]預(yù)測兩通道UV坐標(biāo)將物體表面映射至3D坐標(biāo)。關(guān)于類別級物體,Wang等人[36]展示了具有尺度不變性的NOC可以處理同類別中未出現(xiàn)過的實例。這些方法只在合成或簡單室內(nèi)數(shù)據(jù)上進行了測試。
2)無幾何監(jiān)督。Brachmann和Rother[1]提出了一種近似的PnP反向傳播算法端到端地訓(xùn)練網(wǎng)絡(luò)以解決SfM問題。Chen等人[5]提出了具有解析求導(dǎo)形式的BPnP方法。這些方法在訓(xùn)練時都使用重投影損失作為正則化,也就自監(jiān)督,而沒有充分研究僅依賴自監(jiān)督本身的訓(xùn)練。
C. 不確定性估計 
深度學(xué)習(xí)中的不確定性可以分為偶然不確定性和認(rèn)知不確定性[18]。前者與觀測噪聲有關(guān),后者反映模型參數(shù)的不確定性。Kendall和Gal[18]將異方差回歸引入深度學(xué)習(xí),通過KL損失[14, 18]訓(xùn)練網(wǎng)絡(luò)直接輸出與數(shù)據(jù)相關(guān)的偶然不確定性。然而,普通KL損失對離群值敏感,且不易與其他損失函數(shù)平衡,存在改進空間。

3 本文所提出的方法

圖2 MonoRUn網(wǎng)絡(luò)架構(gòu)
3.1. 問題描述與方法概述
給定一張RGB圖像,3D物體檢測需要對其中所有受關(guān)注的物體進行定位和分類,以獲得每個物體的3D包圍框和類別標(biāo)簽。3D框的參數(shù)包括尺寸
和位姿。其中是物體橫擺角,
是3D框底面中心點在相機坐標(biāo)系下的角度。
基于現(xiàn)有的2D檢測器,本文需要提取2D檢測框中的RoI特征,用于預(yù)測3D坐標(biāo)圖。對于自監(jiān)督訓(xùn)練,需要用物體真實位姿和相機模型將3D坐標(biāo)重投影為2D坐標(biāo)
,其目標(biāo)是恢復(fù)圖像本身的2D坐標(biāo)
。如果直接最小化重投影誤差而不考慮物體前景和背景,網(wǎng)絡(luò)會受無關(guān)背景處的較大誤差干擾。因此,本文設(shè)計了不確定性重建模塊,對重投影坐標(biāo)
的不確定性進行估計,并使用魯棒KL損失優(yōu)化由不確定性加權(quán)的重投影誤差。在測試階段,本文采用不確定性PnP模塊將上述不確定性傳播至物體位姿,并用多元高斯分布表示位姿。這一分布被進一步用于評判檢測的置信度。
3.2. 自監(jiān)督重建網(wǎng)絡(luò)
為處理不同尺寸的類別級物體,采用兩個網(wǎng)絡(luò)分支分別預(yù)測3D尺寸和具有尺度不變性的歸一化物體坐標(biāo)(NOC)[36]。最終的物體坐標(biāo)向量
則是NOC向量和尺寸向量的元素乘積:

第一個分支稱為全局提取器,負(fù)責(zé)對物體的全局認(rèn)知并預(yù)測物體的3D尺寸。第二個分支稱為NOC解碼器,使用卷積層預(yù)測稠密NOC圖。由于卷積層的全局感知能力有限,令全局提取器額外輸出一個全局隱向量以增強NOC解碼器。隱向量可能編碼了物體的遮擋、截斷、形狀等信息,后文的實驗表明其有利于偶然不確定性的估計。網(wǎng)絡(luò)細(xì)節(jié)如下。


圖3 全局提取器和MLP評分分支
全局提取器  如圖2所示,7×7的RoI特征是由特征金字塔中更高一級的特征提取而來。這一特征被展平后輸入到全局提取分支,輸出16通道的全局隱向量并預(yù)測3D尺寸。尺寸可由標(biāo)注的3D框尺寸直接監(jiān)督。如圖3所示,這一網(wǎng)絡(luò)由兩層1024通道的全連接層構(gòu)成。


圖4 NOC解碼器網(wǎng)絡(luò),其中上采樣部分采用CARAFE層[37]
NOC解碼器  這一網(wǎng)絡(luò)需要聚合全局隱向量和局部卷積特征,用于預(yù)測NOC。具體的實現(xiàn)方法借鑒了Squeeze-Excitation網(wǎng)絡(luò)中的Excitation操作。如圖4所示,首先將隱向量的通道數(shù)擴展為256,然后在上采樣層前將其和卷積特征之間按通道求和。除了預(yù)測三通道的NOC圖,NOC解碼器還需要估計兩通道的偶然不確定性,具體在下面一段描述。
基于偶然不確定性的自監(jiān)督訓(xùn)練  給定物體真實位姿,可將預(yù)測的物體坐標(biāo)重投影到圖像中。像素點
的重投影誤差為:

其中為相機投影函數(shù),為物體旋轉(zhuǎn)矩陣,
為物體位移向量。為使得網(wǎng)絡(luò)能在沒有實例分割的情況下專注于前景誤差,本文引入了偶然不確定性。具體而言,本文使用一元高斯分布表示重投影的2D坐標(biāo),令網(wǎng)絡(luò)預(yù)測其均值和標(biāo)準(zhǔn)差,并由魯棒KL損失進行訓(xùn)練。從嚴(yán)格意義上說,可以按照圖2中的不確定性傳播路徑,先估計中間變量的不確定性再將其傳播。從實用角度出發(fā),可以選擇更靈活的捷徑,直接令NOC解碼器估計重投影2D坐標(biāo)的標(biāo)準(zhǔn)差,如圖4所示。
附加認(rèn)知不確定性  認(rèn)知不確定性對于自動駕駛這種強調(diào)安全的應(yīng)用場景十分重要。參考[18]中的方法,本文在測試中使用蒙特卡洛dropout計算
的均值和方差,在RoI Align后插入通道dropout層,在每個全連接層后插入1D dropout層。由于PnP算法處理2D投影方差效率更高,本文先將物體坐標(biāo)的3D方差近似轉(zhuǎn)換為2D重投影坐標(biāo)的方差,并將其與偶然不確定性合并。
3.3. 魯棒KL損失
根據(jù)定義,KL損失是由預(yù)測分布和目標(biāo)分布的KL散度推導(dǎo)而來。假定分布均為高斯,則KL散度為:

對于固定的目標(biāo)分布,
是定值,在最小化過程中可以省略。假設(shè)目標(biāo)分布狹窄(類似狄拉克分布),遠(yuǎn)大于。記
,可以得到簡化的目標(biāo)函數(shù):

本文將式(4)稱為高斯KL損失。后文將省略下標(biāo)
。為估計回歸問題中的異方差,Kendall和Gal[18]提出用深度網(wǎng)絡(luò)直接預(yù)測依賴數(shù)據(jù)的均值和對數(shù)方差,并用式(4)進行優(yōu)化。顯然,式(4)的第一項是加權(quán)的L2損失,使不確定性較大的誤差項懲罰更小。
高斯KL損失雖然是由概率理論推導(dǎo)而來,在應(yīng)用于深度回歸模型中仍面臨兩個問題:
  • 作為L2損失的推廣,高斯KL損失對離群值的魯棒性差;
  • 訓(xùn)練過程中,隨著分母
減小,損失關(guān)于
的梯度會越來越大,而常規(guī)的L2或L1損失的梯度一般是減小或不變的,這導(dǎo)致不同的損失函數(shù)之間難以平衡。
針對第一個問題,[7, 18]由拉普拉斯分布推導(dǎo)了另一種KL損失:
類似于L1損失,該函數(shù)在
時不可導(dǎo)。為解決這一問題,本文設(shè)計了一種混合KL損失,并將其記作加權(quán)誤差
和標(biāo)準(zhǔn)差的函數(shù):

可以驗證該函數(shù)對
均可導(dǎo)。混合KL損失即為Huber損失(smooth L1)的推廣,具有對離群值魯棒且易于優(yōu)化的特點。
對于第二個問題,隨著訓(xùn)練時間增加,逐漸減小,使得權(quán)重系數(shù)
不斷增大。這一問題可以通過權(quán)重歸一化解決。受Batch Normalization[17]啟發(fā),本文通過指數(shù)移動平均在線估計平均權(quán)重:


其中是動量項,
是batch中的樣本數(shù)量。最終的魯棒KL損失即為權(quán)重歸一化后的混合KL損失:


實際操作中,直接優(yōu)化
會導(dǎo)致梯度爆炸,需要令網(wǎng)絡(luò)輸出其對數(shù)值。
3.4. 不確定性PnP
極大似然估計  求解PnP問題即為求解位姿
的極大似然估計(MLE),其負(fù)對數(shù)似然(NLL)函數(shù)為重投影誤差
的馬氏距離平方和:


其中
表示預(yù)測的重投影坐標(biāo)標(biāo)準(zhǔn)差。這一優(yōu)化問題可由Levenberg-Marquardt算法高效求解。
協(xié)方差估計  位姿的協(xié)方差矩陣近似為NLL在
點的Hessian矩陣之逆[29]:


為避免在測試時求二階導(dǎo)數(shù),本文用高斯-牛頓矩陣
作為Hessian矩陣的近似,其定義為
,其中
(加權(quán)重投影誤差展平后的向量)。
在線協(xié)方差校正  實際應(yīng)用中,式(10)估計的協(xié)方差矩陣數(shù)值偏小,其主要原因是式(9)假定了重投影誤差是相互獨立的,而實際網(wǎng)絡(luò)輸出的結(jié)果是具有相關(guān)性的。因此,本文引入了一個4×1的可學(xué)習(xí)校正向量
,用于協(xié)方差的在線校正:

校正向量可以通過施加多元高斯KL損失進行優(yōu)化:

其中
不參與優(yōu)化,只有
被優(yōu)化。盡管本文3.3節(jié)指出了普通高斯KL損失的不足,這一損失函數(shù)足以用于處理這一簡單優(yōu)化任務(wù)。
3.5. 評分分支
如圖3所示,本文采用多層感知機(MLP),將帶有不確定性的位姿估計結(jié)果與全局提取器的特征融合,輸出檢測的置信度。對于評分分支的訓(xùn)練,使用與[31, 32]中相同的二分類交叉熵?fù)p失函數(shù):


其中是MLP輸出的3D定位置信度,目標(biāo)置信度
是預(yù)測與真值之間3D IoU的函數(shù):

最終的檢測置信度是2D檢測置信度與的乘積。
3.6. 網(wǎng)絡(luò)訓(xùn)練
本文在實驗中設(shè)置了三種訓(xùn)練方法。
自監(jiān)督重建(無附加監(jiān)督)  該模式中,訓(xùn)練沒有用到激光點云和可導(dǎo)PnP,除了尺寸有直接監(jiān)督以外,3D重建完全由自監(jiān)督的方式進行訓(xùn)練??倱p失函數(shù)為:


其中
是2D檢測損失,
是關(guān)于重投影誤差的魯棒KL損失,
是關(guān)于尺寸誤差的smooth L1損失,
是協(xié)方差校正損失的權(quán)重,設(shè)為0.01。
加激光監(jiān)督  前景激光點云可以轉(zhuǎn)化為NOC的稀疏真值,用以施加直接NOC損失。因為只有前景點,無需采用偶然不確定性。因此,本文采用加權(quán)的smooth L1損失:
其中
表示NOC張量的第i個元素,
在有真值處為1,其余為0??倱p失函數(shù)為:

除非有特殊說明,本文默認(rèn)采用該方法訓(xùn)練網(wǎng)絡(luò)。

端到端訓(xùn)練  引入[5]中的PnP反向傳播方法,可以對位姿估計誤差施加smooth L1損失。由于端到端訓(xùn)練PnP在初始階段不穩(wěn)定,本文采用與[1]中類似的訓(xùn)練策略,即先自監(jiān)督訓(xùn)練、再用端到端進行微調(diào)。該方法只在實驗中作為對照。

4 實驗
4.1. 數(shù)據(jù)集
本文在KITTI-Object數(shù)據(jù)集上評價模型的性能。KITTI數(shù)據(jù)集中共有7481張訓(xùn)練圖像,7518張測試圖像,以及相應(yīng)的點云,總共有8個物體類別、80256個標(biāo)注的物體實例。每個物體根據(jù)其遮擋、截斷和2D框高度分為了簡單、中等、困難三個級別。訓(xùn)練集又被進一步分為3712張訓(xùn)練圖像和3769張驗證圖像[6]。官方排行榜需要對Car,Pedestrian,Cyclist三類物體進行評價。評價指標(biāo)是基于特定IoU閾值(0.7或0.5)的準(zhǔn)確率-召回率曲線計算的的。本文采用官方評價方法,計算40點插值平均精度(AP)[33]。

4.2. 實現(xiàn)細(xì)節(jié)
2D檢測器  使用預(yù)訓(xùn)練的Faster R-CNN[30]作為2D檢測器,其骨干網(wǎng)絡(luò)使用ResNet-101[12]。本文采用6層FPN[23],比常規(guī)FPN多一層上采樣層。
重建模塊  對于dropout比率,設(shè)置1D dropout層為0.5,通道dropout層為0.2。網(wǎng)絡(luò)輸出(尺寸,NOC)使用訓(xùn)練數(shù)據(jù)的均值和方差進行了歸一化。當(dāng)訓(xùn)練多類物體時,對每個類別預(yù)測一組特定的隱向量、尺寸、NOC。
數(shù)據(jù)增強  在訓(xùn)練過程中,采用隨機翻轉(zhuǎn)和調(diào)色增強。對于NOC解碼器,設(shè)置兩個輸出分支,分別對應(yīng)原始和翻轉(zhuǎn)物體。
訓(xùn)練策略  網(wǎng)絡(luò)使用AdamW[24]優(yōu)化器,權(quán)重衰減設(shè)為0.01。本文使用兩張Nvidia RTX 2080 Ti GPU,總batch size為6張圖像。初始學(xué)習(xí)率設(shè)為0.0002,使用余弦衰減。在完整訓(xùn)練集上訓(xùn)練32個周期,在訓(xùn)練子集上訓(xùn)練50個周期。對于端到端訓(xùn)練,附加一個15周期的第二輪訓(xùn)練,初始學(xué)習(xí)率降為0.00003。
測試方法  對于認(rèn)知不確定性,蒙特卡洛dropout采用數(shù)設(shè)為50[18],默認(rèn)只對全局提取器進行采樣。在后處理階段,使用3D NMS,IoU閾值設(shè)為0.01。
4.3. 與現(xiàn)有前沿方法的比較


表1 KITTI測試集合驗證集上類別Car的3D檢測性能。*表示使用了預(yù)訓(xùn)練深度估計網(wǎng)絡(luò)DORN[9]。Wang等人[38]指出DORN的訓(xùn)練數(shù)據(jù)與KITTI-Object的驗證數(shù)據(jù)有重疊,因此造成3D檢測性能過擬合,表中灰色數(shù)字表示受過擬合影響的結(jié)果。
表1列出了本文方法和其它前沿方法在KITTI的驗證集(Val)和官方測試集(Test)上的檢測結(jié)果??梢缘玫揭韵陆Y(jié)論:(1)當(dāng)使用激光點云監(jiān)督時,本文方法在測試集上的精度顯著高于現(xiàn)有前沿方法。其余標(biāo)有*的前三名也用到了額外的深度監(jiān)督。(2)當(dāng)不使用額外監(jiān)督時,本文提出的方法仍超過了其它不使用深度估計的方法。(3)本文方法的單幀測試時間為0.07 s(包括蒙特卡洛和PnP),速度尚可,而其余前三名的單幀時間超過0.2 s(不包括DORN[9]的0.5 s深度估計時間)。


表2 KITTI測試集上Pedestrian和Cyclist的3D檢測性能
表2列出了本文方法和其它前沿方法在Pedestrian和Cyclist類上的檢測性能。本文的Pedestrian檢測精度目前為排行榜最高,但Cyclist精度較差。鑒于KITTI數(shù)據(jù)集中Pedestrian和Cyclist實例輸入太少,存在較大偶然性,該結(jié)果僅供參考。
4.4. 消融實驗
本節(jié)所有實驗都在訓(xùn)練子集和驗證子集上進行,評價指標(biāo)采用驗證集上類別Car的6個AP指標(biāo)的平均,即mAP。所有結(jié)果在表2中給出。


表2 關(guān)于重投影損失函數(shù)、激光點云監(jiān)督、端到端訓(xùn)練、認(rèn)知不確定性和隱向量的消融實驗
自監(jiān)督與激光監(jiān)督  僅使用自監(jiān)督重建時,就可達到較好的檢測性能(28.57),僅使用激光監(jiān)督則效果很差(18.84),二者都使用時可以達到最好的效果(31.21)。圖6顯示,自監(jiān)督重建的幾何并不是物體的精確表面,易于過擬合,增加激光點云監(jiān)督具有提供形狀正則化,減少過擬合的作用。
魯棒KL損失  通過比較smooth L1損失(26.35),拉普拉斯KL損失(29.47),混合KL損失(30.05),魯棒KL損失(31.21),可以觀察到性能在不斷提升。其中最大的提升在smooth L1和拉普拉斯KL損失之間,這顯示了偶然不確定性的重要作用。
端到端訓(xùn)練  本文中端到端PnP只作微調(diào),因此與微調(diào)前性能強相關(guān)。對于拉普拉斯KL損失訓(xùn)練的結(jié)果(29.47),端到端訓(xùn)練略微提升了精度(29.73)。對于魯棒KL損失訓(xùn)練的結(jié)果(31.21),端到端反而略微降低精度(31.09)。這說明魯棒KL損失比端到端PnP更易于優(yōu)化網(wǎng)絡(luò)。
隱向量  有隱向量相比沒有隱向量顯著提升了檢測性能(31.21 vs 29.78)。


圖5 檢測結(jié)果在圖像和鳥瞰圖中的可視化。紅色表示預(yù)測結(jié)果(及其位置的95%置信區(qū)間),綠色、青色、藍(lán)色分別表示完全可見、部分可見、嚴(yán)重遮擋的真值。


圖6 不確定性和3D重建結(jié)果的可視化。

5 結(jié)論
本文提出了一種新穎的高性能實用3D物體檢測器——MonoRUn。為將稠密關(guān)聯(lián)方法用于真實交通場景中的3D物體檢測,本文使用自監(jiān)督重構(gòu)和不確定性克服了數(shù)據(jù)集缺少幾何監(jiān)督的難題。同時,本文提出了魯棒KL損失函數(shù),使不確定性深度回歸網(wǎng)絡(luò)更容易優(yōu)化。最后,本文探索了基于PnP不確定性傳播的概率3D物體定位,為魯棒跟蹤和預(yù)測等下游任務(wù)開拓了新的可能。
參考文獻


聯(lián)系人:張老師
電話:15221659529
郵箱:20666080@#edu.cn
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25