在單目3D目標(biāo)檢測(cè)和跟蹤中目標(biāo)深度估計(jì)很重要

2022-06-13 11:03:29· 來(lái)源：計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv2022年6月8號(hào)上傳的論文“Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection and Tracking“，作者來(lái)自

arXiv2022年6月8號(hào)上傳的論文“Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection and Tracking“，作者來(lái)自谷歌WayMo公司、Johns-Hopkins大學(xué)和Cornell大學(xué)。

近年來(lái)，基于單目圖像的3D感知技術(shù)在自動(dòng)駕駛的應(yīng)用非常活躍。然而，與基于激光雷達(dá)的技術(shù)相比，包括檢測(cè)和跟蹤在內(nèi)，單目3D感知方法的性能往往較差。通過(guò)系統(tǒng)分析，發(fā)現(xiàn)每個(gè)目標(biāo)的深度估計(jì)精度是影響性能的主要因素?；谶@一觀察結(jié)果，提出一種多層融合方法，該方法將目標(biāo)不同的表征（RGB和偽激光雷達(dá)）和時(shí)域多幀信息（tracklet）相結(jié)合，以增強(qiáng)每個(gè)目標(biāo)的深度估計(jì)。

該融合方法在Waymo開(kāi)放數(shù)據(jù)集、KITTI檢測(cè)數(shù)據(jù)集和KITTI MOT數(shù)據(jù)集上實(shí)現(xiàn)了每目標(biāo)深度估計(jì)的最好性能。簡(jiǎn)單地將估計(jì)深度替換為融合增強(qiáng)深度，可以顯著改善單目3D感知任務(wù)，包括檢測(cè)和跟蹤。

現(xiàn)有的自動(dòng)駕駛車輛感知系統(tǒng)主要依賴于昂貴的傳感器，如激光雷達(dá)和雷達(dá)。由于攝像機(jī)的低成本、低功耗和更長(zhǎng)的感知范圍，單目圖像感知近年來(lái)吸引了業(yè)界和研究界的極大興趣。這種感知任務(wù)往往具有挑戰(zhàn)性，單目感知系統(tǒng)與基于激光雷達(dá)/雷達(dá)的系統(tǒng)之間存在很大的性能差距。

常見(jiàn)的3D單目感知系統(tǒng)包括兩個(gè)主要模塊：3D目標(biāo)檢測(cè)和3D跟蹤。前者需要學(xué)習(xí)目標(biāo)的3D位置、長(zhǎng)方體大小和旋轉(zhuǎn)/朝向，而后者需要使用外觀和運(yùn)動(dòng)線索跨幀跟蹤檢測(cè)。在這兩項(xiàng)任務(wù)中，不清楚系統(tǒng)的哪個(gè)組件對(duì)性能有最關(guān)鍵的影響。為了充分了解哪個(gè)組件限制了總體性能，用真值替換最先進(jìn)檢測(cè)模型的每個(gè)輸出，然后用最先進(jìn)的檢測(cè)器評(píng)估檢測(cè)和tracking-by-detection性能的變化。

如圖所示，在圖像中包括旋轉(zhuǎn)、大小、深度和非模態(tài)中心在內(nèi)的所有屬性中，發(fā)現(xiàn)只有每個(gè)目標(biāo)的深度，即車輛3D中心的深度，才起作用（請(qǐng)參見(jiàn)每個(gè)目標(biāo)深度估計(jì)完美時(shí)的顯著性能改進(jìn)，以及其他信號(hào)完美時(shí)的非主體改進(jìn)）?；谶@一觀察，單目標(biāo)深度估計(jì)是單目3D檢測(cè)和檢測(cè)跟蹤的主要瓶頸。對(duì)其他最先進(jìn)的檢測(cè)器進(jìn)行相同的分析，例如帶AB3D跟蹤器的RTM3D框架，結(jié)果表明，深度是改善單目3D檢測(cè)的關(guān)鍵因素，跟蹤是橫穿模型的總結(jié)論。

從單目圖像估計(jì)物體深度的一個(gè)主要挑戰(zhàn)是獲得一個(gè)表征，對(duì)從2D信息到3D深度的轉(zhuǎn)換進(jìn)行編碼。最近的工作（例如，3D單目檢測(cè)）主要集中于直接從原始RGB圖像學(xué)習(xí)，或利用從預(yù)測(cè)的密集深度圖中提取偽激光雷達(dá)表征。直覺(jué)上，上述兩種表示法在估計(jì)每個(gè)目標(biāo)的深度方面可能是互補(bǔ)的，單獨(dú)從其中任何一種學(xué)習(xí)都可能是次優(yōu)的：RGB圖像實(shí)際上編碼了外觀、紋理和2D幾何等，但不包含3D直接信息。

在不過(guò)擬合無(wú)關(guān)信息的情況下，很難學(xué)習(xí)如何將RGB特征精確映射到深度；另一方面，偽激光雷達(dá)表征通過(guò)估計(jì)的密集深度圖直接建模目標(biāo)三維結(jié)構(gòu)，這使得學(xué)習(xí)每個(gè)目標(biāo)的深度變得簡(jiǎn)單。然而，估計(jì)的密集深度圖通常是有噪聲的（通常具有至少8%的平均相對(duì)誤差）。受先前的融合（如RGB圖像特征和用于動(dòng)作識(shí)別的光流）方法啟發(fā)，融合在兩種表征中編碼的互補(bǔ)信號(hào)可能有助于每個(gè)目標(biāo)的深度估計(jì)。

此外，單目圖像的深度估計(jì)基本上是不適定問(wèn)題，因?yàn)閳?chǎng)景的單個(gè)2D視圖可以由許多看似合理的3D場(chǎng)景來(lái)解釋。然而，隨時(shí)間推移，觀察一個(gè)目標(biāo)可以對(duì)目標(biāo)的基本時(shí)間和運(yùn)動(dòng)一致性進(jìn)行建模，能提供上下文信息，以便在3D中更好地定位目標(biāo)。在其他任務(wù)中也有類似的想法，如基于2D視頻的目標(biāo)檢測(cè)。

上圖顯示用于逐目標(biāo)深度估計(jì)的多級(jí)融合框架概述：首先進(jìn)行二維目標(biāo)檢測(cè)和跨幀跟蹤檢測(cè)，為每個(gè)目標(biāo)構(gòu)建一個(gè)tracklet。然后，構(gòu)建跨幀目標(biāo)的偽激光雷達(dá)表示，以及當(dāng)前幀的RGB圖像特征。自運(yùn)動(dòng)補(bǔ)償應(yīng)用于每個(gè)tracklet的所有偽激光雷達(dá)patch，并轉(zhuǎn)換到相同的坐標(biāo)系。最后，對(duì)當(dāng)前幀的RGB圖像特征和時(shí)間融合的偽激光雷達(dá)特征進(jìn)行融合，以產(chǎn)生逐個(gè)目標(biāo)深度。

PR-融合，利用RGB和偽激光雷達(dá)表示編碼的互補(bǔ)信息。給定一幅大小為H×W的RGB圖像I，使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)FRGB可以提取整個(gè)圖像的緊湊特征。對(duì)于具有2D邊框b的任何目標(biāo)，用預(yù)定義的池化操作池（FRGB（I），b）提取邊框的RGB圖像特征R。從圖像I中提取目標(biāo)邊框b的圖像特征R的過(guò)程可以表示為

偽激光雷達(dá)表示的提取過(guò)程包括三個(gè)步驟：（1）每個(gè)圖像的密集深度估計(jì)，（2）提升預(yù)測(cè)的密集深度到偽激光雷達(dá)，（3）用神經(jīng)網(wǎng)絡(luò)提取偽激光雷達(dá)表示。對(duì)于任何RGB圖像I，深度估計(jì)可以通過(guò)使用密集深度估計(jì)網(wǎng)絡(luò)Fd完成

然后，用以下基于攝像頭模型將整個(gè)深度圖的每個(gè)像素提升到點(diǎn)云：

在變換之后，密集深度圖d中的每個(gè)像素被變換為三個(gè)通道，表示在攝像頭坐標(biāo)中對(duì)應(yīng)像素在3D空間的絕對(duì)位置。

在獲得圖像I的偽激光雷達(dá)表示后，可以基于2D邊框?qū)r(shí)間戳t的目標(biāo)bt偽激光雷達(dá)patch Pt進(jìn)行裁剪，其中Pt是框bt內(nèi)的偽激光雷達(dá)點(diǎn)集?？梢杂昧硪粋€(gè)特征編碼器Fp提取目標(biāo)bt的偽激光雷達(dá)特征PL，如

PR-融合則表示為

直接從單個(gè)幀預(yù)測(cè)每個(gè)目標(biāo)的深度很有挑戰(zhàn)性，因?yàn)閿z像頭圖像中的單個(gè)目標(biāo)可以由具有不同深度的多個(gè)看似合理的目標(biāo)來(lái)解釋。受視頻任務(wù)的時(shí)間融合方法啟發(fā)，提出跨多幀融合目標(biāo)級(jí)信息，增強(qiáng)預(yù)測(cè)的時(shí)間和運(yùn)動(dòng)一致性。給定2D檢測(cè)結(jié)果，首先進(jìn)行2D數(shù)據(jù)關(guān)聯(lián)，為目標(biāo)構(gòu)建軌跡，然后在時(shí)間窗口融合軌跡的特征。

一種簡(jiǎn)單的方法是直接跨幀融合圖像特征，然而直接融合不同幀的RGB特征可能不太理想，因?yàn)镽GB特征將攝像頭自運(yùn)動(dòng)和目標(biāo)運(yùn)動(dòng)耦合在一起，很難從2D圖像序列中學(xué)習(xí)運(yùn)動(dòng)和時(shí)間一致性。為了對(duì)深度估計(jì)進(jìn)行有效的時(shí)間融合，必須對(duì)攝像機(jī)運(yùn)動(dòng)進(jìn)行補(bǔ)償，以確保不同幀的特征位于同一坐標(biāo)系中。幸運(yùn)的是，攝像頭的自運(yùn)動(dòng)可以通過(guò)偽激光雷達(dá)表示在3D空間中輕松補(bǔ)償。因此，提出一種基于偽激光雷達(dá)表示帶自運(yùn)動(dòng)補(bǔ)償?shù)腡-融合法。

T-融合的輸入包括在不同幀Pt, Pt?1 , ..., Pt?n中每個(gè)目標(biāo)的偽激光雷達(dá)patch，而Pt位于t幀的三維攝像頭坐標(biāo)中。自運(yùn)動(dòng)用基于傳統(tǒng)六自由度的4×4齊次矩陣H表示：平移[γx，γy，γz]以米為單位，旋轉(zhuǎn)[ρx，ρy，ρz]以弧度為單位。

首先，用攝像頭坐標(biāo)到全局坐標(biāo)的轉(zhuǎn)換矩陣H，將來(lái)自不同幀的所有偽激光雷達(dá)patch投影到全局坐標(biāo)系中。假設(shè)攝像頭坐標(biāo)到全局坐標(biāo)的變換矩陣為Ht?j，對(duì)于任何時(shí)間戳Pt-j的偽激光雷達(dá)patch，轉(zhuǎn)換如下：

坐標(biāo)變換后，自動(dòng)駕駛汽車的自運(yùn)動(dòng)得到補(bǔ)償，變換后的Pt′?j與Pt在同一坐標(biāo)系中。將相同的變換應(yīng)用于所有時(shí)間戳的偽激光雷達(dá)patch，消除自運(yùn)動(dòng)對(duì)每個(gè)目標(biāo)的偽激光雷達(dá)點(diǎn)位置造成的影響。

給定偽激光雷達(dá)的任何特征編碼器Fp（），數(shù)據(jù)中不同時(shí)間戳的特征可以提取為Fp（P′t），F(xiàn)p（P′t?1 ), ..., Fp（P′t?n），其中′表示偽激光雷達(dá)patch做自運(yùn)動(dòng)補(bǔ)償。然后，可以用神經(jīng)網(wǎng)絡(luò)編碼器GTF對(duì)目標(biāo)序列的融合特征進(jìn)行建模，如下所示：

PR-融合和T-融合聚合了兩個(gè)不同領(lǐng)域的特征。將這兩種融合方法結(jié)合在一起進(jìn)一步提高性能是很自然的。給定一系列跨時(shí)間的目標(biāo)框，bt，bt?1, ...., bt?n，目標(biāo)bi的RGB圖像特征可以用圖像特征編碼器FRGB（）表示，其偽激光雷達(dá)特征可以用編碼器Fp（）提取。PRT-融合分為兩個(gè)步驟：給定當(dāng)前幀的目標(biāo)及其前一幀的目標(biāo)，首先對(duì)多幀的偽激光雷達(dá)表示進(jìn)行帶自運(yùn)動(dòng)補(bǔ)償?shù)腡-融合；然后將其與當(dāng)前幀t的RGB特征融合為

RGB特征提取采用CenterNet和CenterTrack，它們最近在nuScenes數(shù)據(jù)集上的單目3D檢測(cè)任務(wù)上取得了最先進(jìn)的性能。遵循其公式和網(wǎng)絡(luò)架構(gòu)，以ResNet50為骨干進(jìn)行2D檢測(cè)。

偽激光雷達(dá)特征提取采用PatchNet，其最近顯著提高基于偽激光雷達(dá)的檢測(cè)性能。選擇它作為主干模型來(lái)提取基于偽激光雷達(dá)的特征，其作為基線和該方法的輸入。

為了跟蹤2D檢測(cè)形成tracklet，用基于卡爾曼濾波器的跟蹤器。

實(shí)驗(yàn)結(jié)果如下：

如圖所示：綠色、紅色和藍(lán)色邊框?qū)?yīng)于GT、基線深度估計(jì)和檢測(cè)（BL），以及PRT-融合中具有增強(qiáng)逐目標(biāo)深度的邊框?？梢杂^察到明顯更好的深度估計(jì)及其在檢測(cè)方面的進(jìn)一步改進(jìn)。

如圖所示：由于（a）中顯示的深度估計(jì)不準(zhǔn)確，3D跟蹤器錯(cuò)誤地關(guān)聯(lián)了幀間的檢測(cè)，從而導(dǎo)致ID切換。根據(jù)（b）中提出的融合模型預(yù)測(cè)的增強(qiáng)深度，跟蹤器可以正確地關(guān)聯(lián)檢測(cè)。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：用于車輛NVH應(yīng)用的新型環(huán)保材料的聲學(xué)研究
上一篇：混合動(dòng)力系統(tǒng)主流動(dòng)力構(gòu)型方案對(duì)比研究

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

在單目3D目標(biāo)檢測(cè)和跟蹤中目標(biāo)深度估計(jì)很重要

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工