日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網

  • 公眾號
    • 汽車測試網

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

用于自動駕駛的概率性3D多模態(tài)多目標跟蹤

2022-12-28 19:57:22·  來源:同濟智能汽車研究所  
 
編者按:多目標的跟蹤是自動駕駛領域常見的研究問題,而目前簡單基于卡爾曼濾波的跟蹤方法難以保證足夠的精度,且在數據關聯階段和歷史軌跡生命周期管理器方面存在很大的提升空間。因此作者提出了一個包含多個神經網絡模塊的多模態(tài)多目標跟蹤模型,融合2D圖像

編者按:多目標的跟蹤是自動駕駛領域常見的研究問題,而目前簡單基于卡爾曼濾波的跟蹤方法難以保證足夠的精度,且在數據關聯階段和歷史軌跡生命周期管理器方面存在很大的提升空間。因此作者提出了一個包含多個神經網絡模塊的多模態(tài)多目標跟蹤模型,融合2D圖像和3D激光點云的特征來同時利用目標的外觀信息和幾何信息,并利用神經網絡計算雙模型的結合權重和判斷新目標是否可以直接生成新軌跡。綜合來看,作者提出的多模態(tài)跟蹤方法充分融合了圖像和點云的信息,并引入神經網絡動態(tài)獲取原本提前設定的超參數,在KITTI跟蹤數據集上取得了領先的性能。



本文譯自:

《Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous Driving》


文章來源:

2021 IEEE International Conference on Robotics and Automation (ICRA)


作者:

Hsu-kuang Chiu, Jie Li, Rares, Ambrus, Jeannette Bohg.


原文鏈接:https://ieeexplore.ieee.org/abstract/document/9561754

https://arxiv.org/pdf/2012.13755.pdf



摘要目標跟蹤是自動駕駛車輛在交通場景中安全行駛的重要功能。當前最先進的方法遵循“檢測-跟蹤”范式,其中當前跟蹤目標物通過一些距離指標與檢測目標物相關聯。提高跟蹤準確性的關鍵挑戰(zhàn)在于數據關聯和跟蹤生命周期管理。我們提出了一種基于概率的、多模態(tài)、多目標的跟蹤系統(tǒng),該系統(tǒng)由不同的可訓練模塊組成,以提供魯棒的和數據驅動的跟蹤結果。首先,我們學習如何融合2D圖像和3D激光雷達點云的特征,以捕捉目標的外觀和幾何信息。第二,在比較數據關聯中的跟蹤目標和新檢測目標時,我們提出一種結合馬氏距離和特征距離的指標。第三,我們提出了一個何時從未匹配的目標檢測中初始化跟蹤任務的方法。通過廣泛的定量和定性結果,我們表明,當使用相同的目標檢測器時,我們的方法優(yōu)于NuScene和KITTI數據集上的最先進方法。



Ⅰ 緒論

3D多目標跟蹤對于自動駕駛至關重要。它可以估計所有交通參與者的位置、方向和尺寸。通過考慮時間信息,跟蹤模塊可以從基于幀的目標檢測中過濾異常值,并且對部分或完全遮擋更加魯棒。然后,所得軌跡可用于推斷每個交通參與者的運動模式和駕駛行為,以改進運動預測。這可以在自動駕駛中實現安全決策。當前最先進的3D多目標跟蹤[1, 2]遵循“檢測-跟蹤”范式。這些方法首先使用3D目標檢測器來估計每幀中每個目標的邊界框的位置和方向。然后,他們使用中心或馬氏距離[3]作為檢測目標物和現有跟蹤目標物之間的數據關聯指標。然而,這些指標僅評估目標的距離以及邊界框大小和方向的差異,而忽略每個目標的幾何和外觀特征。因此,數據關聯性能高度依賴運動預測的準確性。對于難以精確預測的物體,例如行人、摩托車或急轉彎的汽車,預測和正確檢測之間的歐氏距離可能很大。因此,它們可能無法正確匹配。[4, 5]試圖通過從跟蹤器的軌跡和檢測的特征學習關聯指標來改進數據關聯。然而,這些方法仍然無法超過上述基于中心距離的簡單方法[1]。結果表明,建立有效數據關聯的神經網絡具有挑戰(zhàn)性。我們建議在比較跟蹤和檢測之間的數據關聯時,學習如何權衡馬氏距離和基于幾何和外觀特征的距離[3]。這些特征是從3D激光雷達點云和2D相機圖像中提取的。與[4]和[5]不同,我們在標準卡爾曼濾波器[6]中使用學習到的指標,這種卡爾曼濾波器對多目標跟蹤有效[2]。此外,卡爾曼濾波器提供了可解釋性和顯式的不確定性估計,可用于下游決策。除了數據關聯,跟蹤目標物的生命周期管理是在線目標跟蹤系統(tǒng)的另一個重要組成部分。跟蹤目標物的生命周期管理確定何時初始化和終止每個跟蹤任務。這一決定會顯著影響假陽性和ID切換的數量。然而,跟蹤目標物的生命周期管理并沒有引起研究界的太多關注。先前的工作要么為每個未匹配的檢測目標物初始化一個新的跟蹤任務[1],要么創(chuàng)建臨時跟蹤任務,并在足夠連續(xù)的匹配情況下將其轉換為完整軌跡[2, 4, 5, 7, 8]。基于其幾何和外觀特征,我們提出了一種是否從未匹配檢測目標物中初始化新跟蹤任務的方法。這種方法有助于避免我們的跟蹤方法為潛在的假陽性初始化新的跟蹤任務。總而言之,我們提出了一種基于概率的、多模態(tài)、多目標的跟蹤系統(tǒng),該系統(tǒng)由三個可訓練模塊(距離組合、跟蹤初始化和特征融合)組成,以提供魯棒的和數據驅動的跟蹤結果。我們在NuScenes [9]和KITTI [10]數據集上使用領先的目標檢測器[1, 11]評估了我們的方法,這些目標檢測器將3D激光雷達點云作為輸入。我們表明,所提出的方法優(yōu)于[1]和[5]中報告的跟蹤方法。通過有效融合2D和3D輸入,我們可以進一步提高性能。我們的定性結果還明確顯示出假陽性跟蹤的減少,這對決策很重要。如果使用更加新的目標檢測器,我們預計會進一步提高性能,因為我們的方法對選擇哪個目標檢測器事先未知。

Ⅱ相關工作
A. 3D 目標檢測大多數的3D多目標跟蹤系統(tǒng)[1, 2, 4, 5, 7, 8, 12],在由3D目標檢測器提供的目標檢測框上進行跟蹤。因此,3D目標檢測器的選擇對于整個跟蹤系統(tǒng)的性能是很重要的。3D目標檢測可以被應用于相機圖像[13, 14],激光雷達點云[11, 15-19],或者他們的結合上[20-22]。單目3D目標檢測性能不太可能與利用激光雷達或深度信息的模型持平。因此,依賴單目3D目標檢測器的3D多目標跟蹤算法[12, 23]通常無法勝過依賴激光雷達或基于深度的目標檢測器的跟蹤方法。在我們提出的跟蹤系統(tǒng)中,我們使用CenterPoint 3D目標檢測器[1],它是NuScenes檢測數據集[9]中表現最好的檢測器之一。需要注意的是,我們的方法與檢測器無關。CenterPoint 量化激光雷達點云并使用PointNet [24, 25]生成特征圖。然后將特征圖輸入到關鍵點檢測器,用于定位對象的中心并回歸邊界框的大小和方向。B. 3D 多目標跟蹤大多數3D多目標跟蹤算法采用先檢測后跟蹤的框架。他們將 3D 對象檢測結果作為跟蹤方法的輸入。在數據關聯步驟中,使用不同的距離度量來找到匹配的軌跡檢測對。例如,AB3DMOT [7]在2D跟蹤算法[26]中使用3D交并比(3D IOU)作為2D交并比的擴展。ProbabilisticTracking [2]使用馬式距離,它考慮了跟蹤狀態(tài)的不確定性。CenterPoint [1]使用目標的中心距離并實現了有競爭力的跟蹤性能,這主要是由于新提出的3D目標檢測器比[2, 7]中使用的檢測器更好。CenterPoint [1]目前是NuScenes跟蹤數據集[9]中最先進的方法之一。其他幾種3D跟蹤方法提出將跟蹤的軌跡與對象幾何和外觀特征相結合。GNN3DMOT [5]使用圖神經網絡和2D-3D多特征學習進行數據關聯。PnPNet [4]提出了一個端到端的可訓練模型來聯合解決檢測、跟蹤和預測任務。然而,他們無法在NuScenes [9]數據集上勝過上述更簡單的CenterPoint [1]算法。

圖片

圖片

圖1:算法流程圖。子圖(a)描述了我們提出的架構的高級概述,右側的(b)(c)(d)表明了每個神經網絡模塊的細節(jié)。在第t幀,我們使用3D物體檢測器并提取每個檢測到的目標的激光雷達和圖像特征。這些特征是由特征融合模塊融合的。時間t的檢測特征和時間t-1的跟蹤特征融合后的特征被用在可訓練距離組合模塊中,以學習深度特征距離和Mahalanobis距離的組合。我們將貪婪匹配算法應用于數據關聯的組合距離,匹配得到的物體對由卡爾曼濾波器進一步處理以細化最終對象狀態(tài)。軌道初始化模塊決定是否為每個不匹配的檢測初始化新的跟蹤。


Ⅲ方法我們的方法的流程如圖1所示。在ProbabilisticTracking [2]的基礎上,我們的算法將激光雷達點云和相機圖像作為輸入,并通過卡爾曼濾波器進行目標跟蹤。我們提出的跟蹤算法具有三個可訓練的組件,以加強數據關聯和跟蹤生命周期管理:特征融合模塊合并激光雷達和圖像的特征以生成融合后的深層特征。距離組合模塊將深層的特征距離與馬氏距離相結合,作為數據關聯的最終度量。此外,我們還引入了軌跡初始化模塊,該模塊根據融合的2D和3D深度特征來決定是否為每個未匹配的檢測目標初始化新軌跡。在下面的內容中,我們將描述我們提出的跟蹤模型的每個核心組件。A. 卡爾曼濾波我們在ProbabilisticTracking [2]之前的工作基礎上,使用卡爾曼濾波器[6]進行對象狀態(tài)估計。每個對象的狀態(tài)由11個變量表示:

其中為物體3D邊框的中心位置,為物體面向方向與軸的夾角,表示邊框的長、寬、高,表示當前幀與前一幀的差值。

我們使用線性運動模型對運動物體的動力學進行建模,并假設線性速度和角速度恒定,物體尺寸恒定,即在預測步驟中不發(fā)生變化。根據標準的卡爾曼濾波公式,我們將預測步驟定義為:

其中,為時刻真實狀態(tài)的估計平均值,為時刻的預測狀態(tài)平均值。矩陣為流程模型的狀態(tài)轉移矩陣。矩陣時刻的狀態(tài)協(xié)方差,而是時刻的預測狀態(tài)協(xié)方差。矩陣是過程模型噪聲協(xié)方差。

我們使用CenterPoint [1]的3D物體檢測器為我們的卡爾曼濾波器提供觀測。每幀3D物體檢測結果由一組3D邊界框組成,每個邊界框由9個變量表示:

其中為檢測框的中心位置、方向和比例,類似于式1中的定義。剩下的兩個變量表示當前幀和前一幀之間的差值。這兩個值可以通過將檢測器的估計中心速度與兩個連續(xù)幀之間的時間持續(xù)時間相乘得到。我們使用均值為零、噪聲協(xié)方差為的加性高斯噪聲的線性觀察模型,利用該觀測模型和預測的目標狀態(tài)為,我們可以預測下一個測量值為創(chuàng)新協(xié)方差為,表示預測目標檢測的不確定性:

過程模型和觀測模型的噪聲協(xié)方差矩陣是根據訓練集數據的統(tǒng)計估計的,如[2]中提出的。

B. 2D和3D特征的融合

該模塊旨在融合來自2D相機圖像和3D激光雷達點云的特征,每次檢測的關鍵幀。融合的特征將被用作距離組合模塊和軌跡初始化模塊的輸入。對于每個檢測,我們首先將其2D位置從世界坐標系映射到3D對象檢測器中間特征映射坐標系中的2D位置。從中間特征圖中提取的激光雷達點云特征。我們不再只提取特征圖中位于的單個特征向量,而是提取以為中心的相關 區(qū)域內的所有特征向量,以便利用更多的上下文信息。

然后將三維檢測邊界框投影到攝像機圖像平面上,從COCO [27]預訓練掩碼R-CNN[28]中提取相應的二維圖像特征。對于每個投影的2D邊界框,我們提取一個2D圖像特征,該特征將來自投影2D邊界框的RoIAlign特征的1024維向量和一個6D one-hot向量連接起來,該向量表示物體投射到哪個相機平面(在傳感器掃描的6個平面中)。

最后,我們通過多層感知器(MLP)和一個重塑操作將兩個特征向量合并:

其中個檢測的融合特征; 為2D特征; 為3D特征;表示MLP和圖1b所示的重塑操作。該MLP的隱藏大小為1536,輸出大小為4608,使用整流線性單元(ReLU)作為激活函數。注意,我們不單獨訓練這個特性融合模塊。相反,我們將其連接到距離組合模塊和軌跡初始化模塊,并使用這兩個模塊進行訓練。

C. 距離關聯模塊

該模塊為個檢測結果和個軌跡之間的數據關聯提供了一個可學習的距離度量。該度量結合了來自狀態(tài)估計以及外觀和幾何特征的信息。具體來說,我們設計了馬氏距離和深度特征距離的線性組合:

其中,表示馬氏距離矩陣,其中每個元素包含每個檢測結果和每個航跡預測狀態(tài)之間的距離;表示特征距離矩陣,其元素衡量每個檢測和每個航跡之間的特征不相似度,為合并系數矩陣,其形狀為。符號表示元素級乘積算子。常數作為線性組合的初始偏置項,幫助模型訓練更快地收斂。的每個元素的計算公式為:

其中,為第個檢測值,定義在方程4中,為線性觀測模型,為第軌預測狀態(tài)均值,為信息協(xié)方差矩陣,定義在方程6中。

采用如圖1c所示的兩階段神經網絡訓練方法,首先學習深度特征距離,然后學習系數矩陣,生成最終的聯合距離度量。

1)深度特征距離:網絡從個檢測和個軌跡的融合特征中學習一個的距離圖:

其中,如圖1c所示,表示一個核大小為,輸出通道大小為256的卷積層,后接一個ReLU層和一個隱藏大小為128的MLP層。我們將特征距離學習作為一個二分類問題來處理,并且我們用二進制交叉熵損失來訓練網絡。

其中是監(jiān)督匹配指示矩陣,其中0表示匹配的航跡-檢測特征對,1表示不匹配的特征對。由于每個航跡-檢測對沒有地物標注,如果前一幀中跟蹤框最靠近的地物框和當前幀中檢測框最靠近的地物框屬于同一個目標標識,且它們與最靠近的地物框的2D中心歐氏距離均小于2米,則將該對視為匹配。

2)組合系數:固定學習到的特征距離,然后訓練距離組合模塊的剩余部分來學習系數矩陣,從而根據每個深度特征距離的重要性來調整最終的距離D。

其中表示圖1c中的卷積層和MLP層。具有與相似的網絡結構,只是輸出信道大小不同。受PnPNet [4]的啟發(fā),我們結合最大間隔和對比損失來訓練這個模塊。對于一對正樣本和負樣本,我們定義其最大間隔損失如下:

其中為常數間隔,為正樣本的組合距離,為負樣本的組合距離,見公式8中的距離矩陣。整體的對比損失給出如下:

其中表示正的航跡檢測對集合,表示負的航跡檢測對集合。這種損失函數的設計鼓勵神經網絡通過調整的元素,學習為每個正軌檢測樣本生成一個小于任何負樣本的距離的距離。

為了在推理時也使用學習到的組合距離來舍棄不匹配的異常值,我們?yōu)檎龢颖炯拓摌颖炯x了另外兩個最大的邊際損失:

其中,表示固定的邊際,是用于在推理時舍棄不匹配的異常值的恒定閾值。這種損失函數的設計鼓勵神經網絡對任何正樣本產生一個小于閾值的距離,對任何負樣本產生一個大于的距離。

該神經網絡的總體訓練損失定義如下:

在我們的實現過程中,選擇,與[2]中使用的閾值相同。設置,大約是的一半。同時,我們設置,是的一半。

在測試時,一旦我們計算出綜合距離,我們就使用ProbabilisticTracking [2]的貪婪匹配算法進行數據關聯。

D.軌跡初始化模塊

軌跡生命周期管理是多目標跟蹤系統(tǒng)的另一個重要組成部分。大多數先前的工作要么總是為每個不匹配的檢測初始化一個新的軌跡[1],要么創(chuàng)建一個臨時軌跡,然后在將臨時軌跡轉換為完整的軌跡之前等待一個固定數量的連續(xù)匹配[2, 7, 8]。

與之前的啟發(fā)式方法不同,我們將軌跡初始化任務視為一個二元分類問題。我們提出了軌跡初始化模塊,該模塊將不匹配的檢測記過的融合特征 作為輸入,并就是否應該初始化一個新的軌跡生成一個輸出信度分數 :

其中, 表示圖1d中描述的卷積層、MLP和Sigmoid層。其卷積層與MLP層的結構與。我們使用交叉熵損失將訓練成一個二元分類器:

其中, 如果有一個接近檢測目標的地面真實物體,則;否則。在推理時間,如果大于0.5,我們會使用新的跟蹤器來初始化不匹配的檢測。這個軌跡初始化模塊幫助我們提出的跟蹤系統(tǒng)減少了假陽性軌跡的數量,如圖2所示。


Ⅳ實驗結果

A. 數據集

我們在NuScenes[9]和KITTI[10]數據集上評估我們的方法。NuScenes數據集包含1000個駕駛序列。每個序列的長度大約為20秒,包含以2Hz采樣的關鍵幀。我們遵循官方的數據分割設置,用700個序列訓練我們的模型,并報告150個驗證序列的結果。對于KITTI數據集,我們遵循GNN3DMOT[5]的分割設置,其中包含10個訓練序列和11個驗證序列。在所有的實驗中,我們通過使用Adam[29]優(yōu)化器來訓練我們的模塊,初始學習率為0.001,歷時10個周期。

B.評估指標

為了評估我們的算法性能,我們使用平均多目標跟蹤精度(Average Multi-Object Tracking Accuracy, AMOTA),這也是NuScenes跟蹤挑戰(zhàn)(The NuScenes Tracking Challenge [9])中使用的主要評估指標。AMOTA是不同召回閾值下的跟蹤精度平均值,定義如下:

其中為采樣點數,是抽樣召回閾值。MOTAR (Recall-Normalized Multi-Object Tracking Accuracy) 是召回歸一化多目標跟蹤精度,定義如下:

其中為真陽性數,為身份開關數,為假陽性數,為假陰性數。

對于KITTI [10],我們還報告了標準的多目標跟蹤精度(Multi-Object Tracking Accuracy, MOTA),定義如下:

其中是在單一最佳召回閾值采樣的身份開關、假陽性和假陰性的數量。

C.定量結果

我們在表Ⅰ中報告了我們的方法在NuScenes驗證集中驗證的結果。我們提出的跟蹤方法使用CenterPoint[1]在每幀的3D對象檢測結果作為卡爾曼濾波器的輸入。為了與最先進的方法[1, 2, 7]進行公平的比較,我們還將我們的跟蹤方法在僅使用激光雷達作為輸入時的定量結果包括了進去。從表Ⅰ可以看出,輸入檢測的質量對最終的跟蹤性能至關重要。在NuScenes檢測挑戰(zhàn)[9]中,CenterPoint [1]提供了比MEGVII [15]更好的3D對象檢測結果。

從表Ⅰ的最后兩行可以看出,當只使用完全相同的3D激光雷達輸入時,我們的跟蹤方法優(yōu)于CenterPoint [1]和ProbabilisticTracking [2]。我們的模型能夠使用3D激光雷達點云數據學習細粒度的幾何特征,并且我們的模型還成功地學習了幾何特征距離和馬氏距離的有效聯合權重。此外,通過融合來自激光雷達和圖像數據的特征,我們的方法可以進一步提高整體AMOTA,與之前最先進的CenterPoint [1]相比,性能提高了2.8。這一性能增益表明,我們的模型能夠學習如何有效地將3D 激光雷達點云信息和2D相機圖像信息輸入融合在一起,以實現更好的整體跟蹤精度。然而,我們的模型并沒有實現對行人跟蹤的顯著改善。這可能是由于每個行人的外形和幾何特征隨著時間的推移會發(fā)生巨大變化,因為他們的姿勢會發(fā)生變化,而其他對象沒有變形。

我們還將我們的模型與其他多模式跟蹤模型進行了比較:GNN3DMOT [5]和PnPNet [4]在NuScenes [9]中的驗證結果(表Ⅱ)和KITTI [10]中的驗證結果(表Ⅲ)。

表I:NuScenes [9]驗證集的評估結果。與基線方法相比,根據每個目標類別的總體AMOTA和單個AMOTA進行評估。在每一列中,獲得的最佳結果都用粗體字顯示。(*通過使用[2]的開源代碼和[1]的對象檢測結果實現的。)

圖片


表II:NuScenes [9]驗證集的評估結果,整體AMOTA和汽車AMOTA的評估。GNN3DMOT [5]僅報告了整體AMOTA,PnPNet[4]僅報告汽車的AMOTA。注意,每種方法使用一個不同的3D目標檢測器,這可能會顯著影響跟蹤精度。(*GNN3DMOT [5]在他們的論文中將AMOTA重命名為sAMOTA。)

圖片


表III:KITTI [10]驗證集的評估結果,汽車AMOTA和MOTA方面的評估。我們遵循[5],使用Point R-CNN [11] 3D目標檢測器和相同的訓練驗證數據劃分。(*GNN3DMOT [5]在他們的論文中將AMOTA重命名為sAMOTA)

圖片


D.消融研究

我們提供了不同可訓練模塊的消融分析,以更好地理解它們對整體系統(tǒng)性能的貢獻:距離組合模塊、軌跡初始化模塊和特征融合模塊。我們在表Ⅳ中報告了我們的結果。我們注意到,距離組合模塊和軌跡初始化模塊在基線上產生了一致的改進,在同時啟用這兩個模塊時達到了最高的性能點。此外,在融合2D和3D特征時,我們記錄了性能的持續(xù)增長,這使我們可以得出結論,我們的模型成功地學會了如何利用外觀和幾何特征。

表IV:NuScenes [9]驗證集的消融試驗結果。與我們提出的方法的變體相比,根據每個對象類別的整體AMOTA和單個AMOTA進行評估。所有變體都使用CenterPoint [1]的對象檢測結果作為輸入。在每一列中,獲得的最佳結果都用粗體字顯示。

圖片


圖片

(a) 輸入的檢測

圖片

(b)CenterPoint [1]

圖片

(c) 我們提出的方法

圖片

(d) 真值

圖2:摩托車的鳥瞰跟蹤結果可視化。我們繪制了每個子圖中相同駕駛序列的每個幀的邊界框,不同的顏色表示跟蹤結果中不同的跟蹤id,同時表示真值標注中目標的不同實例。(a):輸入是CenterPoint [1]的對象檢測器提供的檢測邊界框。(b):CenterPoint [1]的跟蹤結果。(c):我們提出的方法的跟蹤結果。(d):真實值。與CenterPoint [1]的結果相比,我們的跟蹤結果明顯具有更少的假陽性邊界框,我們的追蹤結果也更接近于真值。

圖片

(a) 序列0, 幀1

圖片

(b) 序列0, 幀2

圖片

(c) 序列1, 幀28

圖片

(d) 序列, 幀29

圖3:投影到攝像機圖像的摩托車跟蹤可視化。(a) 、(b)是序列0中的兩個連續(xù)幀,(c)、(d)來自序列1。彩色框是跟蹤結果,不同的顏色表示不同的跟蹤id,白色框表示檢測結果。我們的模型可以準確跟蹤序列0中紅色邊界框和序列1中黃色邊界框中的摩托車。在序列0中,我們的距離組合模塊學習生成更大的正α值為2.594,這可能是因為外觀特征提供了強大的信息,以匹配這些連續(xù)幀中檢測到的摩托車。在序列1中,我們的模型生成了更小α值為1.802,這可能是因為邊界框更小,圖像更模糊。我們的軌道初始化模塊也正確地決定了不對序列1幀28中的假陽性檢測初始化新的跟蹤。

E.定性結果

如表I所示,我們注意到特定類別的顯著改善(如:摩托車類別超過10%)。在圖2中,我們繪制了BEV上相同駕駛序列的每一幀中摩托車的邊界框,不同顏色的圖像表示不同的跟蹤id,并與方法[1]進行比較。從圖2可以看出,與[1]相比,我們的跟蹤結果具有明顯更少的假陽性邊界框。方法CenterPoint [1]依賴于中心歐幾里德距離,任何不匹配的檢測框總是被初始化為新的跟蹤。相反,我們的跟蹤初始化模塊被設計為基于3D激光雷達和2D圖像特征的融合來決定是否初始化新的跟蹤。此外,我們的方法使用卡爾曼濾波器基于過去的觀測來細化邊界框位置、方向和尺度,而[1]直接使用潛在噪聲檢測框作為跟蹤結果,而不使用過去的觀測。

雖然我們在數量上記錄到,與CenterPoint [1]相比,摩托車類的AMOTA增加了11.0%,但從質量上來說,這意味著假陽性跟蹤的數量顯著減少,雖然AMOTA度量沒有過多懲罰,但這對決策至關重要。定性和定量結果之間的差異背后的主要原因是,大多數假陽性跟蹤是由具有低置信分數的假陽性檢測框組成的。AMOTA開始從那些具有較高置信分數的人身上取樣,因此,大量置信度低的假陽性跟蹤不會對AMOTA產生太大影響(有關AMOTA的詳細信息,請參考[9])。

圖3顯示了我們將摩托車投影到相機圖像上的結果。(a),(b)是序列0中的兩個連續(xù)幀。(c),(d)來自序列1。白色框表示檢測框,彩色框表示用彩色編碼的跟蹤ID的跟蹤結果。我們的模型在兩個序列中都能精確跟蹤摩托車,在序列0中,我們的距離組合模塊對履帶摩托車預測出了一個較大的正α值為2.594,代表一個可靠的特征距離。這是可以預期到的,因為在2D圖像中對應的對象很大且可以清晰地捕捉到。在對象較小且模糊的序列1中,模塊預測了一個較小的α值為1.802。此外,我們的跟蹤初始化模塊還正確地決定了不對序列1幀28中的假陽性檢測初始化新的跟蹤。


Ⅴ結論

在本文中,我們提出了一種用于自動駕駛的在線概率、多模態(tài)、多目標跟蹤算法。我們的模型學習融合2D相機圖像和3D激光雷達點云特征。然后,這些融合的特征被用于學習有效的權重,以將深度特征距離與Mahalanobis距離相結合,從而獲得更好的數據關聯。我們的模型還學習以數據驅動的方式管理跟蹤循環(huán)周期。我們在NuScenes [9]KITTI [10]數據集上驗證了我們提出的方法,我們的方法在定量和定性上都優(yōu)于使用相同目標檢測器的最先進的基準方法。

對于未來的工作,我們希望包括額外的模式(如:地圖數據)以及新型物體檢測器。同時,每個類別學習更好的運動模型也有可能進一步改善數據關聯。最后,我們或許可以利用可微濾波框架端到端地微調運動和觀測模型。



參考文獻

圖片

圖片
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25