日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

論文推薦 | 自動駕駛軌跡預(yù)測二十年發(fā)展全面回顧

2022-11-26 20:09:11·  來源:自動駕駛之心  
 
摘要為了在動態(tài)環(huán)境中安全駕駛,自動駕駛車輛應(yīng)該能夠預(yù)測附近交通參與者的未來狀態(tài),尤其是周圍車輛,類似于人類駕駛員的預(yù)測駕駛能力。這就是為什么研究人員致力于軌跡預(yù)測領(lǐng)域并提出不同的方法。本文旨在對過去二十年中提出的自動駕駛軌跡預(yù)測方法進(jìn)行全面

摘要

為了在動態(tài)環(huán)境中安全駕駛,自動駕駛車輛應(yīng)該能夠預(yù)測附近交通參與者的未來狀態(tài),尤其是周圍車輛,類似于人類駕駛員的預(yù)測駕駛能力。這就是為什么研究人員致力于軌跡預(yù)測領(lǐng)域并提出不同的方法。本文旨在對過去二十年中提出的自動駕駛軌跡預(yù)測方法進(jìn)行全面和比較性的回顧?。。∷鼜膯栴}公式和算法分類開始。然后,詳細(xì)介紹和分析了基于物理、經(jīng)典機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的流行方法。最后,論文評估了每種方法的性能,并概述了潛在的研究方向。

自動駕駛越來越受到學(xué)術(shù)界和工業(yè)界的關(guān)注[1],因為它可以解決與安全、擁堵、節(jié)能等相關(guān)的許多長期交通挑戰(zhàn)[2],[3]。近年來,我們見證了自動駕駛汽車(autonomous vehicles,AV)感知、規(guī)劃和控制系統(tǒng)的快速發(fā)展。然而,只有自動駕駛的安全性得到驗證,AV的量產(chǎn)才會成為現(xiàn)實。為了進(jìn)一步提高安全性,最關(guān)鍵的技術(shù)之一是AV應(yīng)該能夠像人類駕駛員一樣實時預(yù)測周圍環(huán)境的未來狀態(tài)。

當(dāng)人類駕駛車輛時,他/她通常會觀察周圍的交通參與者,并在開始新的駕駛操作(例如加速或變道)之前預(yù)測他們的未來狀態(tài)。交通參與者的未來狀態(tài)可以用未來軌跡表示,用于提前檢測潛在危險,并用于設(shè)計決策或規(guī)劃算法,如圖1所示。然而,由于交通參與者的不同策略、交通參與者與環(huán)境之間的復(fù)雜交互、感官信息的不確定性,AV的計算負(fù)擔(dān)和計算時間要求,如何準(zhǔn)確預(yù)測交通參與者的未來軌跡正引起人們的關(guān)注,并成為提高自動駕駛安全性的關(guān)鍵點之一。

圖片

許多研究人員致力于軌跡預(yù)測領(lǐng)域,并提出了許多有用的方法。幾篇綜述論文討論了軌跡預(yù)測技術(shù)的一部分。Lefèvre等人[4]對2014年之前AV的運動預(yù)測和風(fēng)險評估的現(xiàn)有方法進(jìn)行了調(diào)查。這些方法大多是經(jīng)典的,但已過時。Mohammad等人[5]回顧了基于駕駛員操作的交叉口行為預(yù)測方法。Mozaffari等人[6]于2019年對基于深度學(xué)習(xí)的車輛行為分析方法進(jìn)行了回顧。其描述了不同的標(biāo)準(zhǔn),僅根據(jù)輸入和輸出信息對部分流行方法進(jìn)行分類,但不涉及一些最新發(fā)布的方法。最近的兩篇綜述[7]、[8]同樣關(guān)注AV的軌跡預(yù)測,但[7]的參考文獻(xiàn)提供了關(guān)于跟蹤和軌跡預(yù)測的綜述,其中僅包含使用深度學(xué)習(xí)的方法和使用隨機(jī)技術(shù)的方法,而[8]的參考文獻(xiàn)僅介紹了深度學(xué)習(xí)方法。其他調(diào)查[9]、[10]使用視覺信息檢測異常行為,參考文獻(xiàn)[11]、[12]調(diào)查人體運動預(yù)測,這與本文的主題明顯不同。

因此,論文全面回顧了過去二十年中提出的AV軌跡預(yù)測方法。本文選擇啟發(fā)式和最先進(jìn)的軌跡預(yù)測方法進(jìn)行一段時間的比較和總結(jié)。請注意,預(yù)測方法中使用的歷史軌跡信息可以從感知系統(tǒng)[13]和V2X[14]中獲得,基于視覺的方法不是本綜述的重點。由于交通參與者,例如周圍車輛,直接影響自車,本文主要研究車輛的軌跡預(yù)測方法。如圖2所示,本文將分別回顧基于物理的方法、經(jīng)典的基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法和基于強(qiáng)化學(xué)習(xí)的方法。本文的主要貢獻(xiàn)總結(jié)如下:

  • 詳細(xì)回顧了基于物理、經(jīng)典機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的AV流行軌跡預(yù)測方法;

  • 詳細(xì)總結(jié)了用于評估方法性能的指標(biāo)和數(shù)據(jù)集;

  • 討論了每種方法的優(yōu)缺點,并概述了潛在的研究方向。

圖片

軌跡預(yù)測方法的問題定義與分類

問題定義

軌跡預(yù)測問題可以表示為使用給定場景中交通參與者的過去狀態(tài)來估計其未來狀態(tài)。AV或路側(cè)單位觀察到的交通參與者(例如車輛)的歷史狀態(tài)為:

圖片

對于大多數(shù)軌跡預(yù)測方法,僅包含車輛的坐標(biāo)信息,定義如下:

圖片

對于其他方法,還可能包含速度、加速度、方向等信息。模型的輸出定義如下:

圖片

方法分類

圖片

AV、輸入和輸出的軌跡預(yù)測方法分類如圖2所示。此外,圖3展示了軌跡預(yù)測的輸入和輸出因素。

  • 預(yù)測方法:根據(jù)不同的建模方法,過去二十年的預(yù)測方法可以分為四個部分:基于物理的方法、基于經(jīng)典機(jī)器學(xué)習(xí)的方法、深度學(xué)習(xí)的方法和基于強(qiáng)化學(xué)習(xí)的方法,如圖2所示;

  • 情景因素:由于軌跡預(yù)測方法通常需要根據(jù)當(dāng)前環(huán)境下的歷史軌跡對未來狀態(tài)進(jìn)行建模,因此應(yīng)考慮一些因素。本研究將這些因素分為三類:物理相關(guān)因素、道路相關(guān)因素和交互相關(guān)因素。

    • 物理相關(guān)因素是指車輛的動力學(xué)和運動學(xué)因素;

    • 道路相關(guān)因素包括地圖信息建模和相應(yīng)的交通規(guī)則;

    • 交互相關(guān)因素包括社會規(guī)則和車輛操控之間的相互依賴性。

  • 輸出類型:軌跡預(yù)測方法需要提供交通參與者的未來軌跡,可以是單模態(tài)的,也可以是多模態(tài)的。此外,一些方法還提供了交通參與者的行為意圖。因此,根據(jù)輸出類型,預(yù)測算法可以分為以下三類。

    • 單模態(tài)軌跡:預(yù)測方法輸出單個或多個交通參與者的未來軌跡;

    • 多模態(tài)軌跡:預(yù)測方法利用每個未來軌跡的概率為交通參與者生成多模態(tài)未來軌跡;

    • 交互:預(yù)測方法輸出行為意圖以幫助預(yù)測。意圖可以是最終輸出的一部分,也可以只是方法的中間步驟。

基于物理的方法

基于物理的方法采用車輛動力學(xué)或運動學(xué)模型。通常,它們包括單軌跡方法、卡爾曼濾波方法和蒙特卡羅方法,如圖4所示。

圖片

A.物理模型

物理模型包括動力學(xué)模型和運動學(xué)模型。動力學(xué)模型可能變得非常復(fù)雜,包括許多固有參數(shù),但復(fù)雜的動力學(xué)模型在預(yù)測精度方面帶來了小的增益,并引入了額外的計算負(fù)擔(dān),因此對于軌跡預(yù)測來說,簡單的動力學(xué)模型是首選的。在預(yù)測任務(wù)中,車輛通常被視為自行車模型,由前輪驅(qū)動[17]-[19]。

由于結(jié)構(gòu)簡單,運動學(xué)模型比動力學(xué)模型更常用。常用的包括恒定速度(CV)和恒定加速度(CA)模型[15]、[20]、[21]、恒定轉(zhuǎn)彎速率和速度(CTRV)和恒轉(zhuǎn)彎速率和加速度(CTRA)模型[22]、[23]、恒定轉(zhuǎn)向角和速度(CSAV)以及恒轉(zhuǎn)向角和加速度(CSAA)模型[24]等。

B.單軌跡方法

預(yù)測車輛軌跡的一種簡單方法是將車輛的當(dāng)前狀態(tài)直接應(yīng)用于物理模型。該方法適用于動力學(xué)模型[17]–[19],[25]和運動學(xué)模型[22],[26],[27]。在[25]中,線性自行車模型用于避免碰撞,而Lytrivis等人[22]和Miller等人[26]分別使用CTRA模型和CV模型。該方法的優(yōu)點在于計算效率高,適用于約束較小的應(yīng)用。然而,他們無法考慮道路相關(guān)因素,當(dāng)前狀態(tài)的不確定性對于長期預(yù)測是不可靠的。

C.卡爾曼濾波方法

單軌跡方法假設(shè)車輛的狀態(tài)完全已知,沒有噪聲。相比之下,卡爾曼濾波(KF)方法能夠處理此類噪聲,這些噪聲通過高斯分布對當(dāng)前車輛狀態(tài)及其物理模型的不確定性或噪聲進(jìn)行建模[28]。將預(yù)測和更新步驟組合成一個循環(huán),可以獲得每個未來時間步長的車輛狀態(tài)的平均值和協(xié)方差矩陣,計算為具有相關(guān)不確定性的平均軌跡[15],[24]。

與以前的方法相比,其優(yōu)點是考慮了預(yù)測軌跡的不確定性。然而,單峰高斯分布不足以表示不同的操作,因此Kaempchen等人[28]提出了交互多模型(IMM)來輸出多模態(tài)軌跡。切換卡爾曼濾波器(SKF)[29]依賴于一組卡爾曼濾波器,用于描述車輛的物理模型并在它們之間切換[28],[30]。Zhang等人參考文獻(xiàn)[31]提出了一種基于車對車通信和KF的方法,使主車輛能夠預(yù)測遠(yuǎn)程車輛的軌跡以避免障礙物。最近,Lefkopoulos等人[32]提出了一種稱為交互多模型卡爾曼濾波器(IMM-KF)的新方法,該方法考慮了交互相關(guān)因素。所提出的方法使用基于物理的模型來預(yù)測交通參與者多秒的軌跡。

D.蒙特卡洛方法

通常,在沒有任何線性或模型高斯性質(zhì)假設(shè)的情況下,預(yù)測狀態(tài)分布的解析表達(dá)式通常是未知的。蒙特卡羅方法可以近似模擬狀態(tài)分布。它隨機(jī)采樣輸入變量,并應(yīng)用物理模型生成潛在的未來軌跡。為了確保機(jī)動的可行性,可以使用低于實際允許橫向加速度的橫向加速度來過濾生成的軌跡樣本[16],或者可以在物理模型中考慮車輛的物理限制,從而使模型的輸入更加真實[33]。蒙特卡羅方法可用于從完全已知的狀態(tài)或通過濾波算法估計的不確定狀態(tài)預(yù)測交通參與者的軌跡。Okamoto等人[34]提出了一種基于策略的模型,該模型應(yīng)用蒙特卡羅方法通過確定的策略來預(yù)測未來的軌跡。Wang等人[35]使用蒙特卡羅方法預(yù)測軌跡,并利用MPC優(yōu)化參考軌跡。

E.總結(jié)

基于物理的方法利用物理模型以相對較低的計算資源完成軌跡預(yù)測。根據(jù)前文所述的分類方法,本文對基于物理的方法進(jìn)行了分類,如表I所示。基于物理的是研究人員使用的第一種最簡單的方法。盡管這些方法的精度相對較低,但越來越多的模型使用基于物理的模型的思想來提高精度。當(dāng)車輛的運動可以通過運動學(xué)或動力學(xué)模型準(zhǔn)確描述時,基于物理的方法具有更準(zhǔn)確的結(jié)果,但交通參與者的物理模型不斷變化,因此大多數(shù)這些方法僅適用于短期預(yù)測(不超過1s)。使用一個或多個物理模型可以快速獲得交通參與者的未來軌跡,但物理模型的選擇和它們之間的切換將帶來明顯的預(yù)測誤差。解決這個問題的一種方法是考慮相互作用相關(guān)因素,如IMM-KF[32]。為了達(dá)到SOTA,基于物理的方法可能需要與基于學(xué)習(xí)的方法相結(jié)合,如參考文獻(xiàn)[36],該文獻(xiàn)使用基于學(xué)習(xí)的判別器來提取交互信息并生成基于模型的軌跡。

圖片

經(jīng)典的基于機(jī)器學(xué)習(xí)的方法

與使用多種物理模型的基于物理的方法不同,基于機(jī)器學(xué)習(xí)的方法應(yīng)用數(shù)據(jù)驅(qū)動模型來預(yù)測軌跡。根據(jù)大量文獻(xiàn),基于經(jīng)典機(jī)器學(xué)習(xí)的AV軌跡預(yù)測方法包括高斯過程(GP)、支持向量機(jī)(SVM)、隱馬爾可夫模型(HMM)、動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)、K最近鄰(KNN)、決策樹等。由于經(jīng)典機(jī)器學(xué)習(xí)中最常用的方法是GP、SVM、HMM、DBN,本節(jié)將主要介紹這些方法。

A.高斯過程

原型軌跡法是一種基于策略的方法,它將車輛的軌跡劃分為幾種類型的原型軌跡的集合。該模型測量歷史軌跡和原型集之間的相似性,以預(yù)測可能的軌跡。高斯過程(GP)[37]是原型軌跡方法[38]–[40]中使用的有效手段。

當(dāng)GP用于預(yù)測軌跡時,軌跡被視為GP的樣本,沿時間軸采樣。樣本由N個離散點表示以映射到N維空間。之后,樣本滿足N維空間中的N維高斯分布。因此,GP模型在建模階段的主要任務(wù)是通過樣本確定GP的參數(shù)。在[41]中,HMM用于估計可能的行為,然后GP用于預(yù)測軌跡。GP還可以用于建模交互相關(guān)因素,Trautman等人[42]使用GP進(jìn)行關(guān)節(jié)碰撞避免,以解決凍結(jié)機(jī)器人問題。Guo等人[43]應(yīng)用GP和Dirichlet過程(DP)來定義運動過程,并應(yīng)用非參數(shù)貝葉斯網(wǎng)絡(luò)來提取潛在的運動模式。

對于基于原型軌跡的方法,每個軌跡可以通過訓(xùn)練由原型集表示。因此,這些方法之間的主要區(qū)別在于如何構(gòu)建原型軌跡。Govea等人[44]通過統(tǒng)計計算所有軌跡樣本的平均值和方差來獲得原型軌跡。Hermes等人[45]將樣本軌跡劃分為若干子集,并在訓(xùn)練后獲得若干原型軌跡,以反映車輛運動變化。然而,很難將這些模型推廣到其他場景,因為基于軌跡樣本的方法僅針對特定場景進(jìn)行訓(xùn)練。

B.支持向量機(jī)

支持向量機(jī)(SVM)可以在復(fù)雜環(huán)境中學(xué)習(xí)和識別駕駛員的操作。SVM的關(guān)鍵是找到滿足分類要求的支持向量,并確定能夠最大化分類數(shù)據(jù)間隔的最優(yōu)超平面。當(dāng)應(yīng)用于軌跡預(yù)測問題時,駕駛機(jī)動通常被定義為幾類:左轉(zhuǎn)、右轉(zhuǎn)、保持直線等。然后,它使用核函數(shù)將輸入數(shù)據(jù)轉(zhuǎn)換為高維,并在空間中進(jìn)行線性分類,以找到駕駛策略,從而預(yù)測軌跡。

Mandalia等人[46]首先將SVM應(yīng)用于識別車道變化策略,使用方向盤角度、位置和加速度等特征進(jìn)行識別。由于SVM可以輸出分類概率的特征,Kumar等人[47]提出了一種結(jié)合SVM和貝葉斯濾波的分層結(jié)構(gòu)方法,以識別變道策略,從而獲得更準(zhǔn)確的識別結(jié)果。在[48],[49]中,SVM用于識別交通參與者的策略。因此,SVM可以識別車輛的策略,但SVM需要提前定義駕駛員的策略,預(yù)設(shè)的策略也會影響最終的預(yù)測結(jié)果。

C.隱馬爾可夫模型

SVM在分類問題上很有效,但在軌跡預(yù)測方面不如隱馬爾可夫模型(HMM)有效。HMM是最流行的基于機(jī)器學(xué)習(xí)的軌跡預(yù)測方法之一。HMM也是一種使用馬爾可夫鏈的基于策略的方法。馬爾可夫鏈?zhǔn)侵敢粋€包含有限事件的過程,系統(tǒng)在時間t+1的狀態(tài)僅與前一時間t有關(guān),狀態(tài)轉(zhuǎn)移概率與時間無關(guān)。數(shù)學(xué)表達(dá)式為:

圖片

在現(xiàn)實生活中,我們只能觀察暴露在表面上的獨特狀態(tài),但不存在其隱藏狀態(tài)的直觀表示。因此,有必要建立具有隱藏狀態(tài)的馬爾可夫過程,并通過與隱藏狀態(tài)概率相關(guān)的可觀察狀態(tài)集來獲得事件的基本狀態(tài),這就是所謂的隱馬爾可夫模型。HMM由(S,O,A,B,π)[50]表示,如圖5所示:

圖片

圖片

當(dāng)HMM用于軌跡預(yù)測時,交通參與者的歷史狀態(tài)由觀測序列O表示,HMM求解最可能的未來觀測序列。Holger等人[52]使用轉(zhuǎn)向角和全局坐標(biāo)作為HMM的輸入來預(yù)測駕駛員的操作?;贖MM,喬等人[53]提出了一種稱為HMTP*的算法,該算法自適應(yīng)地選擇參數(shù),以動態(tài)變化的速度模擬真實場景。在[51]中,HMM結(jié)合模糊邏輯用于駕駛員策略預(yù)測。此外,HMM可以集成到?jīng)Q策和規(guī)劃系統(tǒng)中。在[54]中,HMM用于軌跡預(yù)測和風(fēng)險評估,并將結(jié)果輸入決策和規(guī)劃系統(tǒng)。

盡管傳統(tǒng)的HMM方法在預(yù)測駕駛員操作方面取得了巨大成功,但它們在預(yù)測過程中沒有考慮交互相關(guān)因素的影響,因此其預(yù)測結(jié)果在實際交通場景中不夠準(zhǔn)確。Deo等人[55]提出了一種基于HMM和考慮相互作用相關(guān)因素的變分高斯混合模型(GMM)的車輛軌跡預(yù)測模型。通過找到能量函數(shù)的最優(yōu)解來獲得車輛相互作用信息。Zhang等人[56]提出了一種基于博弈論的GMM-HMM策略預(yù)測模型,考慮了交互感知因素。

D.動態(tài)貝葉斯網(wǎng)絡(luò)

為了提高軌跡預(yù)測的準(zhǔn)確性,預(yù)測模型應(yīng)至少考慮車輛狀態(tài)和交通參與者之間的交互作用。Koller等人[57]提到的動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)可以對這種交互進(jìn)行建模。DBN是一種基于策略的方法,使用貝葉斯網(wǎng)絡(luò)并考慮時間序列。DBN的基本概念和概率推理與貝葉斯網(wǎng)絡(luò)相同。不同的是,貝葉斯網(wǎng)絡(luò)描述了靜態(tài)系統(tǒng),而Kevin等人[58]引入了時間模板的概念來解決概率模型中的時序問題。時間段是指根據(jù)DBN具體化的時間模板,它將連續(xù)時間離散為具有預(yù)設(shè)時間粒度的可計數(shù)點。

通常,預(yù)設(shè)的時間粒度應(yīng)與實際狀態(tài)采集頻率一致,DBN根據(jù)傳感器采樣頻率作為時間段進(jìn)行訓(xùn)練。此外,DBN的推理和學(xué)習(xí)方法需要轉(zhuǎn)化為貝葉斯網(wǎng)絡(luò)才能直接應(yīng)用。貝葉斯網(wǎng)絡(luò)常用的推理方法包括變量消除法、團(tuán)樹算法和采樣算法。貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)方法包括最大似然估計、貝葉斯估計、EM算法等。此外,存在用于高復(fù)雜度DBN的特殊推理方法,如前向和后向推理方法[65]。

DBN的架構(gòu)包括行為層、隱藏層和觀察層,如圖6所示。行為層表示網(wǎng)絡(luò)的輸入信息,觀察層表示駕駛員的操作。使用這種架構(gòu),Gindele等人[59]對多輛車的駕駛策略進(jìn)行了建模。輸入信息包括所有車輛狀態(tài)、車輛相互作用關(guān)系、道路結(jié)構(gòu)、觀察狀態(tài)等。Schreier等人[60]應(yīng)用DBN來判斷駕駛策略,并利用與每個駕駛策略相對應(yīng)的運動學(xué)模型來預(yù)測軌跡。在[61]中,通過博弈論預(yù)測車輛策略,然后通過考慮相互作用相關(guān)因素的DBN判斷車輛運動。He等人[62]使用DBN識別車輛跟隨和變道策略,并預(yù)測變道的軌跡。在[63]中,DBN被設(shè)計為考慮物理相關(guān)因素、道路相關(guān)因素和相互作用相關(guān)因素。Li等人[64]將DBN與端到端模型相結(jié)合來預(yù)測行人軌跡,其中DBN用于提取交通參與者的特征和動態(tài)信息,端到端的模型將預(yù)測問題視為一個時序生成問題來生成預(yù)測軌跡。

圖片

當(dāng)應(yīng)用于軌跡預(yù)測時,DBN對交通參與者之間的交互作用進(jìn)行建模,并在經(jīng)典的基于機(jī)器學(xué)習(xí)的方法中表現(xiàn)良好。作為基于策略的方法,DBN模型獲得了較高的識別性能,并已在多個真實世界測試中使用[66]。然而,DBN仍然面臨從識別策略到生成軌跡的誤差問題。許多方法只能判斷兩到三次策略,如車道保持和變道,模型的泛化能力不強(qiáng)。

E.總結(jié)

總之,經(jīng)典的基于機(jī)器學(xué)習(xí)的方法通過挖掘數(shù)據(jù)特征來確定概率分布,如表II所示。經(jīng)典的基于機(jī)器學(xué)習(xí)的方法為軌跡預(yù)測提供了新的思路,促進(jìn)了基于學(xué)習(xí)的方法的發(fā)展。隨著需要考慮的因素越來越多,這些方法的準(zhǔn)確性不斷提高,有助于軌跡預(yù)測。這些方法大多是基于策略的方法,可以通過首先判斷策略來預(yù)測未來的軌跡。在這些方法中,通常需要提前提供或識別相關(guān)策略。

圖片

基于深度學(xué)習(xí)的方法

大多數(shù)傳統(tǒng)的預(yù)測方法只適用于簡單的預(yù)測場景和短時預(yù)測任務(wù)。最近,基于深度學(xué)習(xí)的軌跡預(yù)測方法越來越流行,因為它們不僅可以考慮物理相關(guān)因素和道路相關(guān)因素,還可以考慮交互相關(guān)因素,并適應(yīng)更復(fù)雜的場景。這些方法的一般描述如圖7所示。在下文中,本文總結(jié)了當(dāng)前流行的基于深度學(xué)習(xí)的AV軌跡預(yù)測方法。

圖片

A.序列網(wǎng)絡(luò)

序列網(wǎng)絡(luò)用于提取歷史軌跡的特征,并可用作輸出層。基于深度學(xué)習(xí)的軌跡預(yù)測序列網(wǎng)絡(luò)主要包括遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和注意力機(jī)制(AM)。

RNN

與經(jīng)典的基于機(jī)器學(xué)習(xí)的方法和可以有效處理空間信息的CNN不同,RNN設(shè)計用于處理時序信息[67],[68]。它存儲先前時間步長的信息,并利用隱藏狀態(tài)和輸入來確定輸出,如圖8所示。然而,在實際應(yīng)用中,發(fā)現(xiàn)當(dāng)時間步長數(shù)量較大時,RNN的梯度更可能衰減或爆炸。Gated RNN,例如LSTM和門控遞歸單元(GRU)可以解決這個問題。使用RNN的軌跡預(yù)測模型可以分為單個RNN模型和多個RNN模型。

圖片

單個RNN用于基于策略和單模態(tài)軌跡預(yù)測,或應(yīng)用于其他輔助模型以支持更復(fù)雜的功能,例如交互感知預(yù)測。[69]–[71]中使用LSTM作為序列分類器來預(yù)測車輛的機(jī)動。為了實現(xiàn)這一目標(biāo),LSTM的單元提取車輛特征,最后一個單元的隱藏狀態(tài)將被饋送到輸出層以預(yù)測策略。其他相關(guān)算法[69]-[78]可以參考論文。

多個RNN架構(gòu)被廣泛使用。Dai等人[79]使用兩組LSTM網(wǎng)絡(luò)預(yù)測目標(biāo)車輛的軌跡。一組用于模擬周圍車輛的軌跡,另一組用于建模周圍車輛之間的相互作用。其他相關(guān)算法[80]-[87]可以參考論文。

CNN

最近,CNN在許多任務(wù)中取得了成功,如計算機(jī)視覺[88]、[89]和機(jī)器翻譯[90]。此外,Nikhil等人[91]認(rèn)為,使用CNN預(yù)測軌跡優(yōu)于RNN,因為軌跡具有很強(qiáng)的時空連續(xù)性。他們將序列應(yīng)用于序列結(jié)構(gòu),將歷史軌跡作為輸入,通過將卷積層堆疊在全連接層之后來實現(xiàn)時間連續(xù)性,并通過全連接層輸出未來軌跡。實驗表明,使用這種基于CNN的網(wǎng)絡(luò)運行得更快。使用CNN處理軌跡信息的一般方法如圖9所示。其他相關(guān)算法[92]-[101]可以參考具體論文。

圖片

CNN和RNN結(jié)合

RNN能夠提取時間特征,非常適合處理時序信息;而CNN能夠提取包括交通參與者之間的交互相關(guān)因素在內(nèi)的空間特征。這啟發(fā)了一些研究人員使用RNN和CNN的組合來處理時間和空間信息以進(jìn)行軌跡預(yù)測。Deo等人[102]使用LSTM編碼器提取周圍車輛的時間信息,然后將其饋送到social pooling[103]以形成social張量。在本研究中,social pooling在空間光柵化后捕獲車輛之間的交互相關(guān)因素,然后將social張量饋送到一組CNN以學(xué)習(xí)車輛的空間相關(guān)性。最后,六個LSTM解碼器用于生成六種特定策略的分布,其中包括三種橫向策略(左變道、右變道和保持車道)和兩種縱向策略(剎車、正常速度)。然后它找到具有最高概率的策略并預(yù)測其未來軌跡。其他相關(guān)算法有[104]-[105]。

為了更好地預(yù)測軌跡,研究人員引入高精(HD)地圖信息,使預(yù)測的軌跡更接近真實軌跡[106]。高精地圖通常包括柵格地圖和矢量地圖,它們包含關(guān)于道路的語義信息,并可以指示線段。一些方法使用CNN從光柵地圖中提取場景上下文信息,以考慮道路相關(guān)因素和交互相關(guān)因素。因為使用CNN處理光柵地圖的方法屬于感知系統(tǒng)的范疇,這不是重點。因此,本文將簡要解釋從柵格地圖獲得語義特征后的軌跡預(yù)測過程。經(jīng)典算法包含DESIRE[107],使用隨機(jī)1-step策略。Hong等人[108]使用ConvNets對語義特征進(jìn)行編碼,以預(yù)測車輛行為?;贑onvNets,Chai等人[109]通過無監(jiān)督學(xué)習(xí)找到軌跡anchor,使用GMM和語義特征來訓(xùn)練他們的模型。

注意力機(jī)制

注意力機(jī)制允許人類使用有限的注意力資源,從大量信息中快速過濾出高價值信息。深度學(xué)習(xí)中的注意力機(jī)制(AM)模仿了人類的思維方式,廣泛用于各種類型的深度學(xué)習(xí)任務(wù),如自然語言處理(NLP)、圖像分類和語音識別[110]–[112]。AM通常用于軌跡預(yù)測任務(wù)[113]–[115]。在[116]中,多頭注意力用于提取車道和車輛注意力,以輸出未來軌跡的分布。其他相關(guān)算法[117]-[124]可以參考論文。

圖片

B.圖網(wǎng)絡(luò)

當(dāng)涉及到考慮交互相關(guān)因素的預(yù)測方法時,環(huán)境中的每個目標(biāo)都可以被視為一個節(jié)點來形成一個圖。盡管一些使用RNN和CNN的方法在提取歐幾里得空間數(shù)據(jù)特征時取得了巨大成功,但許多實際應(yīng)用場景中的數(shù)據(jù)都是從非歐幾里德空間生成的。由于許多經(jīng)典的基于深度學(xué)習(xí)的方法都在處理非歐幾里得空間數(shù)據(jù),因此這些方法的性能仍然不令人滿意。通常,每個場景都可以被視為一個不規(guī)則圖,每個圖都有一個大小可變的無序節(jié)點,如圖11所示。圖中每個節(jié)點的相鄰節(jié)點數(shù)不同,導(dǎo)致一些重要操作,如卷積,這些操作很容易在圖像上計算,但不再適合直接在圖上使用。盡管如此,圖中的每個節(jié)點都將具有與其他節(jié)點相關(guān)的邊。此信息可用于捕獲目標(biāo)之間的相互依賴性。因此,圖神經(jīng)網(wǎng)絡(luò)(GNN)非常適合于基于交互相關(guān)因素的車輛軌跡預(yù)測問題[125]。Diehl等人[126]證實了這一觀點。他們使用兩種流行的圖形網(wǎng)絡(luò):圖卷積網(wǎng)絡(luò)(GCN)和圖注意力網(wǎng)絡(luò)(GAT),基于交互相關(guān)因素進(jìn)行軌跡預(yù)測,并證明了其有效性。

圖片

對于道路相關(guān)因素,使用CNN處理光柵地圖具有很大的計算負(fù)擔(dān),并且很容易丟失信息。相反,矢量地圖使用具有多個控制點及其屬性的多段線來表示結(jié)構(gòu)化道路信息。這些多段線形成一組向量,可以用作GNN中的節(jié)點,GNN已廣泛用于軌跡預(yù)測。接下來,本文將介紹基于GNN的車輛軌跡預(yù)測方法。

圖卷積網(wǎng)絡(luò)

圖卷積網(wǎng)絡(luò)(GCN)是最流行的圖神經(jīng)網(wǎng)絡(luò)方法。圖卷積網(wǎng)絡(luò)將卷積運算從傳統(tǒng)的圖像數(shù)據(jù)處理擴(kuò)展到圖形數(shù)據(jù)處理。核心思想是學(xué)習(xí)映射函數(shù),該函數(shù)可以從圖中節(jié)點的特征及其鄰域的特征中提取交互感知特征。

在基于空間的圖卷積網(wǎng)絡(luò)中,Li等人[127]提出了一種稱為GRIP的基于GCN的軌跡預(yù)測模型。該模型將每個車輛視為每個采樣時間的節(jié)點,并考慮了相互作用相關(guān)因素。如果兩個節(jié)點代表同一輛車,且采樣時間相鄰,則兩個節(jié)點之間存在一條邊,表示時間關(guān)系。如果兩個節(jié)點同時代表兩輛車,并且兩輛車之間的距離小于固定值,則兩個節(jié)點之間存在一條邊,表示這些目標(biāo)的空間關(guān)系和交互狀態(tài)。GRIP使用由幾個卷積層和圖操作組成的GCN模型來建模圖網(wǎng)絡(luò)。GCN的輸出被饋送至LSTM編碼器解碼器,以預(yù)測周圍車輛的軌跡。GRIP使用固定的圖網(wǎng)絡(luò)來表示交通參與者之間的交互相關(guān)因素,盡管GRIP比當(dāng)時流行的模型有了相當(dāng)大的改進(jìn),但復(fù)雜場景中的泛化能力有待提高。其他相關(guān)算法[128]-[132]可以參考論文。

以上所有方法都使用了基于空間的圖卷積網(wǎng)絡(luò),但一些論文使用了基于頻譜的圖卷積網(wǎng)絡(luò)。Chandra等人[133]使用雙層GNN-LSTM結(jié)構(gòu)來解決軌跡預(yù)測問題。第一層使用LSTM編碼器-解碼器來預(yù)測交通參與者的未來軌跡,第二層通過加權(quán)動態(tài)幾何圖網(wǎng)絡(luò)(DGG)對交通參與者的交互相關(guān)因素進(jìn)行建模[134]。圖中的頻譜在LSTM編碼器-解碼器之后通過特征值的特定正則化來提取,并且頻譜序列被饋送到第一層的LSTM網(wǎng)絡(luò)中以完成預(yù)測任務(wù)。Zhao等人[135]提出了一種基于頻譜的GCN網(wǎng)絡(luò),可以在場景中的所有車輛之間共享信息,以考慮周圍車輛的變化以適應(yīng)環(huán)境。

使用矢量地圖的圖網(wǎng)絡(luò)

奔馳[136]首先將HD地圖應(yīng)用于軌跡預(yù)測,并基于與車輛相關(guān)聯(lián)的車道信息進(jìn)行地圖拓?fù)?,以獲得其沿車道的未來軌跡。然而,它沒有考慮與交互相關(guān)的因素。自從提出了帶有矢量地圖的Argoverse數(shù)據(jù)集[77]以來,研究人員使用GNN來獲得車輛之間、車輛和地圖之間的交互特征,以提高軌跡預(yù)測的準(zhǔn)確性。Gao等人[137]以場景中的車輛和矢量地圖為節(jié)點,提出了使用GNN實現(xiàn)軌跡預(yù)測的VectorNet。Liang等人[138]使用CNN提取車輛特征,使用GCN從矢量地圖中提取車道特征,然后將這兩個特征結(jié)合起來進(jìn)行軌跡預(yù)測。使用VectorNet提取地圖特征,Zhao等人[139]提出了一種稱為TNT的目標(biāo)驅(qū)動方法,該方法定義了稀疏目標(biāo)錨點并選擇到目標(biāo)的最佳軌跡,DenseNT[140]估計密集目標(biāo)候選,并獲得比TNT更好的結(jié)果。Zeng等人[141]使用LaneRCN獲得每個參與者的局部車道圖的表示,以編碼他們的過去軌跡和局部地圖拓?fù)洌⑼ㄟ^交互模塊完成局部車道圖交互。

其他圖網(wǎng)絡(luò)

注意力機(jī)制現(xiàn)在已廣泛應(yīng)用于基于序列的任務(wù)中。它的優(yōu)點是可以放大數(shù)據(jù)中最重要部分的影響。Veli ckovi等人[142]提出了圖注意力網(wǎng)絡(luò)(GAT)。當(dāng)聚集特征信息時,GAT使用注意力機(jī)制來確定節(jié)點之間的權(quán)重。Huang等人[143]將GAT應(yīng)用于軌跡預(yù)測。該模型首先使用LSTM編碼器對交通參與者的軌跡進(jìn)行編碼,然后使用GAT計算每個交通參與者的注意力權(quán)重,并通過加權(quán)平均這些狀態(tài)來形成每個參與者此時的交互信息。最后,該模型使用LSTM解碼器生成預(yù)測軌跡。其他相關(guān)算法[144]-[145]可以參考論文。

C.生成式模型

在軌跡預(yù)測任務(wù)中,軌跡的多模態(tài)給研究帶來了不確定性和挑戰(zhàn)。為了解釋固有的多模態(tài)分布,一些研究人員使用生成模型來生成多模態(tài)軌跡。軌跡預(yù)測的生成模型包括生成式對抗網(wǎng)絡(luò)(GAN)和條件變分自動編碼器(CVAE)。

Generative Adversarial Network

生成式對抗網(wǎng)絡(luò)(GAN)由Ian Goodfellow[146]于2014年首次提出。憑借卓越的性能,它在不到兩年的時間內(nèi)迅速成為主要研究熱點。GAN本質(zhì)上是一個生成模型,它主要由兩部分組成,即生成器和判別器。生成器用于生成類似于真實樣本的隨機(jī)樣本,判別器用于確定數(shù)據(jù)是真是假。通過生成器和判別器的不斷博弈進(jìn)化,GAN可以獲得質(zhì)量更高的生成器和判斷能力更強(qiáng)的判別器。

當(dāng)將GAN應(yīng)用于軌跡預(yù)測時,生成器用于生成預(yù)測軌跡,判別器用于判斷預(yù)測軌跡是否正確,如圖12所示。典型的應(yīng)用是Gupta等人[147]將GAN用于稱為SGAN的行人軌跡預(yù)測。生成器使用LSTM編碼器、池化模塊和LSTM解碼器來生成預(yù)測軌跡,判別器使用LSTM來確定預(yù)測軌跡是否合理。在該模型中,池化模塊是social pooling,其目的是幫助考慮所有行人并減少計算。與[102]中提出的social pooling不同,這里使用的池化模塊處理行人之間的交互。基于SGAN,Yang等人[148]設(shè)計了行人軌跡預(yù)測模型,重點關(guān)注如何更有效地提取交互相關(guān)因素并生成各種可行軌跡,該模型在SGAN的基礎(chǔ)上添加了潛在變量預(yù)測器以估計潛在變量。其他相關(guān)算法[149]-[153]可以參考論文。

圖片

Conditional Variational Auto Encoder

所謂的自動編碼器(AE)通過編碼器將數(shù)據(jù)壓縮為低維矢量表示,并使用解碼器對低維矢量進(jìn)行解碼以獲得重構(gòu)的輸出。AE希望盡量減少重建誤差。然而,AE被指責(zé)只是“記住”數(shù)據(jù),其生成數(shù)據(jù)的能力很差。Kingma等人[154]提出了一種變分自動編碼器(VAE)框架,以使用神經(jīng)網(wǎng)絡(luò)對變分推理中的分布進(jìn)行參數(shù)化,從而提高模型的生成能力。在[155]中,提出了條件VAE(CVAE)來完成結(jié)構(gòu)化預(yù)測任務(wù)。對于軌跡預(yù)測,將CVAE和RNN變體組合成編碼器-解碼器的形式是軌跡生成的有效方法[75],[82],[84]。一些使用原始傳感器數(shù)據(jù)作為輸入的方法也使用CVAE進(jìn)行多模態(tài)軌跡預(yù)測[108]、[156]、[157]。以上已經(jīng)提到了使用CVAE作為網(wǎng)絡(luò)框架的修正方法,本節(jié)不再重復(fù)。

D.總結(jié)

總之,AV的基于深度學(xué)習(xí)的軌跡預(yù)測方法可分為表III。越來越多的研究人員將基于深度學(xué)習(xí)方法應(yīng)用于空間和時間預(yù)測問題,如軌跡預(yù)測,并獲得最先進(jìn)的結(jié)果。因此,論文總結(jié)了基于深度學(xué)習(xí)的主流方法,給出了狀態(tài)編碼器、上下文編碼器、交互模塊、解碼器以及這些方法的概要描述,如表IV所示,提取交通參與者的交互信息和道路信息,并利用時序網(wǎng)絡(luò)獲得最終預(yù)測的未來軌跡,已成為軌跡預(yù)測的主流研究方向。基于深度學(xué)習(xí)的方法在軌跡預(yù)測任務(wù)中達(dá)到了最先進(jìn)的結(jié)果,并且可以預(yù)測比基于物理的方法和經(jīng)典的基于機(jī)器學(xué)習(xí)的方法更長的時間。目前,越來越多的自動駕駛汽車試驗使用基于深度學(xué)習(xí)的方法來預(yù)測交通參與者的未來軌跡。

圖片

圖片

基于強(qiáng)化學(xué)習(xí)的方法

近年來,強(qiáng)化學(xué)習(xí)(RL)的快速發(fā)展為理解高維復(fù)雜策略提供了新途徑[160]–[162],這為AVs的軌跡預(yù)測任務(wù)提供了新思路[163],[164]。當(dāng)RL用于AV的軌跡預(yù)測領(lǐng)域時,大多數(shù)方法使用馬爾可夫決策過程(MDP)[165]來最大化預(yù)期的累積獎勵。MDP是一個元組(S,A,P,R,γ),其中S是有限狀態(tài)集,A是有限動作集,P是狀態(tài)轉(zhuǎn)移概率矩陣,R是獎勵函數(shù),γ是折扣因子。為了找到所有策略的最佳決策過程,最優(yōu)狀態(tài)值函數(shù)和最優(yōu)行動值函數(shù)可以計算為:

圖片

使用MDP,基于RL的方法可以分為Inverse Reinforcement Learning(IRL)方法、生成對抗模仿學(xué)習(xí)(GAIL)方法和深度IRL(DIRL)方法,這將在下面討論。

A.Inverse Reinforcement Learning

通常,MDP假設(shè)已經(jīng)提供了獎勵功能。然而,駕駛員的行為總是復(fù)雜的,因此手動指定獎勵函數(shù)的權(quán)重是不合適的[166],[167]。IRL根據(jù)專家演示(軌跡)學(xué)習(xí)獎勵函數(shù),以生成相應(yīng)的最優(yōu)駕駛策略,如圖13所示。

圖片

根據(jù)獎勵函數(shù)權(quán)重的學(xué)習(xí)方式,論文將IRL分為基于最大邊際的方法和基于最大熵的方法。基于最大邊際的方法通過最小化專家演示和預(yù)測軌跡之間的特征期望來優(yōu)化獎勵函數(shù)權(quán)重。在[168]中,結(jié)構(gòu)化最大值被應(yīng)用于從特征學(xué)習(xí)映射以獎勵并使用MDP中的這些最優(yōu)策略來模仿專家的行為。SCIRL由[169]提出,它沒有解決直接的RL問題,而是通過結(jié)構(gòu)化分類來估計專家策略的特征期望。Silver等人[170]使用最大利潤規(guī)劃框架來學(xué)習(xí)AV的獎勵功能和駕駛策略。然而,大多數(shù)基于邊緣的方法在特征期望的匹配中是模糊的,因為一些退化也可以滿足專家論證的最優(yōu)策略。

基于最大熵的方法更受歡迎,因為它們可以使用多個獎勵函數(shù)來解釋專家行為的模糊性[171],其中大多數(shù)基于線性映射:

圖片

一些工作將基于最大熵的IRL(MaxEnt-IRL)應(yīng)用于AV的行為預(yù)測。在[172]中,使用MaxEnt-IRL可接受性相關(guān)行為模型從專家的軌跡中學(xué)習(xí)以生成隨機(jī)行為,然后通過最大化社會可接受性來選擇最佳行為模型。Sharifzadeh等人[173]利用IRL和深度Q網(wǎng)絡(luò)(DQN)提取具有大狀態(tài)空間的獎勵。在[174]中,相互作用相關(guān)因素被考慮來完成AV的概率預(yù)測。未來軌跡的分布是由駕駛策略制定的。[175]提出了一種時空狀態(tài)格,用于從專家演示中模擬駕駛員行為。

此外,一些MaxEnt-IRL方法利用采樣軌跡來完成預(yù)測任務(wù)。在[176]中,首先對候選軌跡進(jìn)行采樣,以最小成本選擇候選軌跡作為預(yù)測軌跡。其他相關(guān)算法[177]-[181]可以參考論文。

B.Generative Adversarial Imitation Learning

Ho等人[191]在2016年提出了GAIL,該方法使用GAN的方法在RL中進(jìn)行模仿學(xué)習(xí)。GAIL沒有從專家與IRL的演示中學(xué)習(xí)獎勵功能,而是直接從數(shù)據(jù)中提取策略。正如GAN一樣,GAIL的核心思想是,生成器生成盡可能與專家軌跡相似的軌跡,判別器器嘗試盡可能判斷它是否是專家軌跡。

許多文章使用GAIL來完成AV的軌跡預(yù)測。Kuefler等人[182]將GAIL擴(kuò)展到RNN的優(yōu)化,以演示人類駕駛員行為,并通過判別器評估策略和行為。Li等人[183]應(yīng)用信息最大化定理來提取專家演示的潛在結(jié)構(gòu)。在[184]中,提出了GAIL的參數(shù)共享擴(kuò)展,以建模多智能體之間的交互,并可以為智能體提供特定領(lǐng)域的知識。為了克服GAIL僅使用當(dāng)前狀態(tài)對下一個狀態(tài)建模的缺點,Choi等人[185]提出了一種在GAIL框架內(nèi)結(jié)合部分可觀測馬爾可夫決策過程(POMDP)的方法,并使用來自判別器的獎勵函數(shù)來訓(xùn)練模型。

C.Deep Inverse Reinforcement Learning

由于預(yù)測問題是非線性的,因此有必要使用非線性映射來進(jìn)行廣義函數(shù)近似。在[192]中,提出了深度反向強(qiáng)化學(xué)習(xí)(DIRL)框架來近似復(fù)雜和非線性的獎勵函數(shù):

圖片

本文將完全卷積神經(jīng)網(wǎng)絡(luò)(FCN)應(yīng)用于IRL中進(jìn)行獎勵近似。一些DIRL方法將歷史軌跡作為輸入。You等人[186]考慮了駕駛風(fēng)格和道路幾何形狀,其中作者首先使用RL設(shè)計MDP,然后從IRL學(xué)習(xí)最佳駕駛策略,并使用深度神經(jīng)網(wǎng)絡(luò)(DNN)來近似獎勵函數(shù)。在[164]中,流量參與者的軌跡由LSTM編碼,獎勵網(wǎng)絡(luò)由FCN學(xué)習(xí)。

目前,更多基于DIRL的方法直接使用原始感知數(shù)據(jù)。Wulfmeier等人[187]應(yīng)用FCN將激光雷達(dá)數(shù)據(jù)映射到可穿越性地圖。該網(wǎng)絡(luò)被預(yù)先訓(xùn)練以回歸到人工先驗成本圖,并且初始化權(quán)重將由最大熵DIRL網(wǎng)絡(luò)微調(diào)。在[188]中,使用相機(jī)圖像,駕駛行為由DIRL建模,CNN將提取相關(guān)狀態(tài)特征。Zhu等人[189]使用RL-ConvNet和狀態(tài)訪問頻率(SVF)ConvNet對車輛運動學(xué)進(jìn)行編碼,并通過在專家演示的專家SVF和激光雷達(dá)數(shù)據(jù)的政策SVF之間反向傳播損失梯度[193]來獲得獎勵函數(shù)的權(quán)重。在[190]中,提出了一種考慮慣性、環(huán)境和社會因素的卷積LSTM,以從激光雷達(dá)和軌跡數(shù)據(jù)中提取特征圖,并將其納入輸出獎勵圖中,以預(yù)測可穿越性圖。

D.總結(jié)

總之,基于強(qiáng)化學(xué)習(xí)的AV軌跡預(yù)測方法可分為表V。此類方法使用MDP最大化預(yù)期累積獎勵,并通過學(xué)習(xí)專家演示生成最佳駕駛策略,其中大多數(shù)是基于規(guī)劃的方法。結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò),這些方法可以更好地提取專家演示并考慮更多因素。然而,大多數(shù)都是計算密集型的,需要長時間的訓(xùn)練。

圖片

評估

各種數(shù)據(jù)集的出現(xiàn)促進(jìn)了基于學(xué)習(xí)的預(yù)測算法的性能。因此,有必要選擇合適的指標(biāo)來評估每個算法的性能。本節(jié)將首先介紹幾個數(shù)據(jù)集,然后介紹性能評價指標(biāo),最后將比較在同一NGSIM數(shù)據(jù)集上使用不同方法的上述工作的性能[194]。

數(shù)據(jù)集

為了評估軌跡預(yù)測模型的質(zhì)量,通常將預(yù)測的軌跡與從各種數(shù)據(jù)集獲得的GT軌跡進(jìn)行比較。這些數(shù)據(jù)集由傳感器(如激光雷達(dá)和攝像機(jī))收集,并手動標(biāo)注或自動生成,以生成車輛運動序列。

表六總結(jié)了軌跡預(yù)測中使用的流行數(shù)據(jù)集。本文按時間倒序介紹了數(shù)據(jù)集,并列出了使用數(shù)據(jù)集進(jìn)行軌跡預(yù)測的典型方法。本文中提到的大多數(shù)方法都以軌跡作為輸入,有些方法還使用車輛狀態(tài)或地圖信息。然而,由于這些數(shù)據(jù)集中的大多數(shù)軌跡是通過從圖像或點云學(xué)習(xí)方法獲得的,因此一些模型直接使用圖像或點云來作為端到端軌跡預(yù)測的輸入。

圖片

評價指標(biāo)

幾種評估指標(biāo)通常用于車輛軌跡預(yù)測。

  • Root Mean Squared Error (RMSE):RMSE計算平方預(yù)測誤差平均值的平方根,RMSE對大的預(yù)測誤差敏感,是軌跡預(yù)測的常用度量之一。

圖片

  • Negative Log Likelihood (NLL):對于建模的軌跡分布,RMSE用于計算模型的平均誤差,而NLL更側(cè)重于確定基于機(jī)動的模型中軌跡的正確性。

圖片

  • Average displacement error (ADE):預(yù)測軌跡和GT之間的平均L2距離。對于多模態(tài)預(yù)測,最小ADE(mADE)通常用于指示ADE超過K個預(yù)測的最小值。

圖片

  • Final displacement error (FDE):最終預(yù)測結(jié)果與相應(yīng)GT位置之間的L2距離。對于多模態(tài)預(yù)測,最小FDE(mFDE)通常用于指示FDE超過K個預(yù)測的最小值。

圖片

  • Miss Rate (MR):基于最終位置的L2距離,預(yù)測軌跡不在GT2.0米范圍內(nèi)的情況比率。當(dāng)預(yù)測結(jié)果為多模態(tài)時,假設(shè)預(yù)測結(jié)果為K個可能的未來軌跡,則將根據(jù)最佳未來軌跡判斷ADE、FDE和MR,并分別記錄為、。

  • Computation Time:計算時間對于該方法的車載性能非常重要。自動駕駛汽車的計算能力有限,但軌跡預(yù)測模型通常很復(fù)雜,需要巨大的計算資源。為了實現(xiàn)更高的自動駕駛水平,每個模塊的計算必須相對較快,以盡可能減少延遲。因此,實時性能或計算成本對模型非常重要。

  • Prediction Horizon:Prediction horizon是指模型可以預(yù)測的未來時間步長。通常,Prediction horizon越長,在動態(tài)甚至隨機(jī)駕駛環(huán)境中的準(zhǔn)確度就越低。然而,為了滿足規(guī)劃和控制系統(tǒng)的要求,應(yīng)將具有一定周期時間的軌跡預(yù)測結(jié)果輸入系統(tǒng),以便預(yù)測時間不應(yīng)太短,并與其他模塊保持一致。

不同方法的性能

對于真實世界的自動駕駛,準(zhǔn)確度是軌跡預(yù)測方法的最重要指標(biāo)之一。為了讓讀者更好地比較各種方法及其準(zhǔn)確性,本文分別比較了軌跡預(yù)測方法在公路和城市場景中的性能。在表VII中,使用RMSE比較了基于NGSIM I-80和US-101公路行駛數(shù)據(jù)集[194]的方法,而論文使用minADE、minFDE和MR比較了基于表VIII中Argoverse[77]的方法。從表VII和VIII可以看出,預(yù)測時間越長,預(yù)測精度越低,大多數(shù)基于學(xué)習(xí)的方法都超過了傳統(tǒng)方法。此外,多模態(tài)預(yù)測更符合人類的認(rèn)知過程,并且多模態(tài)預(yù)測比單模態(tài)預(yù)測更準(zhǔn)確。GNN在表VII中表現(xiàn)良好,能夠捕獲結(jié)構(gòu)道路特征,因此一些最先進(jìn)的方法使用GNN編碼高清地圖信息并完成軌跡預(yù)測。目前,大多數(shù)最新的軌跡預(yù)測方法都使用深度學(xué)習(xí),但為了AV進(jìn)行更安全的規(guī)劃和控制,軌跡預(yù)測方法需要更精確。

圖片

應(yīng)用

由于軌跡預(yù)測在確保AV安全方面發(fā)揮著重要作用,主要自動駕駛團(tuán)隊已將軌跡預(yù)測模塊嵌入L4級以上AV的開發(fā)中。然而,由于軟件的保密性,許多自動駕駛制造商沒有提到他們使用的具體算法,因此本節(jié)僅總結(jié)了已經(jīng)明確宣布的自動駕駛團(tuán)隊使用的軌跡預(yù)測方法。早期的真實世界研究使用基于物理的方法進(jìn)行軌跡預(yù)測[23]。接下來,寶馬使用動態(tài)貝葉斯網(wǎng)絡(luò)確定周圍車輛的駕駛意圖,并在高速公路上進(jìn)行實驗[204]。中國科學(xué)技術(shù)大學(xué)的先鋒IV自動駕駛汽車使用知識驅(qū)動方法獲得預(yù)測車輛的未來車道,然后使用LSTM預(yù)測其未來軌跡[205]。對于百度阿波羅自動駕駛汽車[206],引入了一種基于先進(jìn)方法TNT[139]的新模型Inter-TNT作為預(yù)測模塊。隨著自動駕駛技術(shù)的進(jìn)步,越來越先進(jìn)和復(fù)雜的軌跡預(yù)測方法將應(yīng)用于真實車輛。

討論和方向

本節(jié)將討論軌跡預(yù)測的不同類別的優(yōu)缺點,并概述潛在的研究方向,以指導(dǎo)該領(lǐng)域的讀者。

討論

本節(jié)討論了軌跡預(yù)測方法在精度、計算時間、預(yù)測范圍等方面的性能,分析了其在AV中的實際應(yīng)用,并在表IX中給出了總結(jié)。請注意,論文參考短期和長期預(yù)測來分別描述不超過1s和不少于3s的預(yù)測范圍。

圖片

基于物理的方法

它們適用于車輛的運動,可以用運動學(xué)或動力學(xué)模型精確描述。給定合適的物理模型,這些方法可以應(yīng)用于各種場景,計算成本低,時間短,但無需訓(xùn)練。然而,基于這種模型的預(yù)測結(jié)果在很大程度上取決于輸入和模型選擇。輸入與人類或機(jī)器駕駛員密切相關(guān),受駕駛環(huán)境或與其他參與者的互動影響。因此,由于無法描述這些因素,基于物理的模型僅限于短期預(yù)測和靜態(tài)場景。由于其簡單性和快速響應(yīng),這些方法可以很容易地用于AV的實際應(yīng)用,例如碰撞風(fēng)險分析。

經(jīng)典基于機(jī)器學(xué)習(xí)的方法

與基于物理的方法相比,這類方法能夠考慮更多的因素,其精度相對較高,預(yù)測長度較長,計算成本較高。這些方法大多是基于策略的方法,通過已知的先驗策略來預(yù)測軌跡。然而,人類駕駛員的車輛操縱通常是多樣的,并且在不同的場景中變化很大,因此泛化能力很差。在AV的實際應(yīng)用中,此類方法用于車道變化研究等場景中,利用其在策略識別方面的優(yōu)勢。

基于深度學(xué)習(xí)的方法

傳統(tǒng)的AV軌跡預(yù)測方法僅適用于簡單場景和短期預(yù)測,但基于深度學(xué)習(xí)的方法可以在更長的預(yù)測范圍內(nèi)進(jìn)行準(zhǔn)確預(yù)測。通過使用RNN、CNN、GNN和其他網(wǎng)絡(luò)進(jìn)行特征提取,考慮了交互相關(guān)因素和地圖信息。其中,它可以適應(yīng)更復(fù)雜的環(huán)境和更長的時間范圍?;谏疃葘W(xué)習(xí)的方法需要使用大量數(shù)據(jù)進(jìn)行訓(xùn)練。此外,隨著考慮因素的增加和網(wǎng)絡(luò)層數(shù)量的增加,計算成本和時間急劇增加。這種方法可以自然地生成多模態(tài)軌跡,這與車輛機(jī)動的多樣性相一致。在AV的實際應(yīng)用中,有必要在計算時間和模型復(fù)雜度之間取得平衡,以確保AV的實時性能和安全性。目前,越來越多的真實世界試驗使用這些方法來預(yù)測交通參與者的未來軌跡。

基于強(qiáng)化學(xué)習(xí)的方法

他們模仿人類的決策過程,通過學(xué)習(xí)專家演示獲得獎勵函數(shù),從而生成相應(yīng)的最優(yōu)駕駛策略。它們可以通過學(xué)習(xí)不斷進(jìn)化,適應(yīng)復(fù)雜的環(huán)境和較長的預(yù)測范圍。在更長的時間域中,這種方法可能比深度學(xué)習(xí)方法生成更高精度的軌跡。然而,這些方法中的大多數(shù)在恢復(fù)專家成本函數(shù)時通常計算成本較高,并且需要較長的訓(xùn)練時間。在AVs的實際應(yīng)用中,基于強(qiáng)化學(xué)習(xí)的軌跡預(yù)測方法更多地應(yīng)用于軌跡規(guī)劃,在決策過程中發(fā)揮了其優(yōu)勢。

潛在研究方向

隨著自動駕駛技術(shù)的不斷進(jìn)步,軌跡預(yù)測的重要性越來越受到重視。軌跡預(yù)測方法已經(jīng)從傳統(tǒng)的卡爾曼濾波方法發(fā)展為基于學(xué)習(xí)的方法,可以處理更復(fù)雜的場景。在總結(jié)了過去二十年的方法之后,本文概述了潛在的研究方向,如圖14所示,并進(jìn)行了如下討論。

圖片

  • 1)包含更多信息:可以看出,基于交互感知因素和地圖信息的方法更適合實際應(yīng)用場景,是當(dāng)前最流行的發(fā)展方向之一。然而,除了交互相關(guān)因素之外,還需要考慮更多的信息。例如,當(dāng)前的大多數(shù)方法不考慮基于明確交通規(guī)則的約束,但在實際場景中,交通規(guī)則可以重塑車輛的策略甚至軌跡。類似地,諸如交通燈、道路標(biāo)志等信息也可以用作預(yù)測的可靠輸入。此外,其他有用的視聽信息,如車輛轉(zhuǎn)向信號、車輛喇叭等,可以用作預(yù)測的參考。未來,鼓勵研究人員使用更多信息進(jìn)行軌跡預(yù)測。

  • 2)引入更先進(jìn)的算法:正如Transformer模型在NLP領(lǐng)域的杰出成就[119]一樣,通過引入更先進(jìn)的算法,它可以在相同的輸入數(shù)據(jù)下實現(xiàn)更高的預(yù)測精度。當(dāng)前的算法通過添加高精地圖、考慮交互相關(guān)因素并生成符合人類意圖的多模態(tài)軌跡來實現(xiàn)高精度。此外,需要不斷提出更先進(jìn)的算法,以進(jìn)一步提高具有新結(jié)構(gòu)和訓(xùn)練方法的軌跡預(yù)測算法的能力。隨著自動駕駛系統(tǒng)的不斷迭代升級,提高AV的預(yù)測能力,通過更先進(jìn)的算法滿足自動駕駛的安全要求已成為大勢所趨。

  • 3)集成AV的其他關(guān)鍵技術(shù):當(dāng)將軌跡預(yù)測結(jié)果用于決策、軌跡規(guī)劃和運動控制時,整個系統(tǒng)的有效性可以大大提高。以運動控制系統(tǒng)為例,目前的運動控制系統(tǒng)大多將交通參與者的運動視為均勻的線性運動,這與交通參與者的真實軌跡截然不同。當(dāng)集成軌跡預(yù)測模型時,本地決策規(guī)劃控制系統(tǒng)可以更好地應(yīng)對環(huán)境變化,提高自動駕駛的安全性。

  • 4)提升模型的魯棒性:大多數(shù)數(shù)據(jù)集是半自動標(biāo)注的,GT軌跡具有測量噪聲。在AV的實際應(yīng)用中,感知系統(tǒng)中存在各種噪聲,包括跟蹤誤差、位置誤差、地圖誤差等,這些噪聲會帶來偏差和不確定性。因此,應(yīng)考慮魯棒性以提高AV的實際應(yīng)用的抗干擾能力。此外,除了位置度量(如ADE、FDE),還應(yīng)應(yīng)用概率度量(NLL、mADE、mFDE)來提高方法的可信度,并使模型更好地適用于真實世界的自動駕駛。

  • 5)建立基準(zhǔn):需要一個基準(zhǔn),在更復(fù)雜的環(huán)境中使用標(biāo)準(zhǔn)的統(tǒng)一度量和地圖可用數(shù)據(jù)集。該基準(zhǔn)應(yīng)允許使用避障場景和非凸約束進(jìn)行長期和多模態(tài)預(yù)測,并允許使用不同的歷史范圍預(yù)測不同預(yù)測范圍的未來軌跡。此外,需要一個測試集來對訓(xùn)練的模型進(jìn)行推理,并將計算時間作為統(tǒng)一的比較。此外,在AV的實際應(yīng)用中,由于良好的感知和跟蹤并不總是完成的,因此基準(zhǔn)數(shù)據(jù)集應(yīng)包括具有不準(zhǔn)確GT的測試集,以更適合實際應(yīng)用并更好地用于AV。

結(jié)論

本文對AVs的軌跡預(yù)測問題進(jìn)行了深入分析,并提出了軌跡預(yù)測方法的分類。綜述了AV的軌跡預(yù)測方法,包括基于物理的方法、經(jīng)典的基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法和基于強(qiáng)化學(xué)習(xí)的方法。討論了每種方法的性能以及將其應(yīng)用于真實世界自動駕駛的機(jī)會。AV軌跡預(yù)測的最新進(jìn)展令人鼓舞,但它仍然面臨著各種挑戰(zhàn),并且在未來有潛在的研究方向,論文已經(jīng)概述了這些方向,以指導(dǎo)該領(lǐng)域的讀者。安全對于自動駕駛至關(guān)重要。為了突破AV的瓶頸并確保其安全,AV需要像人類駕駛員一樣預(yù)測其周圍環(huán)境。我們希望論文的調(diào)查將改進(jìn)預(yù)測系統(tǒng)在AVs中的應(yīng)用,并鼓勵沿著所討論的方向進(jìn)行進(jìn)一步研究。

參考

[1] A Survey on Trajectory-Prediction Methods for Autonomous Driving

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25