日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

一個(gè)基于博弈MPC的交互運(yùn)動(dòng)預(yù)測-規(guī)劃方法

2022-04-18 13:36:24·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“,ETH、MIT和KU Leuven的科學(xué)家一起發(fā)表于2022年

arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“,ETH、MIT和KU Leuven的科學(xué)家一起發(fā)表于2022年4月5號。

圖片


在大多數(shù)經(jīng)典的自動(dòng)駕駛車(AV)棧中,預(yù)測層和規(guī)劃層是分開的,這限制了規(guī)劃者對自動(dòng)駕駛車規(guī)劃軌跡不知道的預(yù)測做出反應(yīng)。這項(xiàng)工作提出了一個(gè)通過博弈論的模型預(yù)測控制器(MPC)將這兩層緊密耦合的模塊,其采用一種新型的交互式多智體神經(jīng)網(wǎng)絡(luò)策略,作為預(yù)測模型的一部分。在設(shè)置中,MPC規(guī)劃器通過將規(guī)劃狀態(tài)序列通知多智體策略來考慮所有周圍的智體。這個(gè)方法的基礎(chǔ)是設(shè)計(jì)了一個(gè)新的多智體策略網(wǎng)絡(luò),可以在給定周圍智體的狀態(tài)和地圖信息的情況下駕駛車輛。該策略網(wǎng)絡(luò)使用真實(shí)觀測數(shù)據(jù),通過時(shí)間反向傳播(BPTT)和可微分動(dòng)力學(xué)模型隱式訓(xùn)練,在時(shí)域向前展開軌跡。最后,多智體策略網(wǎng)絡(luò)在與環(huán)境交互時(shí)學(xué)習(xí)駕駛,并且與博弈論的MPC規(guī)劃器結(jié)合,成功地生成交互行為。


項(xiàng)目網(wǎng)站是:Deep Interactive Motion Prediction and Planning

作者定義的策略叫做Interactive Multi-Agent Prediction (IMAP) ,為訓(xùn)練它,采用了一種強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)所啟發(fā)的方法。


如圖是聯(lián)合預(yù)測-規(guī)劃模塊:將場景中所有車輛的過去狀態(tài)緩沖區(qū)和以車道圖表示的高清地圖作為輸入;預(yù)測規(guī)劃模塊內(nèi)的模型預(yù)測控制器(MPC)用學(xué)習(xí)到的預(yù)測模塊在內(nèi)部模擬多智體駕駛場景。

圖片


首先定義基于模型的策略訓(xùn)練方法如下:

圖片


  • 采用一個(gè)遞推策略結(jié)構(gòu),基于Gated Recurrent Unit (GRU) 。

  • 另外一個(gè)注意機(jī)制 multi-headed dot-product attention,建模意圖交互(intent interaction)。

  • 智體物理狀態(tài)之間的交互,則采用GNN建模。

  • 采用VectorNet做編碼器,和地圖的交互通過cross-attention機(jī)制建模。


如圖是遞歸IMAP策略π的示意圖:其將物理狀態(tài)ski和地圖信息m融合成共享嵌入表示,然后用于遞歸地控制動(dòng)力學(xué)模型f。單個(gè)遞歸模型用于編碼和解碼階段,并通過BPTT用狀態(tài)/觀測值的直接損失進(jìn)行訓(xùn)練。IMAP策略還用隱嵌入來生成key,value和query(K,V,Q),在意圖和地圖交互網(wǎng)絡(luò)中使用。

圖片


InterGNN的架構(gòu)細(xì)節(jié)如下:其中Message Passing Netwotk (MPN)  是一種GNN

圖片


下圖是IMAP模型的編碼器架構(gòu):其中IntentAttention 和 MapAttention兩個(gè)注意機(jī)制模塊組合連接在一起。

圖片


而其他智體之間的運(yùn)動(dòng)規(guī)劃可以理解為一個(gè)“非零和”博弈,其中所有智體考慮其獎(jiǎng)勵(lì)函數(shù)來規(guī)劃軌跡。獎(jiǎng)勵(lì)函數(shù)特定于智體,涵蓋了駕駛的基本原理,如避撞、路徑跟蹤和舒適性。求解這個(gè)博弈有幾個(gè)缺點(diǎn):首先,其他智體的獎(jiǎng)勵(lì)函數(shù)通常是未知的,其次,找到這個(gè)博弈的Nash或其他均衡點(diǎn)可能需要計(jì)算。

這個(gè)運(yùn)動(dòng)規(guī)劃問題定義如下:

圖片


用交叉熵法(CEM)等無導(dǎo)優(yōu)化算法來解決這個(gè)問題。然而,和博弈論中的通常情況一樣,博弈的順序可能會(huì)產(chǎn)生巨大的影響。作者給出兩種方法,一種是導(dǎo)致領(lǐng)導(dǎo)者-追隨者均衡,Iterative Leader-Follower MPC (ILF-MPC) ;另一種是Nash式均衡,Iterative Best-Response MPC (IBR-MPC) 。這些均衡適用于軌跡空間中的游戲,其中每條軌跡都被解釋為參與者的策略。


兩種方法均基于最佳響應(yīng)迭代法,其中智體根據(jù)其他智體的當(dāng)前動(dòng)作,通過最佳可能動(dòng)作,迭代更新策略。IMAP策略自然會(huì)對其他智體做出“最佳”響應(yīng),即使其軌跡是事先確定的。在實(shí)現(xiàn)中,IMAP策略中添加了自智體,并在展開中通過教師強(qiáng)制(teacher- forcing)使用MPC軌跡。注:IMAP策略的獎(jiǎng)勵(lì)函數(shù)未知。


兩個(gè)算法的偽代碼分別給出如下:

圖片


圖片




在預(yù)測和規(guī)劃任務(wù)中對該交互策略進(jìn)行測試。在預(yù)測任務(wù)中,根據(jù)標(biāo)準(zhǔn)單模態(tài)預(yù)測指標(biāo)重實(shí)現(xiàn)Argoverse冠軍算法SAMPP(Mercat et al.,Multi-Head Attention for Multi-Modal Joint Vehicle Motion Forecasting. 2020),對模型進(jìn)行消融分析。此外,添加的非線性最小二乘NLS(Bansal et al,ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst. 2019)干擾方法不會(huì)影響模型的標(biāo)稱性能。在規(guī)劃任務(wù)中,探索車道合并場景,展示IBP-MPC和ILF-MPC如何規(guī)劃變車道行為,同時(shí)最大限度地增加接近車輛的間距。此外,展示ILF-MPC如何利用優(yōu)化中采用反應(yīng)式預(yù)測模型來規(guī)劃高度交互軌跡。


實(shí)驗(yàn)結(jié)果如下:

圖片


圖片



分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號-25