一個(gè)基于博弈MPC的交互運(yùn)動(dòng)預(yù)測-規(guī)劃方法

2022-04-18 13:36:24· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“，ETH、MIT和KU Leuven的科學(xué)家一起發(fā)表于2022年

arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“，ETH、MIT和KU Leuven的科學(xué)家一起發(fā)表于2022年4月5號。

在大多數(shù)經(jīng)典的自動(dòng)駕駛車（AV）棧中，預(yù)測層和規(guī)劃層是分開的，這限制了規(guī)劃者對自動(dòng)駕駛車規(guī)劃軌跡不知道的預(yù)測做出反應(yīng)。這項(xiàng)工作提出了一個(gè)通過博弈論的模型預(yù)測控制器（MPC）將這兩層緊密耦合的模塊，其采用一種新型的交互式多智體神經(jīng)網(wǎng)絡(luò)策略，作為預(yù)測模型的一部分。在設(shè)置中，MPC規(guī)劃器通過將規(guī)劃狀態(tài)序列通知多智體策略來考慮所有周圍的智體。這個(gè)方法的基礎(chǔ)是設(shè)計(jì)了一個(gè)新的多智體策略網(wǎng)絡(luò)，可以在給定周圍智體的狀態(tài)和地圖信息的情況下駕駛車輛。該策略網(wǎng)絡(luò)使用真實(shí)觀測數(shù)據(jù)，通過時(shí)間反向傳播（BPTT）和可微分動(dòng)力學(xué)模型隱式訓(xùn)練，在時(shí)域向前展開軌跡。最后，多智體策略網(wǎng)絡(luò)在與環(huán)境交互時(shí)學(xué)習(xí)駕駛，并且與博弈論的MPC規(guī)劃器結(jié)合，成功地生成交互行為。

項(xiàng)目網(wǎng)站是：Deep Interactive Motion Prediction and Planning

作者定義的策略叫做Interactive Multi-Agent Prediction (IMAP) ，為訓(xùn)練它，采用了一種強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)所啟發(fā)的方法。

如圖是聯(lián)合預(yù)測-規(guī)劃模塊：將場景中所有車輛的過去狀態(tài)緩沖區(qū)和以車道圖表示的高清地圖作為輸入；預(yù)測規(guī)劃模塊內(nèi)的模型預(yù)測控制器（MPC）用學(xué)習(xí)到的預(yù)測模塊在內(nèi)部模擬多智體駕駛場景。

首先定義基于模型的策略訓(xùn)練方法如下：

采用一個(gè)遞推策略結(jié)構(gòu)，基于Gated Recurrent Unit (GRU) 。
另外一個(gè)注意機(jī)制 multi-headed dot-product attention，建模意圖交互（intent interaction）。
智體物理狀態(tài)之間的交互，則采用GNN建模。
采用VectorNet做編碼器，和地圖的交互通過cross-attention機(jī)制建模。

如圖是遞歸IMAP策略π的示意圖：其將物理狀態(tài)ski和地圖信息m融合成共享嵌入表示，然后用于遞歸地控制動(dòng)力學(xué)模型f。單個(gè)遞歸模型用于編碼和解碼階段，并通過BPTT用狀態(tài)/觀測值的直接損失進(jìn)行訓(xùn)練。IMAP策略還用隱嵌入來生成key，value和query（K，V，Q），在意圖和地圖交互網(wǎng)絡(luò)中使用。

InterGNN的架構(gòu)細(xì)節(jié)如下：其中Message Passing Netwotk (MPN) 是一種GNN

下圖是IMAP模型的編碼器架構(gòu)：其中IntentAttention 和 MapAttention兩個(gè)注意機(jī)制模塊組合連接在一起。

而其他智體之間的運(yùn)動(dòng)規(guī)劃可以理解為一個(gè)“非零和”博弈，其中所有智體考慮其獎(jiǎng)勵(lì)函數(shù)來規(guī)劃軌跡。獎(jiǎng)勵(lì)函數(shù)特定于智體，涵蓋了駕駛的基本原理，如避撞、路徑跟蹤和舒適性。求解這個(gè)博弈有幾個(gè)缺點(diǎn)：首先，其他智體的獎(jiǎng)勵(lì)函數(shù)通常是未知的，其次，找到這個(gè)博弈的Nash或其他均衡點(diǎn)可能需要計(jì)算。

這個(gè)運(yùn)動(dòng)規(guī)劃問題定義如下：

用交叉熵法（CEM）等無導(dǎo)優(yōu)化算法來解決這個(gè)問題。然而，和博弈論中的通常情況一樣，博弈的順序可能會(huì)產(chǎn)生巨大的影響。作者給出兩種方法，一種是導(dǎo)致領(lǐng)導(dǎo)者-追隨者均衡，Iterative Leader-Follower MPC (ILF-MPC) ；另一種是Nash式均衡，Iterative Best-Response MPC (IBR-MPC) 。這些均衡適用于軌跡空間中的游戲，其中每條軌跡都被解釋為參與者的策略。

兩種方法均基于最佳響應(yīng)迭代法，其中智體根據(jù)其他智體的當(dāng)前動(dòng)作，通過最佳可能動(dòng)作，迭代更新策略。IMAP策略自然會(huì)對其他智體做出“最佳”響應(yīng)，即使其軌跡是事先確定的。在實(shí)現(xiàn)中，IMAP策略中添加了自智體，并在展開中通過教師強(qiáng)制（teacher- forcing）使用MPC軌跡。注：IMAP策略的獎(jiǎng)勵(lì)函數(shù)未知。

兩個(gè)算法的偽代碼分別給出如下：

在預(yù)測和規(guī)劃任務(wù)中對該交互策略進(jìn)行測試。在預(yù)測任務(wù)中，根據(jù)標(biāo)準(zhǔn)單模態(tài)預(yù)測指標(biāo)重實(shí)現(xiàn)Argoverse冠軍算法SAMPP（Mercat et al.，Multi-Head Attention for Multi-Modal Joint Vehicle Motion Forecasting. 2020），對模型進(jìn)行消融分析。此外，添加的非線性最小二乘NLS（Bansal et al，ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst. 2019）干擾方法不會(huì)影響模型的標(biāo)稱性能。在規(guī)劃任務(wù)中，探索車道合并場景，展示IBP-MPC和ILF-MPC如何規(guī)劃變車道行為，同時(shí)最大限度地增加接近車輛的間距。此外，展示ILF-MPC如何利用優(yōu)化中采用反應(yīng)式預(yù)測模型來規(guī)劃高度交互軌跡。

實(shí)驗(yàn)結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：乘用車混合動(dòng)力系統(tǒng)趨勢分析
上一篇：詳解智能駕駛的功能與場景體系

點(diǎn)贊 0 反對 0 舉報(bào) 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一個(gè)基于博弈MPC的交互運(yùn)動(dòng)預(yù)測-規(guī)劃方法

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一個(gè)基于博弈MPC的交互運(yùn)動(dòng)預(yù)測-規(guī)劃方法

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將