BITS: 交通仿真的雙層模仿學(xué)習(xí)方法

2022-09-01 11:21:34· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv論文“BITS: Bi-level Imitation for Traffic Simulation“，2022年8月26日，Nvidia的工作。仿真是自動(dòng)駕駛車輛等機(jī)器人系統(tǒng)擴(kuò)大驗(yàn)證和檢驗(yàn)（VV）的關(guān)鍵。

arXiv論文“BITS: Bi-level Imitation for Traffic Simulation“，2022年8月26日，Nvidia的工作。

仿真是自動(dòng)駕駛車輛等機(jī)器人系統(tǒng)擴(kuò)大驗(yàn)證和檢驗(yàn)（V&V）的關(guān)鍵。盡管在高保真物理模型和傳感器模擬方面取得了進(jìn)展，但在模擬道路使用者的真實(shí)行為方面仍存在嚴(yán)重差距。這是因?yàn)?，與模擬物理模型和圖形學(xué)不同，為類人行為設(shè)計(jì)第一原理模型，通常是不可行的。

這項(xiàng)工作采用一種數(shù)據(jù)驅(qū)動(dòng)的方法，并提出了一種可以學(xué)習(xí)真實(shí)駕駛?cè)罩旧山煌ㄐ袨榈姆椒ā?/span>該方法將交通模擬問題解耦為高級(jí)意圖推理和低級(jí)駕駛行為模擬，利用駕駛行為的雙層結(jié)構(gòu)，實(shí)現(xiàn)了高采樣效率和行為多樣性。

該方法還結(jié)合一個(gè)規(guī)劃模型，獲得穩(wěn)定的長期行為效果。用兩個(gè)大規(guī)模駕駛數(shù)據(jù)集的場景對(duì)方法進(jìn)行了經(jīng)驗(yàn)驗(yàn)證，該方法稱為BITS（Bi-level Simulation for Traffic Simulation），并表明BITS在真實(shí)性、多樣性和長時(shí)穩(wěn)定性方面實(shí)現(xiàn)了平衡的交通模擬性能。

還探索了評(píng)估行為真實(shí)性的方法，并為交通模擬引入了一套評(píng)估指標(biāo)。最后，開發(fā)并開源了一個(gè)軟件工具，該工具統(tǒng)一了不同駕駛數(shù)據(jù)集的數(shù)據(jù)格式，并將現(xiàn)有數(shù)據(jù)集的場景轉(zhuǎn)換為交互式模擬環(huán)境。

如圖是BITS的框架：決策上下文ct是一個(gè)張量，包含語義圖和光柵化智體歷史，按通道連接在一起。給定ct作為輸入，（1）空間目標(biāo)網(wǎng)絡(luò)產(chǎn)生短視野目標(biāo)的2D空間分布，（2）目標(biāo)條件（goal-conditioned）策略為每個(gè)采樣目標(biāo)（goal）生成一組動(dòng)作，（3）軌跡預(yù)測模型預(yù)測相鄰智體的未來運(yùn)動(dòng)，以及最后（4）基于預(yù)測的未來狀態(tài)，該框架選擇讓基于規(guī)則的成本函數(shù)最小化的一組動(dòng)作。

交通模擬看作模仿學(xué)習(xí)

采用以智體為中心的方法進(jìn)行交通模擬，即每個(gè)智體以分散方式進(jìn)行決策，無需顯式協(xié)調(diào)。其允許與包含其他類型模擬智體的仿真框架靈活地集成，并鼓勵(lì)出現(xiàn)新的交互行為。這項(xiàng)工作專注于模擬車輛交通，但智體可以是駕駛?cè)罩局胁东@的任何類型道路用戶（例如，騎自行車的和行人）。

用s和c分別表示智體的動(dòng)態(tài)狀態(tài)和決策上下文。具體而言，狀態(tài)s包括智體的位置、航向和速度。上下文c=（I，S）包括局部語義圖I和一個(gè)智體及其N個(gè)相鄰智體的h個(gè)先前狀態(tài)St?h：t = {s（0），s（1），…，s（N）}。給定決策上下文信息ct和當(dāng)前狀態(tài)st，交通仿真模型πθ的目標(biāo)是生成智體的下一個(gè)狀態(tài)st+1 = T（πθ（ct），st）。用動(dòng)力學(xué)約束的簡單單輪（unicycle）模型作為T。

真實(shí)世界中捕獲的駕駛?cè)罩居?xùn)練交通模型。由于日志數(shù)據(jù)很容易包括語義圖和所有觀測的智體軌跡，將駕駛?cè)罩疽暈橐唤M多智體專家演示序列τ ＝ {c（i）、s（i）、c（i）、（s（i）…、c（i），s（i）}，

將交通模擬描述為有監(jiān)督的模仿學(xué)習(xí)問題。然而，城市駕駛的性質(zhì)帶來了重大的技術(shù)挑戰(zhàn)。首先，由于模型無法訪問演示者的潛在意圖和其他與決策相關(guān)的線索，例如其他車輛的轉(zhuǎn)向信號(hào)，因此是一個(gè)部分觀察的決策過程。因此，動(dòng)作監(jiān)督本質(zhì)上是模糊的，通常用概率分布建模。

雖然這種模糊性使訓(xùn)練復(fù)雜化，但有效地建模動(dòng)作分布也可以生成不同的反事實(shí)（counterfactual）交通模擬。其次，由于每個(gè)智體的行為沒有明確的協(xié)調(diào)，它們的聯(lián)合行為生成了一個(gè)可能未來狀態(tài)的組合空間。這種不確定性使得生成穩(wěn)定的交通模擬非常具有挑戰(zhàn)性。

雙層模仿學(xué)習(xí)為多模態(tài)行為生成

交通模仿模型的目標(biāo)，是通過學(xué)習(xí)真實(shí)世界的駕駛?cè)罩荆ㄗ鳛檠菔荆瑏懋a(chǎn)生各種各樣的合理行為。軌跡預(yù)測中的大多數(shù)現(xiàn)有方法用深度潛變量模型（例如VAE）來捕獲行為分布。然而，學(xué)習(xí)生成穩(wěn)定的長視野行為需要大量的訓(xùn)練數(shù)據(jù)。相反，這里提出的方法將學(xué)習(xí)問題分解為（1）訓(xùn)練高層目標(biāo)網(wǎng)絡(luò)，捕獲可能的短期目標(biāo)空間分布，以及（2）訓(xùn)練確定性目標(biāo)條件策略，學(xué)習(xí)如何達(dá)到預(yù)測目標(biāo)。

空間目標(biāo)網(wǎng)絡(luò)（goal network）利用駕駛運(yùn)動(dòng)的2D BEV結(jié)構(gòu)，并用2D網(wǎng)格高效地表示空間目標(biāo)分布。這種分解將多模態(tài)軌跡建模的負(fù)擔(dān)，轉(zhuǎn)移到高級(jí)目標(biāo)預(yù)測器，使低級(jí)目標(biāo)條件策略能夠重用達(dá)成目標(biāo)的技能，提高樣本效率。

為長視野穩(wěn)定性的預(yù)測和規(guī)劃

這樣一個(gè)雙層模擬學(xué)習(xí)方法，可以從有限的數(shù)據(jù)中生成合理的交通模仿。該策略可以從多模態(tài)空間目標(biāo)預(yù)測器中采樣，綜合各種行為。然而，該策略的執(zhí)行仍然受到訓(xùn)練數(shù)據(jù)規(guī)模和覆蓋范圍的限制。

駕駛?cè)罩酒蛴谡Ｐ袨?，幾乎不包含碰撞或越野駕駛等安全-緊要情況。生成多樣行為的目標(biāo)進(jìn)一步放大了這一挑戰(zhàn)，因?yàn)楣膭?lì)智體進(jìn)入地圖上未見過的區(qū)域并創(chuàng)建新的交互。因此，為了實(shí)現(xiàn)穩(wěn)定的長時(shí)間模擬，即使在缺乏訓(xùn)練數(shù)據(jù)指導(dǎo)的狀態(tài)下，智體也必須生成合理的行為。

為此，建議使用預(yù)測和規(guī)劃模塊來增強(qiáng)策略，以穩(wěn)定長期軌跡展開。該模塊從上述隨機(jī)雙層策略πθ中提取動(dòng)作樣本at，并根據(jù)預(yù)測的環(huán)境未來狀態(tài)St:t+H，選擇基于規(guī)則成本函數(shù)C最小化的動(dòng)作，即argmin C(at,St:t+H,ct)。

該方法類似于典型的模塊化AV堆棧中的運(yùn)動(dòng)規(guī)劃流水線，重要的區(qū)別在于，用學(xué)習(xí)的策略生成類人運(yùn)動(dòng)軌跡候選。關(guān)鍵思想是，策略πθ可以直接跟蹤分布內(nèi)狀態(tài)下的數(shù)據(jù)似然，其中大多數(shù)行為樣本都遵循規(guī)則，在最可能的動(dòng)作可能導(dǎo)致不良后果的狀態(tài)下，接受糾正指導(dǎo)。此外，采樣模塊允許在無需再訓(xùn)練的情況下對(duì)模擬器進(jìn)行靈活調(diào)整（例如，多樣性水平、多個(gè)目標(biāo)的強(qiáng)調(diào)）。

交通仿真的評(píng)估測度

由于缺乏真值，設(shè)計(jì)仿真指標(biāo)特別困難。因此，通常用于評(píng)估軌跡預(yù)測的平均位移誤差（ADE）和最終位移誤差（FDE）等指標(biāo)不適合評(píng)估仿真模型。為了解決這一評(píng)估差距，文章提出了三種模擬度量：（i）度量模擬智體違反公共交通規(guī)則的程度，如越野駕駛或與其他智體發(fā)生碰撞；（ii）測量模擬展開的統(tǒng)計(jì)數(shù)據(jù)指標(biāo)，包括在駕駛特性方面與收集的駕駛?cè)罩镜南嗨菩裕缢俣惹€、控制力、駕駛區(qū)域的覆蓋率以及不同模擬試驗(yàn)之間的行為多樣性；（iii）從真實(shí)世界駕駛?cè)罩局袑W(xué)習(xí)到的數(shù)據(jù)驅(qū)動(dòng)指標(biāo)，例如在數(shù)據(jù)驅(qū)動(dòng)的軌跡預(yù)測模型下，測量模擬展開的可能性。

SimNet是一種用于交通模擬的確定性行為克隆模型。TrafficSim是原始交通模擬方法以智體為中心的自適應(yīng)，其特征是各向同性高斯CVAE（isotropic Gaussian CVAE）。消除訓(xùn)練中的場景一致性損失，因?yàn)椴怀袚?dān)對(duì)所有智體的控制。SocialGAN通過對(duì)抗性模仿學(xué)習(xí)生成軌跡。TPP改編自Trajectron++，包括一個(gè)離散CVAE，每個(gè)離散模式具有高斯軌跡解碼器。

還考慮了這些方法的變型，并使用規(guī)劃和控制模塊（標(biāo)記為“+p”），即選擇具有成本函數(shù)的未來動(dòng)作樣本。

實(shí)驗(yàn)結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：深度解析丨東風(fēng)風(fēng)行·游艇國內(nèi)首次高速雙向側(cè)碰疊加追尾挑戰(zhàn)
上一篇：電動(dòng)汽車充電的三大設(shè)計(jì)注意事項(xiàng)

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

BITS: 交通仿真的雙層模仿學(xué)習(xí)方法

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對(duì)摩托車前照燈配光性能的工