日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

BITS: 交通仿真的雙層模仿學(xué)習(xí)方法

2022-09-01 11:21:34·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“BITS: Bi-level Imitation for Traffic Simulation“,2022年8月26日,Nvidia的工作。仿真是自動(dòng)駕駛車輛等機(jī)器人系統(tǒng)擴(kuò)大驗(yàn)證和檢驗(yàn)(VV)的關(guān)鍵。

arXiv論文“BITS: Bi-level Imitation for Traffic Simulation“,2022年8月26日,Nvidia的工作。

圖片


仿真是自動(dòng)駕駛車輛等機(jī)器人系統(tǒng)擴(kuò)大驗(yàn)證和檢驗(yàn)(V&V)的關(guān)鍵。盡管在高保真物理模型和傳感器模擬方面取得了進(jìn)展,但在模擬道路使用者的真實(shí)行為方面仍存在嚴(yán)重差距。這是因?yàn)?,與模擬物理模型和圖形學(xué)不同,為類人行為設(shè)計(jì)第一原理模型,通常是不可行的。


這項(xiàng)工作采用一種數(shù)據(jù)驅(qū)動(dòng)的方法,并提出了一種可以學(xué)習(xí)真實(shí)駕駛?cè)罩旧山煌ㄐ袨榈姆椒ā?/span>該方法將交通模擬問題解耦為高級(jí)意圖推理和低級(jí)駕駛行為模擬,利用駕駛行為的雙層結(jié)構(gòu),實(shí)現(xiàn)了高采樣效率和行為多樣性。


該方法還結(jié)合一個(gè)規(guī)劃模型,獲得穩(wěn)定的長期行為效果。用兩個(gè)大規(guī)模駕駛數(shù)據(jù)集的場景對(duì)方法進(jìn)行了經(jīng)驗(yàn)驗(yàn)證,該方法稱為BITS(Bi-level Simulation for Traffic Simulation),并表明BITS在真實(shí)性、多樣性和長時(shí)穩(wěn)定性方面實(shí)現(xiàn)了平衡的交通模擬性能。


還探索了評(píng)估行為真實(shí)性的方法,并為交通模擬引入了一套評(píng)估指標(biāo)。最后,開發(fā)并開源了一個(gè)軟件工具,該工具統(tǒng)一了不同駕駛數(shù)據(jù)集的數(shù)據(jù)格式,并將現(xiàn)有數(shù)據(jù)集的場景轉(zhuǎn)換為交互式模擬環(huán)境。


如圖是BITS的框架:決策上下文ct是一個(gè)張量,包含語義圖和光柵化智體歷史,按通道連接在一起。給定ct作為輸入,(1)空間目標(biāo)網(wǎng)絡(luò)產(chǎn)生短視野目標(biāo)的2D空間分布,(2)目標(biāo)條件(goal-conditioned)策略為每個(gè)采樣目標(biāo)(goal)生成一組動(dòng)作,(3)軌跡預(yù)測模型預(yù)測相鄰智體的未來運(yùn)動(dòng),以及最后(4)基于預(yù)測的未來狀態(tài),該框架選擇讓基于規(guī)則的成本函數(shù)最小化的一組動(dòng)作。

圖片


交通模擬看作模仿學(xué)習(xí)


采用以智體為中心的方法進(jìn)行交通模擬,即每個(gè)智體以分散方式進(jìn)行決策,無需顯式協(xié)調(diào)。其允許與包含其他類型模擬智體的仿真框架靈活地集成,并鼓勵(lì)出現(xiàn)新的交互行為。這項(xiàng)工作專注于模擬車輛交通,但智體可以是駕駛?cè)罩局胁东@的任何類型道路用戶(例如,騎自行車的和行人)。


用s和c分別表示智體的動(dòng)態(tài)狀態(tài)和決策上下文。具體而言,狀態(tài)s包括智體的位置、航向和速度。上下文c=(I,S)包括局部語義圖I和一個(gè)智體及其N個(gè)相鄰智體的h個(gè)先前狀態(tài)St?h:t = {s(0),s(1),…,s(N)}。給定決策上下文信息ct和當(dāng)前狀態(tài)st,交通仿真模型πθ的目標(biāo)是生成智體的下一個(gè)狀態(tài)st+1 = T(πθ(ct),st)。用動(dòng)力學(xué)約束的簡單單輪(unicycle)模型作為T。


真實(shí)世界中捕獲的駕駛?cè)罩居?xùn)練交通模型。由于日志數(shù)據(jù)很容易包括語義圖和所有觀測的智體軌跡,將駕駛?cè)罩疽暈橐唤M多智體專家演示序列τ = {c(i)、s(i)、c(i)、(s(i)…、c(i),s(i)},


將交通模擬描述為有監(jiān)督的模仿學(xué)習(xí)問題。然而,城市駕駛的性質(zhì)帶來了重大的技術(shù)挑戰(zhàn)。首先,由于模型無法訪問演示者的潛在意圖和其他與決策相關(guān)的線索,例如其他車輛的轉(zhuǎn)向信號(hào),因此是一個(gè)部分觀察的決策過程。因此,動(dòng)作監(jiān)督本質(zhì)上是模糊的,通常用概率分布建模。


雖然這種模糊性使訓(xùn)練復(fù)雜化,但有效地建模動(dòng)作分布也可以生成不同的反事實(shí)(counterfactual)交通模擬。其次,由于每個(gè)智體的行為沒有明確的協(xié)調(diào),它們的聯(lián)合行為生成了一個(gè)可能未來狀態(tài)的組合空間。這種不確定性使得生成穩(wěn)定的交通模擬非常具有挑戰(zhàn)性。


雙層模仿學(xué)習(xí)為多模態(tài)行為生成


交通模仿模型的目標(biāo),是通過學(xué)習(xí)真實(shí)世界的駕駛?cè)罩荆ㄗ鳛檠菔荆瑏懋a(chǎn)生各種各樣的合理行為。軌跡預(yù)測中的大多數(shù)現(xiàn)有方法用深度潛變量模型(例如VAE)來捕獲行為分布。然而,學(xué)習(xí)生成穩(wěn)定的長視野行為需要大量的訓(xùn)練數(shù)據(jù)。相反,這里提出的方法將學(xué)習(xí)問題分解為(1)訓(xùn)練高層目標(biāo)網(wǎng)絡(luò),捕獲可能的短期目標(biāo)空間分布,以及(2)訓(xùn)練確定性目標(biāo)條件策略,學(xué)習(xí)如何達(dá)到預(yù)測目標(biāo)。


空間目標(biāo)網(wǎng)絡(luò)(goal network)利用駕駛運(yùn)動(dòng)的2D BEV結(jié)構(gòu),并用2D網(wǎng)格高效地表示空間目標(biāo)分布。這種分解將多模態(tài)軌跡建模的負(fù)擔(dān),轉(zhuǎn)移到高級(jí)目標(biāo)預(yù)測器,使低級(jí)目標(biāo)條件策略能夠重用達(dá)成目標(biāo)的技能,提高樣本效率。


為長視野穩(wěn)定性的預(yù)測和規(guī)劃


這樣一個(gè)雙層模擬學(xué)習(xí)方法,可以從有限的數(shù)據(jù)中生成合理的交通模仿。該策略可以從多模態(tài)空間目標(biāo)預(yù)測器中采樣,綜合各種行為。然而,該策略的執(zhí)行仍然受到訓(xùn)練數(shù)據(jù)規(guī)模和覆蓋范圍的限制。


駕駛?cè)罩酒蛴谡P袨?,幾乎不包含碰撞或越野駕駛等安全-緊要情況。生成多樣行為的目標(biāo)進(jìn)一步放大了這一挑戰(zhàn),因?yàn)楣膭?lì)智體進(jìn)入地圖上未見過的區(qū)域并創(chuàng)建新的交互。因此,為了實(shí)現(xiàn)穩(wěn)定的長時(shí)間模擬,即使在缺乏訓(xùn)練數(shù)據(jù)指導(dǎo)的狀態(tài)下,智體也必須生成合理的行為。


為此,建議使用預(yù)測和規(guī)劃模塊來增強(qiáng)策略,以穩(wěn)定長期軌跡展開。該模塊從上述隨機(jī)雙層策略πθ中提取動(dòng)作樣本at,并根據(jù)預(yù)測的環(huán)境未來狀態(tài)St:t+H,選擇基于規(guī)則成本函數(shù)C最小化的動(dòng)作,即argmin C(at,St:t+H,ct)。


該方法類似于典型的模塊化AV堆棧中的運(yùn)動(dòng)規(guī)劃流水線,重要的區(qū)別在于,用學(xué)習(xí)的策略生成類人運(yùn)動(dòng)軌跡候選。關(guān)鍵思想是,策略πθ可以直接跟蹤分布內(nèi)狀態(tài)下的數(shù)據(jù)似然,其中大多數(shù)行為樣本都遵循規(guī)則,在最可能的動(dòng)作可能導(dǎo)致不良后果的狀態(tài)下,接受糾正指導(dǎo)。此外,采樣模塊允許在無需再訓(xùn)練的情況下對(duì)模擬器進(jìn)行靈活調(diào)整(例如,多樣性水平、多個(gè)目標(biāo)的強(qiáng)調(diào))。


交通仿真的評(píng)估測度


由于缺乏真值,設(shè)計(jì)仿真指標(biāo)特別困難。因此,通常用于評(píng)估軌跡預(yù)測的平均位移誤差(ADE)和最終位移誤差(FDE)等指標(biāo)不適合評(píng)估仿真模型。為了解決這一評(píng)估差距,文章提出了三種模擬度量:(i)度量模擬智體違反公共交通規(guī)則的程度,如越野駕駛或與其他智體發(fā)生碰撞;(ii)測量模擬展開的統(tǒng)計(jì)數(shù)據(jù)指標(biāo),包括在駕駛特性方面與收集的駕駛?cè)罩镜南嗨菩裕缢俣惹€、控制力、駕駛區(qū)域的覆蓋率以及不同模擬試驗(yàn)之間的行為多樣性;(iii)從真實(shí)世界駕駛?cè)罩局袑W(xué)習(xí)到的數(shù)據(jù)驅(qū)動(dòng)指標(biāo),例如在數(shù)據(jù)驅(qū)動(dòng)的軌跡預(yù)測模型下,測量模擬展開的可能性。



SimNet是一種用于交通模擬的確定性行為克隆模型。TrafficSim是原始交通模擬方法以智體為中心的自適應(yīng),其特征是各向同性高斯CVAE(isotropic Gaussian CVAE)。消除訓(xùn)練中的場景一致性損失,因?yàn)椴怀袚?dān)對(duì)所有智體的控制。SocialGAN通過對(duì)抗性模仿學(xué)習(xí)生成軌跡。TPP改編自Trajectron++,包括一個(gè)離散CVAE,每個(gè)離散模式具有高斯軌跡解碼器。


還考慮了這些方法的變型,并使用規(guī)劃和控制模塊(標(biāo)記為“+p”),即選擇具有成本函數(shù)的未來動(dòng)作樣本。


實(shí)驗(yàn)結(jié)果如下:



圖片




圖片




圖片




分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25