交通場景的真實性駕駛行為仿真方法
仿真是自動駕駛車輛等機(jī)器人系統(tǒng)擴(kuò)大驗證和確認(rèn)(V&V)的關(guān)鍵。盡管在高保真的物理模型和傳感器仿真方面取得了進(jìn)展,但在模擬道路使用者真實行為的方面仍存在嚴(yán)重差距。
AdvSim【1】是Uber提出的一種對抗性框架,為激光雷達(dá)自動駕駛系統(tǒng)生成安全關(guān)鍵場景。
如圖所示:目標(biāo)是在現(xiàn)有場景中干擾交互參與者的機(jī)動,對抗性行為會導(dǎo)致現(xiàn)實的自動駕駛系統(tǒng)出現(xiàn)故障;給定初始交通場景,AdvSim以物理合理的方式修改參與者的軌跡,并更新激光雷達(dá)傳感器數(shù)據(jù);通過從傳感器數(shù)據(jù)進(jìn)行模擬,獲得對全自主駕駛安全-緊要的對抗場景。
場景擾動的真實激光雷達(dá)模擬如圖所示:給定參與者動作的場景擾動,修改先前記錄的激光雷達(dá)數(shù)據(jù)以準(zhǔn)確反映更新的場景配置;在確保傳感器真實性的同時,移除原始的參與者激光雷達(dá)觀測數(shù)據(jù),并在擾動位置用模擬的參與者激光雷達(dá)觀測數(shù)據(jù)代替。
為了產(chǎn)生物理上可行的參與者行為,將軌跡參數(shù)化為自行車模型(bicycle model)狀態(tài)序列,包括受擾動參與者的中心位置、航向、前進(jìn)速度和加速度、以及車輛路徑的曲率。通過在不同時間步長設(shè)定邊界內(nèi)擾動曲率和加速度值的變化,并用運動學(xué)自行車模型計算其他狀態(tài),可以生成候選對抗軌跡。此外,為了擴(kuò)大采樣對抗行為的空間,還允許初始狀態(tài)在設(shè)定邊界內(nèi)擾動。
為了增加擾動軌跡的合理性,要確保它不會與其他參與者或自動駕駛車的原始專家軌跡發(fā)生碰撞。在實踐中,首先執(zhí)行拒絕采樣來創(chuàng)建一組物理可行的軌跡,然后將生成的軌跡投影到物理可行的集合上,以L2距離測量。搜索空間是低維的,有利于基于查詢的黑盒子優(yōu)化,同時仍允許細(xì)粒度的參與者運動控制。
在論文【2】Uber提出一個交通場景的神經(jīng)自回歸(AR)模型SceneGen,避免對規(guī)則和啟發(fā)式方式的需要。其有助于解決建模真實交通場景的復(fù)雜性和多樣性這一限制。特別是,考慮到自車狀態(tài)和周圍區(qū)域的高清地圖,SceneGen將不同類別的參與者插入場景中,并合成其大小、朝向和速度。
SceneGen與傳感器仿真相結(jié)合,可用于訓(xùn)練適用于現(xiàn)實世界解決方案的感知模型。
自回歸交通場景生成方法如圖所示:給定自車狀態(tài)和周圍環(huán)境的高清地圖,SceneGen通過一次插入一個參與者來生成交通場景。
神經(jīng)AR模型用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來捕獲自回歸生成過程中的長期相關(guān)性。該模型的基礎(chǔ)是ConvLSTM架構(gòu),每次迭代中,模型輸入的是一幅BEV多通道圖像編碼,包括自動駕駛車a0、、HD地圖和迄今為止生成的其他交通參與者{a1,…,ai?1 }。
如圖所示,多通道圖像包括:車道多邊形(直車道、專用右車道、專用左車道、專用公交車道和專用自行車道)、車道中心線和分隔線(允許跨線,禁止跨線,可能允許跨線);車道線(直行車道、專用右車道和專用左車道)、可行駛區(qū)域和道路多邊形,以及人行橫道多邊形。此外將每個車道的紅綠燈狀態(tài)(綠色、黃色、紅色、閃爍黃色、閃爍紅色和未知)、速度限制和方向編碼為填充的車道多邊形。總的來說,這產(chǎn)生了24通道圖像。
每個參與者由其類標(biāo)簽、BEV位置、定向邊界和速度。為了捕獲這些屬性之間的依賴關(guān)系,對其聯(lián)合分布進(jìn)行因子分解。如圖是參與者概率模型示意圖:對每個參與者進(jìn)行概率建模,作為其類別、位置、邊框和速度分布的乘積。
其意思就是參與者位置的分布取決于其類別;其邊框取決于其類別和位置;其速度取決于類別、位置和邊框。
在每個生成步驟中,從SceneGen的輸出分布中采樣M次,并保留最可能的樣本。這有助于避免退化的交通場景,同時保持樣本多樣性。此外,拒絕那些邊框與目前采樣的參與者邊框發(fā)生碰撞的車輛和自行車。
論文【3】是之前Lyft Level 5團(tuán)隊的工作,提出一個端到端可訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng),真實地模擬駕駛體驗。模擬問題構(gòu)建為馬爾可夫過程(MP),利用深度神經(jīng)網(wǎng)絡(luò)對狀態(tài)分布和轉(zhuǎn)移函數(shù)進(jìn)行建模。直接從現(xiàn)有的原始數(shù)據(jù)中進(jìn)行訓(xùn)練,即行為克?。?/strong>behavioural cloning),無需在運動模型中進(jìn)行任何手工設(shè)計,所需要的只是一個具有歷史交通事件(traffic episodes)的數(shù)據(jù)集。
它允許系統(tǒng)構(gòu)建從未見過的場景,這些場景對自駕車的行為真實地做出反應(yīng)。實際上直接用1000小時的駕駛數(shù)據(jù)訓(xùn)練系統(tǒng),模擬的真實性和反應(yīng)性是測量的兩個關(guān)鍵屬性。同時,該方法可評估通過專家駕駛數(shù)據(jù)訓(xùn)練的最新機(jī)器學(xué)習(xí)(ML)規(guī)劃系統(tǒng)性能,這個規(guī)劃系統(tǒng)容易出現(xiàn)因果混淆(causal confusion)問題,很難通過非反應(yīng)性模擬(non-reactive simulation)方法進(jìn)行測試。
如圖是提出的可訓(xùn)練仿真系統(tǒng)框圖:
如圖是仿真采樣的流程:
為了生成新的駕駛事件,首先選擇并采樣一個初始狀態(tài),捕獲所有交通參與者的位置。 接下來,神經(jīng)網(wǎng)絡(luò)控制的交通參與者和自駕控制回路(control loop)控制的自動駕駛車行為對狀態(tài)進(jìn)行前向模擬。包括步驟如下:
-
1)從所有允許的地圖位置選擇初始自駕車的位置;
-
2)初始狀態(tài)是從所有可行狀態(tài)的分布得到,該狀態(tài)捕獲交通參與者的數(shù)目和初始姿勢;
-
3)駕駛事件是通過參與者駕駛策略和自駕車控制系統(tǒng)的逐步前向模擬生成。
該模擬具備的特性包括:
-
完全模擬:執(zhí)行上述所有步驟,從所有位置生成新的、從未體驗過的駕駛場景。
-
旅程模擬:保持初始自駕車位置固定,合成許多不同的初始條件,得到從該位置開始的駕駛事件。
-
場景模擬:現(xiàn)有的歷史感興趣狀態(tài)作為 初始狀態(tài),生成許多可能的未來結(jié)果。
-
行為模擬:通過硬編碼特定路徑來遵循,可替換轉(zhuǎn)向角,迫使交通參與者采取特定的高級行為,但在執(zhí)行中仍會留下某種反應(yīng)性模擬結(jié)果。 對于模擬自駕車行為,這點兒很有用。
如圖是仿真系統(tǒng)交互式狀態(tài)展開的詳細(xì)信息:
該狀態(tài)的所有智體,獨立運行一步預(yù)測來推進(jìn),自駕車由控制算法控制,新位置形成一個新狀態(tài),然后重復(fù)該過程。
論文【4】介紹STRIVE(Stress-Test dRIVE),一種自動生成具有挑戰(zhàn)性場景的方法,該場景會讓給定規(guī)劃器產(chǎn)生不希望的行為,如碰撞。
為了保持場景的合理性,關(guān)鍵思想是以基于圖條件VAE的形式采用已學(xué)習(xí)的交通運動模型。場景生成是在該交通模型的潛空間進(jìn)行優(yōu)化,擾動初始真實場景產(chǎn)生與給定規(guī)劃器發(fā)生碰撞的軌跡。隨后的優(yōu)化用于找到場景的“解決方案”,確保它有助于改進(jìn)給定的規(guī)劃器。
進(jìn)一步的分析,基于碰撞類型,聚類這些場景。實驗中攻擊了兩個規(guī)劃器,并證明在這兩種情況下,STRIVE成功地生成了真實具有挑戰(zhàn)性的場景。此外,實現(xiàn)“閉環(huán)”,并用這些場景優(yōu)化一個基于規(guī)則的規(guī)劃器超參數(shù)。
如圖所示:STRIVE為給定的規(guī)劃器生成具有挑戰(zhàn)性的場景。對抗優(yōu)化會擾亂所學(xué)習(xí)交通模型潛空間的真實場景,導(dǎo)致對抗(紅色)與規(guī)劃器(綠色)發(fā)生碰撞。后續(xù)的解決方案優(yōu)化會找到規(guī)劃器的軌跡避免碰撞,而驗證場景有助于確定規(guī)劃器的改進(jìn)。
核心思想是,通過學(xué)習(xí)生成的交通運動模型可能性,衡量優(yōu)化過程中場景的合理性,該模型鼓勵場景具有挑戰(zhàn)性,但又真實。因此,STRIVE不會提前選擇特定的對抗,而是聯(lián)合優(yōu)化所有場景智體,從而產(chǎn)生多種多樣的場景。此外,為了適應(yīng)實踐中廣泛使用的不可微(或不可訪問)規(guī)劃器,所提出的優(yōu)化在學(xué)習(xí)的運動模型中使用規(guī)劃器的可微智體表征,從而允許用標(biāo)準(zhǔn)的基于梯度方法進(jìn)行優(yōu)化。
STRIVE不了解規(guī)劃器的內(nèi)部結(jié)構(gòu),也無法通過它計算梯度。不可取行為包括與其他車輛發(fā)生碰撞、不能駕駛地形、駕駛不舒適(如高加速)以及違反交通法規(guī)。雖然公式是一般性的,原則上可以處理其他目標(biāo)(objective)函數(shù)優(yōu)化,但重點是與規(guī)劃器一起生成車輛碰撞相關(guān)的事故多發(fā)場景。
如圖是學(xué)習(xí)的交通模型測試架構(gòu):為了對場景所有智體未來軌跡進(jìn)行聯(lián)合采樣,首先對每個智體分別處理過去的運動和局部地圖環(huán)境信息。然后,計算條件先驗,輸出每個節(jié)點的潛分布,該分布可通過auto regressive(AR)解碼器進(jìn)行采樣饋入,預(yù)測未來的智體軌跡。
為了在測試時對未來運動進(jìn)行采樣,使用條件先驗網(wǎng)絡(luò)和解碼器;兩者都是圖神經(jīng)網(wǎng)絡(luò)(GNN),在所有智體全連接的場景圖運行。先驗?zāi)P?/strong>,包括一組智體的潛向量。輸入場景圖的每個節(jié)點都包含從該智體過去軌跡提取的上下文特征、局部光柵化地圖、邊界框大小和語義類等。消息傳遞(message passing)后,先驗網(wǎng)絡(luò)輸出場景中每個智體的高斯分布參數(shù),形成“分布”潛表征,捕捉未來可能的變化。
確定性解碼器在場景圖操作,每個節(jié)點都有采樣的潛向量和過去軌跡上下文。解碼是自回歸(AR)方式執(zhí)行的:在時間步t,一輪消息傳遞在預(yù)測每個智體加速之前解決交互;通過運動自行車模型,加速度立即獲得下一個狀態(tài),該狀態(tài)在繼續(xù)展開之前更新軌跡上下文。解碼器的可決定性和圖結(jié)構(gòu)鼓勵場景一致的未來,即使在智體獨立采樣時也是如此。重要的是,對于潛向量優(yōu)化,即使輸入潛向量不太可能,解碼器通過動態(tài)自行車模型確保合理的車輛動力學(xué)。
與場景交互模塊一樣,先驗網(wǎng)絡(luò)、后驗(編碼器)網(wǎng)絡(luò)和解碼器都是圖神經(jīng)網(wǎng)絡(luò)(GNN),包括edge network, aggregation function, 和 update network。解碼器會加入一個RNN(GRU)架構(gòu)。
如圖所示:在對抗性優(yōu)化的每個步驟,規(guī)劃器和非自車的潛表征都用學(xué)習(xí)的解碼器進(jìn)行解碼,非自車軌跡提供給規(guī)劃器在場景中展開。最后,計算各個損失。
論文【5】是英偉達(dá)的工作,采用一種數(shù)據(jù)驅(qū)動的方法,并提出了一種可以學(xué)習(xí)真實駕駛?cè)罩旧山煌ㄐ袨榈姆椒?。該方法將交通模擬問題解耦為高級意圖推理和低級駕駛行為模擬,利用駕駛行為的雙層結(jié)構(gòu),實現(xiàn)了高采樣效率和行為多樣性。
該方法還結(jié)合一個規(guī)劃模型,獲得穩(wěn)定的長期行為效果。用兩個大規(guī)模駕駛數(shù)據(jù)集場景對方法進(jìn)行經(jīng)驗驗證,該方法稱為BITS(Bi-level Simulation for Traffic Simulation),并表明BITS在真實性、多樣性和長時穩(wěn)定性方面實現(xiàn)了平衡的交通模擬性能。
如圖是BITS的框架:決策上下文ct是一個張量,包含語義圖和光柵化智體歷史,按通道連接在一起。給定ct作為輸入,(1)空間目標(biāo)網(wǎng)絡(luò)產(chǎn)生短視野目標(biāo)的2D空間分布,(2)目標(biāo)條件(goal-conditioned)策略為每個采樣目標(biāo)(goal)生成一組動作,(3)軌跡預(yù)測模型預(yù)測相鄰智體的未來運動,以及最后(4)基于預(yù)測的未來狀態(tài),該框架選擇讓基于規(guī)則的成本函數(shù)最小化的一組動作。
交通模擬可以描述為有監(jiān)督的模仿學(xué)習(xí)問題。然而,城市駕駛的性質(zhì)帶來了重大的技術(shù)挑戰(zhàn)。首先,由于模型無法訪問演示者的潛在意圖和其他與決策相關(guān)的線索,例如其他車輛的轉(zhuǎn)向信號,因此是一個部分觀察的決策過程。因此,動作監(jiān)督本質(zhì)上是模糊的,通常用概率分布建模。
雖然這種模糊性使訓(xùn)練復(fù)雜化,但有效地建模動作分布也可以生成不同的反事實(counterfactual)交通模擬。其次,由于每個智體的行為沒有明確的協(xié)調(diào),它們的聯(lián)合行為生成了一個可能未來狀態(tài)的組合空間。這種不確定性使得生成穩(wěn)定的交通模擬非常具有挑戰(zhàn)性。
交通模仿模型的目標(biāo),是通過學(xué)習(xí)真實世界的駕駛?cè)罩荆ㄗ鳛檠菔荆?,來產(chǎn)生各種各樣的合理行為。軌跡預(yù)測中的大多數(shù)現(xiàn)有方法用深度潛變量模型(例如VAE)來捕獲行為分布。然而,學(xué)習(xí)生成穩(wěn)定的長視野行為需要大量的訓(xùn)練數(shù)據(jù)。相反,這里提出的方法將學(xué)習(xí)問題分解為(1)訓(xùn)練高層目標(biāo)網(wǎng)絡(luò),捕獲可能的短期目標(biāo)空間分布,以及(2)訓(xùn)練確定性目標(biāo)條件策略,學(xué)習(xí)如何達(dá)到預(yù)測目標(biāo)。
空間目標(biāo)網(wǎng)絡(luò)(goal network)利用駕駛運動的2D BEV結(jié)構(gòu),并用2D網(wǎng)格高效地表示空間目標(biāo)分布。這種分解將多模態(tài)軌跡建模的負(fù)擔(dān),轉(zhuǎn)移到高級目標(biāo)預(yù)測器,使低級目標(biāo)條件策略能夠重用達(dá)成目標(biāo)的技能,提高樣本效率。
這樣一個雙層模擬學(xué)習(xí)方法,可以從有限的數(shù)據(jù)中生成合理的交通模仿。該策略可以從多模態(tài)空間目標(biāo)預(yù)測器中采樣,綜合各種行為。然而,該策略的執(zhí)行仍然受到訓(xùn)練數(shù)據(jù)規(guī)模和覆蓋范圍的限制。
駕駛?cè)罩酒蛴谡P袨?,幾乎不包含碰撞或越野駕駛等安全-緊要情況。生成多樣行為的目標(biāo)進(jìn)一步放大了這一挑戰(zhàn),因為鼓勵智體進(jìn)入地圖上未見過的區(qū)域并創(chuàng)建新的交互。因此,為了實現(xiàn)穩(wěn)定的長時間模擬,即使在缺乏訓(xùn)練數(shù)據(jù)指導(dǎo)的狀態(tài)下,智體也必須生成合理的行為。
為此,建議使用預(yù)測和規(guī)劃模塊來增強(qiáng)策略,以穩(wěn)定長期軌跡展開。
該方法類似于典型的模塊化AV堆棧中的運動規(guī)劃流水線,重要的區(qū)別在于,用學(xué)習(xí)的策略生成類人運動軌跡候選。關(guān)鍵思想是,策略πθ可以直接跟蹤分布內(nèi)狀態(tài)下的數(shù)據(jù)似然,其中大多數(shù)行為樣本都遵循規(guī)則,在最可能的動作可能導(dǎo)致不良后果的狀態(tài)下,接受糾正指導(dǎo)。此外,采樣模塊允許在無需再訓(xùn)練的情況下對模擬器進(jìn)行靈活調(diào)整(例如,多樣性水平、多個目標(biāo)的強(qiáng)調(diào))。
參考文獻(xiàn)
【1】“Advsim: Generating safety-critical scenarios for self-driving vehicles“, CVPR 2021
【2】“SceneGen: Learning to Generate Realistic Traffic Scenes”,arXiv 2101.06541,2021
【3】“SimNet: Learning Reactive Self-driving Simulations from Real-world Observations”,arXiv 2105.12332,2021
【4】“Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic Prior”,CVPR,2022
【5】“BITS: Bi-level Imitation for Traffic Simulation“,arXiv 2208.12403,2022
廣告 最新資訊
-
“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)
2026-03-03 12:44
-
十年耐久監(jiān)管時代:電池系統(tǒng)開發(fā)策略將如何
2026-03-03 12:44
-
聯(lián)合國法規(guī)R59對機(jī)動車備用消聲系統(tǒng)的工程
2026-03-03 12:08
-
聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約
2026-03-03 12:07
-
聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工
2026-03-03 12:07





廣告


























































