如何用逆強(qiáng)化學(xué)習(xí)在城市道路自動(dòng)駕駛

2022-06-09 18:43:39· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”，上傳于2022年6月，作者來自Motional。。本文介紹基于學(xué)習(xí)的規(guī)劃，逆強(qiáng)化學(xué)習(xí)（IRL）

arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”，上傳于2022年6月，作者來自Motional。。

本文介紹基于學(xué)習(xí)的規(guī)劃，逆強(qiáng)化學(xué)習(xí)（IRL）如何在密集的城市交通中駕駛汽車。規(guī)劃器DriveIRL生成一組不同的軌跡提議，用一個(gè)輕量級(jí)且可解釋的安全濾波器對(duì)這些軌跡進(jìn)行過濾，然后一個(gè)學(xué)習(xí)模型對(duì)每個(gè)剩余軌跡進(jìn)行評(píng)分。最后自動(dòng)駕駛車的低級(jí)控制器跟蹤最佳軌跡。

在最大熵IRL框架內(nèi)，在拉斯維加斯500多小時(shí)專家駕駛演示的真實(shí)世界數(shù)據(jù)集上訓(xùn)練軌跡評(píng)分模型。DriveIRL的優(yōu)點(diǎn)包括：由于只學(xué)習(xí)軌跡評(píng)分函數(shù)，設(shè)計(jì)簡(jiǎn)單，功能相對(duì)可解釋，強(qiáng)大的真實(shí)數(shù)據(jù)駕駛性能。在拉斯維加斯大道驗(yàn)證了DriveIRL，并演示在交通繁忙的情況下完全自動(dòng)駕駛，包括切入、前車突然剎車以及酒店接送（dropoff/pickup）區(qū)。該數(shù)據(jù)集打算將公開。

DriveIRL方法產(chǎn)生一組自車運(yùn)動(dòng)軌跡，并評(píng)估是否安全。仔細(xì)構(gòu)建這些擬定軌跡可確保其a）動(dòng)態(tài)可行，b）遵循路線，c）滿足車輛控制器的假設(shè)，以及d）多樣性。然后，用一個(gè)輕量級(jí)安全濾波器，確保每條軌跡滿足一個(gè)遞歸安全保證：如果執(zhí)行軌跡的第一部分，則存在該軌跡的安全延續(xù)性，從而避免碰撞。

模型的學(xué)習(xí)部分完全側(cè)重于根據(jù)專家演示對(duì)這些軌跡進(jìn)行合理的評(píng)分。其設(shè)計(jì)將模型容量導(dǎo)向行為中難以指定的細(xì)微差別（例如速度曲線、車輛間距），而不是創(chuàng)建“良好”的軌跡，可避免明顯的不安全行為。

如圖是DriveIRL架構(gòu)圖：

· 輸入

用中級(jí)表征對(duì)自動(dòng)駕駛汽車周圍的環(huán)境（或場(chǎng)景）進(jìn)行編碼。假設(shè)自車定位在一個(gè)高清地圖中，目標(biāo)被感知系統(tǒng)檢測(cè)和跟蹤。其他道路用戶（如汽車、自行車和行人）由目標(biāo)類型、定向邊框和速度表示。高清地圖提供車道中心線、道路邊界、紅綠燈位置、人行橫道、速度限制和其他語(yǔ)義信息。還提供一條路線，指示自車朝目標(biāo)前進(jìn)應(yīng)該穿過的車道。

將給定時(shí)間戳的場(chǎng)景上下文稱為a）自車動(dòng)態(tài)S（速度、加速度、轉(zhuǎn)向），b）其他道路用戶U（類型、定向邊框、速度），c）地圖M，以及d）自車的期望路線R。模型接收當(dāng)前時(shí)間戳的場(chǎng)景上下文以及指定數(shù)量的歷史時(shí)間戳（例如，過去1秒）作為歷史H。

· 輸出

規(guī)劃器生成多個(gè)自車軌跡，并根據(jù)其與專家在給定場(chǎng)景背景駕駛數(shù)據(jù)的匹配程度對(duì)每個(gè)軌跡進(jìn)行評(píng)分。軌跡是自車未來狀態(tài)的離散序列，假設(shè)在所有狀態(tài)之間有一個(gè)固定的時(shí)間步長(zhǎng)。設(shè)st=（x，y，θ，v）表示時(shí)間t的狀態(tài)，位置（x，y）、航向θ和速度v。所有值都與固定坐標(biāo)系中自車的幾何中心有關(guān)。軌跡表示τ=[s1，…，sT]，其中T是一組軌跡中排名最好的規(guī)劃時(shí)間范圍，用作車輛跟蹤和執(zhí)行器控制器參考。

· 軌跡生成

軌跡生成模塊用場(chǎng)景上下文為自車合成一組可能的未來運(yùn)動(dòng)。自車軌跡的重要考慮因素是：a）動(dòng)態(tài)可行，b）滿足低水平跟蹤和執(zhí)行器控制的所有要求（即連續(xù)性水平、最小轉(zhuǎn)彎半徑、停車的最小加速度）。次要考慮因素是軌跡符合地圖（例如，停留在道路上）。雖然這些考慮因素并不排除使用一個(gè)學(xué)習(xí)軌跡生成模塊，但發(fā)現(xiàn)手動(dòng)設(shè)計(jì)軌跡生成器最能滿足上述考慮因素。

軌跡生成器使用i）當(dāng)前自狀態(tài)S，ii）路徑R，以及iii）地圖M，來創(chuàng)建一組不同的自軌跡T，執(zhí)行器沿自車前方的路線集成所需的加速度曲線。在實(shí)驗(yàn)中，指定一系列恒定加速度曲線，包括硬剎車(?5.0m/s2）至中等加速度（1.5m/s2）。由于自車不總是在車道中心線上（車輛控制器跟蹤錯(cuò)誤造成的），將初始自車姿勢(shì)與Dubins paths（LaVall）平滑連接，其中轉(zhuǎn)彎半徑是一組固定的參數(shù)。在典型場(chǎng)景中，軌跡生成器通常根據(jù)自狀態(tài)和路線創(chuàng)建50-150條軌跡。

如圖顯示了一些示例：

· 安全濾波器

在對(duì)候選軌跡評(píng)分之前，用可解釋的安全過濾器來保證基本安全（即無碰撞）。它包括：

一組用于預(yù)測(cè)非自車道路使用者行為的世界假設(shè)
一組應(yīng)用于自車軌跡的軌跡修正器
修改后的自車軌跡需要通過的一組安全檢查

為了使候選軌跡視為安全，必須在給定的軌跡修改和對(duì)其他道路使用者的假設(shè)下通過所有安全檢查。

如圖所示：

安全濾波器在精神上類似于后備（fallback）層，不同之處在于1）它直接濾除提議的軌跡，而不是將輸出軌跡投影到特定的軌跡集中；2）軌跡修改器有效地實(shí)現(xiàn)遞歸安全保證，假設(shè)和檢查最少，不會(huì)影響舒適度。

· 軌跡打分

正確地對(duì)軌跡進(jìn)行評(píng)分是規(guī)劃方法的核心挑戰(zhàn)。這一困難是因?yàn)檎_的駕駛行為受到周圍環(huán)境的嚴(yán)重影響，包括其他道路使用者的行為和目標(biāo)，對(duì)此規(guī)劃器只有部分了解。

軌跡打分由經(jīng)過最大熵IRL損失訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)計(jì)算。從駕駛車輛的熟練司機(jī)那里收集專家演示數(shù)據(jù)。損失傾向于在特征空間中最接近專家演示的軌跡。特別地，讓r（τ）表示軌跡τ的回報(bào)∈ T，軌跡被選擇的概率根據(jù)最大熵原理得到：

而NLL（negative log-likelihood）損失則是

最后采用focal loss增強(qiáng)得到：

每個(gè)提議軌跡的特征可計(jì)算作為神經(jīng)網(wǎng)絡(luò)的輸入。這些特征可以基于擬定軌跡τ、自狀態(tài)S、其他道路使用者U、地圖M、路線R和歷史H的任意組合。特征包括：

碰撞時(shí)間（TTC）：自車在（預(yù)測(cè)的）未來與其他道路使用者碰撞之前的最短秒計(jì)量。在多點(diǎn)進(jìn)行評(píng)估。
ACCInfo：自速度、與前方道路使用者的距離、前方道路使用者的速度以及前方道路使用者的相對(duì)速度。在多點(diǎn)進(jìn)行評(píng)估。
MaxJerk：沿軌跡的最大抖動(dòng)（m/s3）。
MaxLateralAccel：沿軌跡的最大橫向加速度（m/s2）。
PastCoupling：未來軌跡與過去一秒鐘自車姿態(tài)的串聯(lián)，保持過去、現(xiàn)在和未來軌跡之間的一致性。
SpeedLimit：軌跡遵守速度限制的程度。在多點(diǎn)進(jìn)行評(píng)估。

如圖是軌跡打分的架構(gòu)圖：

· 軌跡預(yù)測(cè)

每個(gè)擬定軌跡的某些特征計(jì)算需要估計(jì)其他道路使用者未來的位置，例如碰撞時(shí)間（TTC）和ACCInfo。用智能駕駛員模型（IDM）作為其他汽車的預(yù)測(cè)模型，采用保守加速度值，避免認(rèn)為靜止車輛會(huì)加速。對(duì)行人和無附近車道的車輛使用恒速模型。

· 模型體系結(jié)構(gòu)

為了給一條軌跡打分，在一種體系結(jié)構(gòu)中通過掩碼自注意機(jī)制，在提取的特征發(fā)生交互之前進(jìn)行單獨(dú)處理。

在該體系結(jié)構(gòu)下，每個(gè)輸入特征fi作為相關(guān)車輛-環(huán)境交互數(shù)據(jù)的時(shí)間序列，首先通過一個(gè)BatchNormalD層進(jìn)行規(guī)范化，然后再饋送到一個(gè)LSTM模塊。LSTM的輸出成為前饋模塊的輸入，接著是一個(gè)具有兩個(gè)頭部和120嵌入維度的自注意機(jī)制。這里用查詢的零掩碼（zero-masking）來編碼位置。

通過自注意考慮其他特征，該模型為每個(gè)特征生成一個(gè)“校正”的輸出嵌入，傳遞給前饋網(wǎng)絡(luò)，該網(wǎng)絡(luò)將其轉(zhuǎn)換為標(biāo)量，然后激活tanh生成特征打分yi。軌跡的最終得分是這些特征得分乘以相應(yīng)的可學(xué)習(xí)特征權(quán)重參數(shù)wi后的總和。總的來說，基本（最佳）模型有約88700個(gè)訓(xùn)練參數(shù)。

作者創(chuàng)建了一個(gè)自動(dòng)駕駛汽車數(shù)據(jù)集，該數(shù)據(jù)集捕獲了拉斯維加斯市中心的真實(shí)城市駕駛情況。其作為nuPlan數(shù)據(jù)集的一部分，將公開。包括目標(biāo)標(biāo)注和高清地圖。車輛、行人和騎自行車人使用離線感知系統(tǒng)進(jìn)行自動(dòng)標(biāo)注（類似于谷歌waymo的AutoLabeling），并被視為真值。濾波并提取182032個(gè)場(chǎng)景，每個(gè)場(chǎng)景持續(xù)11秒（過去1秒，未來10秒），總計(jì)約556小時(shí)。

工作感興趣是學(xué)習(xí)良好的ACC性能。因此，過濾掉了自變道或偏離車道很遠(yuǎn)的場(chǎng)景。過濾后，對(duì)train、val和test集執(zhí)行了3:1:1分割。如表1按場(chǎng)景標(biāo)記顯示數(shù)據(jù)集的詳細(xì)分布：表中的標(biāo)記不是互斥的，一個(gè)場(chǎng)景可以屬于多個(gè)標(biāo)記。

特征重要性分析：

數(shù)據(jù)增強(qiáng)分析：

模型架構(gòu)比較：

損失函數(shù)比較：

真實(shí)駕駛實(shí)驗(yàn)結(jié)果：

在公路部署之前，DriveIRL在模擬和私人封閉路線上都經(jīng)過了嚴(yán)格測(cè)試。模擬測(cè)試包括與部署目標(biāo)相同的拉斯維加斯大道路線，并涉及自車的高保真動(dòng)力學(xué)模型和存在各種行為的眾多參與者。當(dāng)部署在狹長(zhǎng)地帶時(shí)，車輛由一名司機(jī)駕駛，其經(jīng)過培訓(xùn)，能夠接管操作領(lǐng)域以外的不安全行為和情況，包括施工區(qū)、公共汽車站和應(yīng)急車輛。

在大道上，規(guī)劃器處理了各種具有挑戰(zhàn)性的場(chǎng)景，如交通擁擠、強(qiáng)行切入、不可預(yù)測(cè)的司機(jī)以及酒店賭場(chǎng)附近繁忙的乘客上下車區(qū)。

在沒有安全濾波器的情況下，車輛在11英里路線的8.8英里內(nèi)保持自動(dòng)模式。強(qiáng)制接管區(qū)域直接放棄，意外行為發(fā)生了兩次。

有了安全濾波器，車輛在8.5英里中的6.9英里內(nèi)保持自動(dòng)模式，只有在強(qiáng)制接管地區(qū)才會(huì)發(fā)生接管。

如圖顯示了一個(gè)典型的機(jī)動(dòng)動(dòng)作，其中自動(dòng)駕駛車輛在被多輛車包圍的情況下平穩(wěn)地停在前面的一輛車后面。

還有不少視頻剪輯，基本按以下類別進(jìn)行分組：切入、在乘客上下車區(qū)周圍駕駛、在前方有車的時(shí)候駕駛和在車輛后方停車。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：通用技術(shù)中國(guó)汽研與歐洲汽車工業(yè)協(xié)會(huì)開展線上交流
上一篇：康耐視In-Sight 9912 視覺系統(tǒng)幫助中外運(yùn)解決輪胎檢測(cè)問題

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

如何用逆強(qiáng)化學(xué)習(xí)在城市道路自動(dòng)駕駛

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工