日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

如何用逆強(qiáng)化學(xué)習(xí)在城市道路自動(dòng)駕駛

2022-06-09 18:43:39·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”,上傳于2022年6月,作者來自Motional。。本文介紹基于學(xué)習(xí)的規(guī)劃,逆強(qiáng)化學(xué)習(xí)(IRL)

arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”,上傳于2022年6月,作者來自Motional。

圖片


本文介紹基于學(xué)習(xí)的規(guī)劃,逆強(qiáng)化學(xué)習(xí)(IRL)如何在密集的城市交通中駕駛汽車。規(guī)劃器DriveIRL生成一組不同的軌跡提議,用一個(gè)輕量級(jí)且可解釋的安全濾波器對(duì)這些軌跡進(jìn)行過濾,然后一個(gè)學(xué)習(xí)模型對(duì)每個(gè)剩余軌跡進(jìn)行評(píng)分。最后自動(dòng)駕駛車的低級(jí)控制器跟蹤最佳軌跡。


在最大熵IRL框架內(nèi),在拉斯維加斯500多小時(shí)專家駕駛演示的真實(shí)世界數(shù)據(jù)集上訓(xùn)練軌跡評(píng)分模型。DriveIRL的優(yōu)點(diǎn)包括:由于只學(xué)習(xí)軌跡評(píng)分函數(shù),設(shè)計(jì)簡(jiǎn)單,功能相對(duì)可解釋,強(qiáng)大的真實(shí)數(shù)據(jù)駕駛性能。在拉斯維加斯大道驗(yàn)證了DriveIRL,并演示在交通繁忙的情況下完全自動(dòng)駕駛,包括切入、前車突然剎車以及酒店接送(dropoff/pickup)區(qū)。該數(shù)據(jù)集打算將公開。

DriveIRL方法產(chǎn)生一組自車運(yùn)動(dòng)軌跡,并評(píng)估是否安全。仔細(xì)構(gòu)建這些擬定軌跡可確保其a)動(dòng)態(tài)可行,b)遵循路線,c)滿足車輛控制器的假設(shè),以及d)多樣性。然后,用一個(gè)輕量級(jí)安全濾波器,確保每條軌跡滿足一個(gè)遞歸安全保證:如果執(zhí)行軌跡的第一部分,則存在該軌跡的安全延續(xù)性,從而避免碰撞。


模型的學(xué)習(xí)部分完全側(cè)重于根據(jù)專家演示對(duì)這些軌跡進(jìn)行合理的評(píng)分。其設(shè)計(jì)將模型容量導(dǎo)向行為中難以指定的細(xì)微差別(例如速度曲線、車輛間距),而不是創(chuàng)建“良好”的軌跡,可避免明顯的不安全行為。

如圖是DriveIRL架構(gòu)圖:

圖片


· 輸入

用中級(jí)表征對(duì)自動(dòng)駕駛汽車周圍的環(huán)境(或場(chǎng)景)進(jìn)行編碼。假設(shè)自車定位在一個(gè)高清地圖中,目標(biāo)被感知系統(tǒng)檢測(cè)和跟蹤。其他道路用戶(如汽車、自行車和行人)由目標(biāo)類型、定向邊框和速度表示。高清地圖提供車道中心線、道路邊界、紅綠燈位置、人行橫道、速度限制和其他語(yǔ)義信息。還提供一條路線,指示自車朝目標(biāo)前進(jìn)應(yīng)該穿過的車道。


將給定時(shí)間戳的場(chǎng)景上下文稱為a)自車動(dòng)態(tài)S(速度、加速度、轉(zhuǎn)向),b)其他道路用戶U(類型、定向邊框、速度),c)地圖M,以及d)自車的期望路線R。模型接收當(dāng)前時(shí)間戳的場(chǎng)景上下文以及指定數(shù)量的歷史時(shí)間戳(例如,過去1秒)作為歷史H。


· 輸出

規(guī)劃器生成多個(gè)自車軌跡,并根據(jù)其與專家在給定場(chǎng)景背景駕駛數(shù)據(jù)的匹配程度對(duì)每個(gè)軌跡進(jìn)行評(píng)分。軌跡是自車未來狀態(tài)的離散序列,假設(shè)在所有狀態(tài)之間有一個(gè)固定的時(shí)間步長(zhǎng)。設(shè)st=(x,y,θ,v)表示時(shí)間t的狀態(tài),位置(x,y)、航向θ和速度v。所有值都與固定坐標(biāo)系中自車的幾何中心有關(guān)。軌跡表示τ=[s1,…,sT],其中T是一組軌跡中排名最好的規(guī)劃時(shí)間范圍,用作車輛跟蹤和執(zhí)行器控制器參考。


· 軌跡生成

軌跡生成模塊用場(chǎng)景上下文為自車合成一組可能的未來運(yùn)動(dòng)。自車軌跡的重要考慮因素是:a)動(dòng)態(tài)可行,b)滿足低水平跟蹤和執(zhí)行器控制的所有要求(即連續(xù)性水平、最小轉(zhuǎn)彎半徑、停車的最小加速度)。次要考慮因素是軌跡符合地圖(例如,停留在道路上)。雖然這些考慮因素并不排除使用一個(gè)學(xué)習(xí)軌跡生成模塊,但發(fā)現(xiàn)手動(dòng)設(shè)計(jì)軌跡生成器最能滿足上述考慮因素。


軌跡生成器使用i)當(dāng)前自狀態(tài)S,ii)路徑R,以及iii)地圖M,來創(chuàng)建一組不同的自軌跡T,執(zhí)行器沿自車前方的路線集成所需的加速度曲線。在實(shí)驗(yàn)中,指定一系列恒定加速度曲線,包括硬剎車(?5.0m/s2)至中等加速度(1.5m/s2)。由于自車不總是在車道中心線上(車輛控制器跟蹤錯(cuò)誤造成的),將初始自車姿勢(shì)與Dubins paths(LaVall)平滑連接,其中轉(zhuǎn)彎半徑是一組固定的參數(shù)。在典型場(chǎng)景中,軌跡生成器通常根據(jù)自狀態(tài)和路線創(chuàng)建50-150條軌跡。


如圖顯示了一些示例:

圖片


· 安全濾波器

在對(duì)候選軌跡評(píng)分之前,用可解釋的安全過濾器來保證基本安全(即無碰撞)。它包括:

  • 一組用于預(yù)測(cè)非自車道路使用者行為的世界假設(shè)

  • 一組應(yīng)用于自車軌跡的軌跡修正器

  • 修改后的自車軌跡需要通過的一組安全檢查


為了使候選軌跡視為安全,必須在給定的軌跡修改和對(duì)其他道路使用者的假設(shè)下通過所有安全檢查。


如圖所示:

圖片


安全濾波器在精神上類似于后備(fallback)層,不同之處在于1)它直接濾除提議的軌跡,而不是將輸出軌跡投影到特定的軌跡集中;2)軌跡修改器有效地實(shí)現(xiàn)遞歸安全保證,假設(shè)和檢查最少,不會(huì)影響舒適度。


· 軌跡打分

正確地對(duì)軌跡進(jìn)行評(píng)分是規(guī)劃方法的核心挑戰(zhàn)。這一困難是因?yàn)檎_的駕駛行為受到周圍環(huán)境的嚴(yán)重影響,包括其他道路使用者的行為和目標(biāo),對(duì)此規(guī)劃器只有部分了解。


軌跡打分由經(jīng)過最大熵IRL損失訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)計(jì)算。從駕駛車輛的熟練司機(jī)那里收集專家演示數(shù)據(jù)。損失傾向于在特征空間中最接近專家演示的軌跡。特別地,讓r(τ)表示軌跡τ的回報(bào)∈ T,軌跡被選擇的概率根據(jù)最大熵原理得到:

圖片


而NLL(negative log-likelihood)損失則是

圖片


最后采用focal loss增強(qiáng)得到:

圖片


每個(gè)提議軌跡的特征可計(jì)算作為神經(jīng)網(wǎng)絡(luò)的輸入。這些特征可以基于擬定軌跡τ、自狀態(tài)S、其他道路使用者U、地圖M、路線R和歷史H的任意組合。特征包括:

  1. 碰撞時(shí)間(TTC):自車在(預(yù)測(cè)的)未來與其他道路使用者碰撞之前的最短秒計(jì)量。在多點(diǎn)進(jìn)行評(píng)估。

  2. ACCInfo:自速度、與前方道路使用者的距離、前方道路使用者的速度以及前方道路使用者的相對(duì)速度。在多點(diǎn)進(jìn)行評(píng)估。

  3. MaxJerk:沿軌跡的最大抖動(dòng)(m/s3)。

  4. MaxLateralAccel:沿軌跡的最大橫向加速度(m/s2)。

  5. PastCoupling:未來軌跡與過去一秒鐘自車姿態(tài)的串聯(lián),保持過去、現(xiàn)在和未來軌跡之間的一致性。

  6. SpeedLimit:軌跡遵守速度限制的程度。在多點(diǎn)進(jìn)行評(píng)估。


如圖是軌跡打分的架構(gòu)圖:

圖片


· 軌跡預(yù)測(cè)

每個(gè)擬定軌跡的某些特征計(jì)算需要估計(jì)其他道路使用者未來的位置,例如碰撞時(shí)間(TTC)和ACCInfo。用智能駕駛員模型(IDM)作為其他汽車的預(yù)測(cè)模型,采用保守加速度值,避免認(rèn)為靜止車輛會(huì)加速。對(duì)行人和無附近車道的車輛使用恒速模型。


· 模型體系結(jié)構(gòu)

為了給一條軌跡打分,在一種體系結(jié)構(gòu)中通過掩碼自注意機(jī)制,在提取的特征發(fā)生交互之前進(jìn)行單獨(dú)處理。


在該體系結(jié)構(gòu)下,每個(gè)輸入特征fi作為相關(guān)車輛-環(huán)境交互數(shù)據(jù)的時(shí)間序列,首先通過一個(gè)BatchNormalD層進(jìn)行規(guī)范化,然后再饋送到一個(gè)LSTM模塊。LSTM的輸出成為前饋模塊的輸入,接著是一個(gè)具有兩個(gè)頭部和120嵌入維度的自注意機(jī)制。這里用查詢的零掩碼(zero-masking)來編碼位置。


通過自注意考慮其他特征,該模型為每個(gè)特征生成一個(gè)“校正”的輸出嵌入,傳遞給前饋網(wǎng)絡(luò),該網(wǎng)絡(luò)將其轉(zhuǎn)換為標(biāo)量,然后激活tanh生成特征打分yi。軌跡的最終得分是這些特征得分乘以相應(yīng)的可學(xué)習(xí)特征權(quán)重參數(shù)wi后的總和。總的來說,基本(最佳)模型有約88700個(gè)訓(xùn)練參數(shù)。

作者創(chuàng)建了一個(gè)自動(dòng)駕駛汽車數(shù)據(jù)集,該數(shù)據(jù)集捕獲了拉斯維加斯市中心的真實(shí)城市駕駛情況。其作為nuPlan數(shù)據(jù)集的一部分,將公開。包括目標(biāo)標(biāo)注和高清地圖。車輛、行人和騎自行車人使用離線感知系統(tǒng)進(jìn)行自動(dòng)標(biāo)注(類似于谷歌waymo的AutoLabeling),并被視為真值。濾波并提取182032個(gè)場(chǎng)景,每個(gè)場(chǎng)景持續(xù)11秒(過去1秒,未來10秒),總計(jì)約556小時(shí)。


工作感興趣是學(xué)習(xí)良好的ACC性能。因此,過濾掉了自變道或偏離車道很遠(yuǎn)的場(chǎng)景。過濾后,對(duì)train、val和test集執(zhí)行了3:1:1分割。如表1按場(chǎng)景標(biāo)記顯示數(shù)據(jù)集的詳細(xì)分布:表中的標(biāo)記不是互斥的,一個(gè)場(chǎng)景可以屬于多個(gè)標(biāo)記。

圖片

特征重要性分析:

圖片


數(shù)據(jù)增強(qiáng)分析:

圖片

模型架構(gòu)比較:

圖片

損失函數(shù)比較:

圖片


真實(shí)駕駛實(shí)驗(yàn)結(jié)果:

在公路部署之前,DriveIRL在模擬和私人封閉路線上都經(jīng)過了嚴(yán)格測(cè)試。模擬測(cè)試包括與部署目標(biāo)相同的拉斯維加斯大道路線,并涉及自車的高保真動(dòng)力學(xué)模型和存在各種行為的眾多參與者。當(dāng)部署在狹長(zhǎng)地帶時(shí),車輛由一名司機(jī)駕駛,其經(jīng)過培訓(xùn),能夠接管操作領(lǐng)域以外的不安全行為和情況,包括施工區(qū)、公共汽車站和應(yīng)急車輛。


在大道上,規(guī)劃器處理了各種具有挑戰(zhàn)性的場(chǎng)景,如交通擁擠、強(qiáng)行切入、不可預(yù)測(cè)的司機(jī)以及酒店賭場(chǎng)附近繁忙的乘客上下車區(qū)。


在沒有安全濾波器的情況下,車輛在11英里路線的8.8英里內(nèi)保持自動(dòng)模式。強(qiáng)制接管區(qū)域直接放棄,意外行為發(fā)生了兩次。


有了安全濾波器,車輛在8.5英里中的6.9英里內(nèi)保持自動(dòng)模式,只有在強(qiáng)制接管地區(qū)才會(huì)發(fā)生接管。


如圖顯示了一個(gè)典型的機(jī)動(dòng)動(dòng)作,其中自動(dòng)駕駛車輛在被多輛車包圍的情況下平穩(wěn)地停在前面的一輛車后面。

圖片

還有不少視頻剪輯,基本按以下類別進(jìn)行分組:切入、在乘客上下車區(qū)周圍駕駛、在前方有車的時(shí)候駕駛和在車輛后方停車。

圖片


圖片


圖片



分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25