日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

SHAIL:帶安全-覺(jué)察的城市環(huán)境自動(dòng)駕駛分級(jí)對(duì)抗模仿學(xué)習(xí)

2022-05-05 16:32:52·  來(lái)源:計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv上2022年4月上傳論文“SHAIL: Safety-Aware Hierarchical Adversarial Imitation Learning for Autonomous Driving in Urban Environments“,作者來(lái)自斯坦

arXiv上2022年4月上傳論文“SHAIL: Safety-Aware Hierarchical Adversarial Imitation Learning for Autonomous Driving in Urban Environments“,作者來(lái)自斯坦福大學(xué)和德國(guó)KIT。

圖片


生成模仿學(xué)習(xí)是通過(guò)現(xiàn)實(shí)世界和模擬決策來(lái)自動(dòng)制定策略的一種方法。以前生成模仿學(xué)習(xí)應(yīng)用于自動(dòng)駕駛策略的工作,側(cè)重于學(xué)習(xí)簡(jiǎn)單設(shè)置的低級(jí)控制器。然而,為擴(kuò)展到復(fù)雜設(shè)置,許多自動(dòng)駕駛系統(tǒng),將固定、安全、基于優(yōu)化的低級(jí)控制器與能選擇適當(dāng)任務(wù)和相關(guān)控制器的高級(jí)決策邏輯相結(jié)合。


本文試圖用Safety-Aware Hierarchical Adversarial Imitation Learning(SHAIL)來(lái)彌合這種復(fù)雜性差距,SHAIL是一種學(xué)習(xí)高級(jí)策略的方法,以帶策略(on-policy)模仿低級(jí)駕駛數(shù)據(jù)的方式從一組低級(jí)控制器實(shí)例中進(jìn)行選擇。該文引入一個(gè)城市環(huán)形交叉路口模擬器,該模擬器用來(lái)自在伯克利開(kāi)源Interaction數(shù)據(jù)集的真實(shí)數(shù)據(jù)來(lái)控制非自車。


實(shí)現(xiàn)代碼可見(jiàn)在 https://github.com/sisl/InteractionImitation。


下圖是示意圖:通過(guò)SHAIL,自車學(xué)會(huì)從一組安全高級(jí)選項(xiàng)中進(jìn)行選擇,Interaction數(shù)據(jù)集所派生的復(fù)雜駕駛環(huán)境進(jìn)行導(dǎo)航。這里可學(xué)習(xí)的只有低級(jí)專家狀態(tài)和動(dòng)作。

圖片


最優(yōu)決策一般在MDP環(huán)境定義,包括狀態(tài)空間、動(dòng)作空間和狀態(tài)轉(zhuǎn)移函數(shù),以及獎(jiǎng)勵(lì)函數(shù)、初始狀態(tài)分布和discount系數(shù)γ。MDP的策略通過(guò)動(dòng)作影射狀態(tài)到一個(gè)分布,一個(gè)最優(yōu)策略最大化累計(jì)discounted獎(jiǎng)勵(lì)。在強(qiáng)化學(xué)習(xí)設(shè)置中,確切的轉(zhuǎn)換和獎(jiǎng)勵(lì)函數(shù) T 和 R 是未知的,但可以與環(huán)境交互,接收下一狀態(tài)和獎(jiǎng)勵(lì)生成的樣本。


在模仿學(xué)習(xí)設(shè)置中,不接收獎(jiǎng)勵(lì)信號(hào),而是依賴于與環(huán)境交互的專家以軌跡推出的形式提供數(shù)據(jù)。模仿學(xué)習(xí)問(wèn)題可以看作是專家和學(xué)習(xí)者分布之間的時(shí)刻匹配(moment matching)問(wèn)題,方法可以大致描述為以下幾種:無(wú)策略(off-policy)的Q-價(jià)值時(shí)刻,帶策略的Q-價(jià)值時(shí)刻或獎(jiǎng)勵(lì)時(shí)刻。


在模仿學(xué)習(xí)設(shè)置中學(xué)習(xí)策略的最直接方法是通過(guò)行為克隆 (BC),其中受監(jiān)督的學(xué)習(xí)者將狀態(tài)回歸動(dòng)作。這種方法在自動(dòng)駕駛系統(tǒng)中有著悠久的歷史。行為克隆在測(cè)試過(guò)程中會(huì)有錯(cuò)誤的累積,因?yàn)橹求w最終會(huì)進(jìn)入訓(xùn)練期間未見(jiàn)過(guò)的狀態(tài),這種現(xiàn)象通常被稱為協(xié)變量移位(covariance shift)。


在某策略π下的狀態(tài)-動(dòng)作占用度量,是訪問(wèn)狀態(tài)和動(dòng)作的(非規(guī)范化)γ- discounted平穩(wěn)分布。同樣地,也可以定義專家策略的狀態(tài)-行動(dòng)占用度量。一種觀點(diǎn)將模仿學(xué)習(xí)表述為專家和學(xué)習(xí)的占用度量之間的時(shí)刻匹配問(wèn)題,其通過(guò)最小化相關(guān)分布之間的一些f-散度來(lái)實(shí)現(xiàn)。在帶策略獎(jiǎng)勵(lì)時(shí)刻匹配設(shè)置中,這個(gè)目標(biāo)(objective)可以寫(xiě)成帶策略生成器和觀測(cè)-動(dòng)作鑒別器之間的雙人博弈:

圖片


這個(gè)優(yōu)化方法可以在優(yōu)化鑒別器參數(shù)的discriminator gradient ascent 步和優(yōu)化隨機(jī)策略的policy gradient ascent 步之間切換,后者可以看成是帶獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)。而兩個(gè)步驟都可以用蒙特卡洛方法(和一個(gè)replay buffer)估計(jì)其期望。


首先把前面目標(biāo)函數(shù)定義為一個(gè)分層找到生成狀態(tài)和動(dòng)作的一個(gè)策略:將占用度量在選項(xiàng)擴(kuò)展,這些選項(xiàng)在執(zhí)行期間會(huì)引向狀態(tài) s 和動(dòng)作 a,以及該選項(xiàng)開(kāi)始執(zhí)行的初始狀態(tài)。擴(kuò)展在時(shí)間 τ 開(kāi)始執(zhí)行選項(xiàng) o 的初始狀態(tài) sτ = h,在該初始狀態(tài)下,在時(shí)間 t 低級(jí)的狀態(tài)s和動(dòng)作 a可以被觀察:

圖片


應(yīng)用這個(gè)分層占用度量表征,可以把度量匹配目標(biāo)函數(shù)定義為一種分層策略數(shù)據(jù)生成的形式:

圖片


這里鑒別器更新保持不變,而生成器更新采用策略梯度算法,其中新的“想象”高級(jí)獎(jiǎng)勵(lì)累積執(zhí)行該選項(xiàng)discounted低級(jí)“想象”鑒別器獎(jiǎng)勵(lì)。


許多實(shí)際策略梯度的實(shí)現(xiàn),都依賴于固定大小的動(dòng)作空間?;诖?,這里僅限于一個(gè)選項(xiàng)集,其中任何選項(xiàng)都可以從每個(gè)狀態(tài)做初始化。就安全性而言,這種假設(shè)可能非常有限。通常,有來(lái)自不同狀態(tài)的受限選項(xiàng)信息(例如,Accelerate 選項(xiàng)不應(yīng)從紅燈中獲?。?。此外,也許能夠?qū)Σ煌刂破鞯陌踩赃M(jìn)行預(yù)測(cè)。例如,通過(guò)控制器的可達(dá)性(reachability)公式嚴(yán)格去做,或者通過(guò)場(chǎng)景理解更寬松地完成(例如,“由于有車輛穿過(guò)十字路口,因此轉(zhuǎn)彎可能不安全”)。SHAIL設(shè)計(jì)一個(gè)在選項(xiàng)安全性包含敏感性的高級(jí)“選項(xiàng)-選擇(option-selection)”策略,改進(jìn)了前面的分層對(duì)抗模仿學(xué)習(xí)(hierarchical adversarial imitation learning)公式。


假設(shè)智體可以推斷來(lái)自不同狀態(tài)不同選項(xiàng)的安全性或可用性,以此納入安全意識(shí)。該文引入一個(gè)二進(jìn)制隨機(jī)變量 z,它預(yù)測(cè)低級(jí)控制器的安全性或可用性,表示選項(xiàng) o 從高級(jí)狀態(tài) s 執(zhí)行時(shí)是安全的概率。這樣設(shè)計(jì)選項(xiàng)就可以根據(jù)此安全預(yù)測(cè)將控制傳遞回高級(jí)選項(xiàng)的選擇器。


基于此控制器安全性,可以設(shè)計(jì)高級(jí)控制器:

圖片


此高級(jí)控制器根據(jù)選項(xiàng)的安全預(yù)測(cè)重新加權(quán)(或掩碼)選項(xiàng)概率。此方案需要至少一個(gè)具有非零安全概率的選項(xiàng)(例如,永久的“安全”控制器),否則這個(gè)高級(jí)策略將不表示在控制器的有效分布。另外,要學(xué)習(xí)有用選項(xiàng)的選擇器,其應(yīng)該具有一些在不同初始化狀態(tài)下成立的語(yǔ)義意思。


通過(guò)策略梯度學(xué)習(xí)具有此策略的選項(xiàng)選擇器,需要將選項(xiàng)啟動(dòng)期間看到的安全概率存入replay buffer中。

Interaction仿真器在https://github.com/sisl/InteractionSimulator,是一個(gè)開(kāi)源OpenAI Gym仿真器,取Interaction數(shù)據(jù)集的數(shù)據(jù)。仿真器本身根據(jù)Interaction數(shù)據(jù)集中記錄的數(shù)據(jù),即車輛路徑和生成時(shí)間,并允許控制場(chǎng)景中一個(gè)或所有智體做加速。如果僅控制自車,則非自車的策略將從數(shù)據(jù)集中場(chǎng)景重放。


如圖所示是SHAIL與環(huán)境交互時(shí)學(xué)到的策略在單個(gè)時(shí)間步長(zhǎng)的情況:自車可以獲得自己的運(yùn)動(dòng)狀態(tài)和類似激光雷達(dá)、最多可以包括五輛周圍車輛的相對(duì)狀態(tài)信息。

圖片


實(shí)驗(yàn)中專注于單一智體的控制,允許策略確定自車沿其軌道加速。當(dāng)車輛離開(kāi)現(xiàn)場(chǎng)時(shí),模擬將終止。自車遵循一個(gè)雙積分器轉(zhuǎn)換模型(double integrator transition model)沿著其記錄的路徑移動(dòng),而非自車則遵循其記錄的軌跡。

實(shí)驗(yàn)中和其他方法,即Generative Adversarial Imitation Learning (GAIL)  ,還有行為克隆、IDM和專家模型(interaction數(shù)據(jù)集),進(jìn)行比較。


SHAIL的高級(jí)控制器從一組選項(xiàng)中進(jìn)行選擇,這些選項(xiàng)針對(duì)特定未來(lái)時(shí)間的特定速度。每個(gè)選項(xiàng)的低級(jí)控制器命令固定加速度,車輛在所需時(shí)間可達(dá)到所需的速度。安全預(yù)測(cè)器返回一個(gè)二進(jìn)制指示器,用于指示如果該選項(xiàng)保持其速度,是否會(huì)與其他車輛碰撞。因此,該實(shí)驗(yàn)的安全層類似于確定性規(guī)劃安全層(deterministic planning safety layer)。此外,重寫(xiě)最大減速選項(xiàng),使其始終有效,成為默認(rèn)的“安全”選項(xiàng) HardBrake。同樣,用PPO的目標(biāo)來(lái)衡量策略梯度。這里額外學(xué)習(xí)了一個(gè)沒(méi)有安全層或者選擇早終止(early termination)的SHAIL版本,即HAIL。


實(shí)驗(yàn)集中在環(huán)形交叉路口的模型性能上,這是自動(dòng)駕駛導(dǎo)航慣常的棘手場(chǎng)景。有兩個(gè)實(shí)驗(yàn):第一個(gè)實(shí)驗(yàn)(ID)在同一環(huán)境訓(xùn)練和測(cè)試模型,該環(huán)境僅從第一個(gè)軌道文件中選擇車輛,此實(shí)驗(yàn)?zāi)康氖潜容^絕對(duì)潛在模型性能;第二個(gè)實(shí)驗(yàn)(OOD)選擇做訓(xùn)練和驗(yàn)證的環(huán)境,從場(chǎng)景記錄1-4中隨機(jī)選擇車輛,并在場(chǎng)景5上報(bào)告指標(biāo)。這種OOD測(cè)試評(píng)估模型在未見(jiàn)過(guò)車輛數(shù)據(jù)上的表現(xiàn),盡管仍然在相同的駕駛環(huán)境中運(yùn)行。在這兩個(gè)實(shí)驗(yàn)中,超參(例如模型架構(gòu)、選項(xiàng)集等)都是選擇訓(xùn)練環(huán)境中產(chǎn)生最高成功率的進(jìn)行優(yōu)化。

圖片




分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25