SHAIL：帶安全-覺(jué)察的城市環(huán)境自動(dòng)駕駛分級(jí)對(duì)抗模仿學(xué)習(xí)

2022-05-05 16:32:52· 來(lái)源：計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv上2022年4月上傳論文“SHAIL: Safety-Aware Hierarchical Adversarial Imitation Learning for Autonomous Driving in Urban Environments“，作者來(lái)自斯坦

arXiv上2022年4月上傳論文“SHAIL: Safety-Aware Hierarchical Adversarial Imitation Learning for Autonomous Driving in Urban Environments“，作者來(lái)自斯坦福大學(xué)和德國(guó)KIT。

生成模仿學(xué)習(xí)是通過(guò)現(xiàn)實(shí)世界和模擬決策來(lái)自動(dòng)制定策略的一種方法。以前生成模仿學(xué)習(xí)應(yīng)用于自動(dòng)駕駛策略的工作，側(cè)重于學(xué)習(xí)簡(jiǎn)單設(shè)置的低級(jí)控制器。然而，為擴(kuò)展到復(fù)雜設(shè)置，許多自動(dòng)駕駛系統(tǒng)，將固定、安全、基于優(yōu)化的低級(jí)控制器與能選擇適當(dāng)任務(wù)和相關(guān)控制器的高級(jí)決策邏輯相結(jié)合。

本文試圖用Safety-Aware Hierarchical Adversarial Imitation Learning（SHAIL）來(lái)彌合這種復(fù)雜性差距，SHAIL是一種學(xué)習(xí)高級(jí)策略的方法，以帶策略（on-policy）模仿低級(jí)駕駛數(shù)據(jù)的方式從一組低級(jí)控制器實(shí)例中進(jìn)行選擇。該文引入一個(gè)城市環(huán)形交叉路口模擬器，該模擬器用來(lái)自在伯克利開(kāi)源Interaction數(shù)據(jù)集的真實(shí)數(shù)據(jù)來(lái)控制非自車。

實(shí)現(xiàn)代碼可見(jiàn)在 https://github.com/sisl/InteractionImitation。

下圖是示意圖：通過(guò)SHAIL，自車學(xué)會(huì)從一組安全高級(jí)選項(xiàng)中進(jìn)行選擇，Interaction數(shù)據(jù)集所派生的復(fù)雜駕駛環(huán)境進(jìn)行導(dǎo)航。這里可學(xué)習(xí)的只有低級(jí)專家狀態(tài)和動(dòng)作。

最優(yōu)決策一般在MDP環(huán)境定義，包括狀態(tài)空間、動(dòng)作空間和狀態(tài)轉(zhuǎn)移函數(shù)，以及獎(jiǎng)勵(lì)函數(shù)、初始狀態(tài)分布和discount系數(shù)γ。MDP的策略通過(guò)動(dòng)作影射狀態(tài)到一個(gè)分布，一個(gè)最優(yōu)策略最大化累計(jì)discounted獎(jiǎng)勵(lì)。在強(qiáng)化學(xué)習(xí)設(shè)置中，確切的轉(zhuǎn)換和獎(jiǎng)勵(lì)函數(shù) T 和 R 是未知的，但可以與環(huán)境交互，接收下一狀態(tài)和獎(jiǎng)勵(lì)生成的樣本。

在模仿學(xué)習(xí)設(shè)置中，不接收獎(jiǎng)勵(lì)信號(hào)，而是依賴于與環(huán)境交互的專家以軌跡推出的形式提供數(shù)據(jù)。模仿學(xué)習(xí)問(wèn)題可以看作是專家和學(xué)習(xí)者分布之間的時(shí)刻匹配（moment matching）問(wèn)題，方法可以大致描述為以下幾種：無(wú)策略（off-policy）的Q-價(jià)值時(shí)刻，帶策略的Q-價(jià)值時(shí)刻或獎(jiǎng)勵(lì)時(shí)刻。

在模仿學(xué)習(xí)設(shè)置中學(xué)習(xí)策略的最直接方法是通過(guò)行為克隆（BC），其中受監(jiān)督的學(xué)習(xí)者將狀態(tài)回歸動(dòng)作。這種方法在自動(dòng)駕駛系統(tǒng)中有著悠久的歷史。行為克隆在測(cè)試過(guò)程中會(huì)有錯(cuò)誤的累積，因?yàn)橹求w最終會(huì)進(jìn)入訓(xùn)練期間未見(jiàn)過(guò)的狀態(tài)，這種現(xiàn)象通常被稱為協(xié)變量移位（covariance shift）。

在某策略π下的狀態(tài)-動(dòng)作占用度量，是訪問(wèn)狀態(tài)和動(dòng)作的（非規(guī)范化）γ- discounted平穩(wěn)分布。同樣地，也可以定義專家策略的狀態(tài)-行動(dòng)占用度量。一種觀點(diǎn)將模仿學(xué)習(xí)表述為專家和學(xué)習(xí)的占用度量之間的時(shí)刻匹配問(wèn)題，其通過(guò)最小化相關(guān)分布之間的一些f-散度來(lái)實(shí)現(xiàn)。在帶策略獎(jiǎng)勵(lì)時(shí)刻匹配設(shè)置中，這個(gè)目標(biāo)（objective）可以寫(xiě)成帶策略生成器和觀測(cè)-動(dòng)作鑒別器之間的雙人博弈：

這個(gè)優(yōu)化方法可以在優(yōu)化鑒別器參數(shù)的discriminator gradient ascent 步和優(yōu)化隨機(jī)策略的policy gradient ascent 步之間切換，后者可以看成是帶獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)。而兩個(gè)步驟都可以用蒙特卡洛方法（和一個(gè)replay buffer）估計(jì)其期望。

首先把前面目標(biāo)函數(shù)定義為一個(gè)分層找到生成狀態(tài)和動(dòng)作的一個(gè)策略：將占用度量在選項(xiàng)擴(kuò)展，這些選項(xiàng)在執(zhí)行期間會(huì)引向狀態(tài) s 和動(dòng)作 a，以及該選項(xiàng)開(kāi)始執(zhí)行的初始狀態(tài)。擴(kuò)展在時(shí)間 τ 開(kāi)始執(zhí)行選項(xiàng) o 的初始狀態(tài) sτ = h，在該初始狀態(tài)下，在時(shí)間 t 低級(jí)的狀態(tài)s和動(dòng)作 a可以被觀察：

應(yīng)用這個(gè)分層占用度量表征，可以把度量匹配目標(biāo)函數(shù)定義為一種分層策略數(shù)據(jù)生成的形式：

這里鑒別器更新保持不變，而生成器更新采用策略梯度算法，其中新的“想象”高級(jí)獎(jiǎng)勵(lì)累積執(zhí)行該選項(xiàng)discounted低級(jí)“想象”鑒別器獎(jiǎng)勵(lì)。

許多實(shí)際策略梯度的實(shí)現(xiàn)，都依賴于固定大小的動(dòng)作空間?；诖?，這里僅限于一個(gè)選項(xiàng)集，其中任何選項(xiàng)都可以從每個(gè)狀態(tài)做初始化。就安全性而言，這種假設(shè)可能非常有限。通常，有來(lái)自不同狀態(tài)的受限選項(xiàng)信息（例如，Accelerate 選項(xiàng)不應(yīng)從紅燈中獲?。?。此外，也許能夠?qū)Σ煌刂破鞯陌踩赃M(jìn)行預(yù)測(cè)。例如，通過(guò)控制器的可達(dá)性（reachability）公式嚴(yán)格去做，或者通過(guò)場(chǎng)景理解更寬松地完成（例如，“由于有車輛穿過(guò)十字路口，因此轉(zhuǎn)彎可能不安全”）。SHAIL設(shè)計(jì)一個(gè)在選項(xiàng)安全性包含敏感性的高級(jí)“選項(xiàng)-選擇（option-selection）”策略，改進(jìn)了前面的分層對(duì)抗模仿學(xué)習(xí)（hierarchical adversarial imitation learning）公式。

假設(shè)智體可以推斷來(lái)自不同狀態(tài)不同選項(xiàng)的安全性或可用性，以此納入安全意識(shí)。該文引入一個(gè)二進(jìn)制隨機(jī)變量 z，它預(yù)測(cè)低級(jí)控制器的安全性或可用性，表示選項(xiàng) o 從高級(jí)狀態(tài) s 執(zhí)行時(shí)是安全的概率。這樣設(shè)計(jì)選項(xiàng)就可以根據(jù)此安全預(yù)測(cè)將控制傳遞回高級(jí)選項(xiàng)的選擇器。

基于此控制器安全性，可以設(shè)計(jì)高級(jí)控制器：

此高級(jí)控制器根據(jù)選項(xiàng)的安全預(yù)測(cè)重新加權(quán)（或掩碼）選項(xiàng)概率。此方案需要至少一個(gè)具有非零安全概率的選項(xiàng)（例如，永久的“安全”控制器），否則這個(gè)高級(jí)策略將不表示在控制器的有效分布。另外，要學(xué)習(xí)有用選項(xiàng)的選擇器，其應(yīng)該具有一些在不同初始化狀態(tài)下成立的語(yǔ)義意思。

通過(guò)策略梯度學(xué)習(xí)具有此策略的選項(xiàng)選擇器，需要將選項(xiàng)啟動(dòng)期間看到的安全概率存入replay buffer中。

Interaction仿真器在https://github.com/sisl/InteractionSimulator，是一個(gè)開(kāi)源OpenAI Gym仿真器，取Interaction數(shù)據(jù)集的數(shù)據(jù)。仿真器本身根據(jù)Interaction數(shù)據(jù)集中記錄的數(shù)據(jù)，即車輛路徑和生成時(shí)間，并允許控制場(chǎng)景中一個(gè)或所有智體做加速。如果僅控制自車，則非自車的策略將從數(shù)據(jù)集中場(chǎng)景重放。

如圖所示是SHAIL與環(huán)境交互時(shí)學(xué)到的策略在單個(gè)時(shí)間步長(zhǎng)的情況：自車可以獲得自己的運(yùn)動(dòng)狀態(tài)和類似激光雷達(dá)、最多可以包括五輛周圍車輛的相對(duì)狀態(tài)信息。

實(shí)驗(yàn)中專注于單一智體的控制，允許策略確定自車沿其軌道加速。當(dāng)車輛離開(kāi)現(xiàn)場(chǎng)時(shí)，模擬將終止。自車遵循一個(gè)雙積分器轉(zhuǎn)換模型（double integrator transition model）沿著其記錄的路徑移動(dòng)，而非自車則遵循其記錄的軌跡。

實(shí)驗(yàn)中和其他方法，即Generative Adversarial Imitation Learning (GAIL) ，還有行為克隆、IDM和專家模型（interaction數(shù)據(jù)集），進(jìn)行比較。

SHAIL的高級(jí)控制器從一組選項(xiàng)中進(jìn)行選擇，這些選項(xiàng)針對(duì)特定未來(lái)時(shí)間的特定速度。每個(gè)選項(xiàng)的低級(jí)控制器命令固定加速度，車輛在所需時(shí)間可達(dá)到所需的速度。安全預(yù)測(cè)器返回一個(gè)二進(jìn)制指示器，用于指示如果該選項(xiàng)保持其速度，是否會(huì)與其他車輛碰撞。因此，該實(shí)驗(yàn)的安全層類似于確定性規(guī)劃安全層（deterministic planning safety layer）。此外，重寫(xiě)最大減速選項(xiàng)，使其始終有效，成為默認(rèn)的“安全”選項(xiàng) HardBrake。同樣，用PPO的目標(biāo)來(lái)衡量策略梯度。這里額外學(xué)習(xí)了一個(gè)沒(méi)有安全層或者選擇早終止（early termination）的SHAIL版本，即HAIL。

實(shí)驗(yàn)集中在環(huán)形交叉路口的模型性能上，這是自動(dòng)駕駛導(dǎo)航慣常的棘手場(chǎng)景。有兩個(gè)實(shí)驗(yàn)：第一個(gè)實(shí)驗(yàn)（ID）在同一環(huán)境訓(xùn)練和測(cè)試模型，該環(huán)境僅從第一個(gè)軌道文件中選擇車輛，此實(shí)驗(yàn)?zāi)康氖潜容^絕對(duì)潛在模型性能；第二個(gè)實(shí)驗(yàn)（OOD）選擇做訓(xùn)練和驗(yàn)證的環(huán)境，從場(chǎng)景記錄1-4中隨機(jī)選擇車輛，并在場(chǎng)景5上報(bào)告指標(biāo)。這種OOD測(cè)試評(píng)估模型在未見(jiàn)過(guò)車輛數(shù)據(jù)上的表現(xiàn)，盡管仍然在相同的駕駛環(huán)境中運(yùn)行。在這兩個(gè)實(shí)驗(yàn)中，超參（例如模型架構(gòu)、選項(xiàng)集等）都是選擇訓(xùn)練環(huán)境中產(chǎn)生最高成功率的進(jìn)行優(yōu)化。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：為什么算法這么難？？？
上一篇：基于余熱利用的燃料電池汽車能量管理策略

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SHAIL：帶安全-覺(jué)察的城市環(huán)境自動(dòng)駕駛分級(jí)對(duì)抗模仿學(xué)習(xí)

微信公眾號(hào)

編輯推薦

最新資訊

開(kāi)年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SHAIL：帶安全-覺(jué)察的城市環(huán)境自動(dòng)駕駛分級(jí)對(duì)抗模仿學(xué)習(xí)

微信公眾號(hào)

編輯推薦

最新資訊

開(kāi)年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開(kāi)年豪擲1.8億搶用戶，又一車企加入“價(jià)格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將