日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

ICCV‘21論文:模仿一個強化學習教練的端到端城市駕駛

2022-01-18 23:28:58·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“,作者主要來自瑞士蘇黎世ETH的Luc Van Gool組
arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“,作者主要來自瑞士蘇黎世ETH的Luc Van Gool組。


自動駕駛的端到端方法,通常依賴于專家演示。對帶策略(on-policy)密集監(jiān)督的端到端算法來說,人盡管是優(yōu)秀的司機,但并不是很好的教練。相反,靠特別提供信息的自動化專家可以有效地生成大規(guī)模帶策略(on-policy)和不帶策略(off-policy)演示。
然而,現(xiàn)有的城市駕駛自動化專家使用大量手工制定的規(guī)則,即使在有真值信息的駕駛模擬器上也表現(xiàn)不佳。為了解決這些問題,作者訓練了一個強化學習(RL)專家,將鳥瞰圖(BEV)圖像映射到連續(xù)的低層動作。
該專家在為開源仿真器 CARLA 設(shè)置新的性能上限的同時,還是一位更佳的教練,為模仿學習(IL)智體提供學習的信息化監(jiān)督信號。在這個強化學習(RL)教練的監(jiān)督下,一個單目攝像頭端到端的基準智體實現(xiàn)了專家級性能。
該端到端智體實現(xiàn)了 78% 的成功率,在更具挑戰(zhàn)性的 CARLA LeaderBoard,獲得了最佳的性能。另外,代碼上線:https://github.com/zhejz/carla-roach。

雖然模仿學習 (IL) 方法直接模仿專家的行為,但強化學習 (RL) 方法通常用專家演示的監(jiān)督學習對模型的一部分進行預訓練,這樣提高樣本效率。一般來說,專家演示可以分為兩類:
  • (i)不帶策略(off-policy),專家直接控制系統(tǒng),狀態(tài)/觀測分布隨專家。自動駕駛的無策略數(shù)據(jù)包括一些公共駕駛數(shù)據(jù)集,如nuScenes,Lyft level 5,Bdd100k;
  • (ii) 帶策略(on-policy),系統(tǒng)由所需的智體控制,專家對數(shù)據(jù)進行“標記”;在這種情況下,狀態(tài)/觀測分布隨智體,但可以接觸專家演示數(shù)據(jù);有策略數(shù)據(jù)是緩解協(xié)變量遷移(covariate shift)現(xiàn)象的基礎(chǔ),因為它允許智體從自己的錯誤中學習,而不帶策略數(shù)據(jù)的專家沒有出現(xiàn)這種錯誤。
然而,從人那里收集足夠的帶策略演示并非易事。雖然可以在不帶策略數(shù)據(jù)收集過程中直接記錄人類專家采取的軌跡和行動,但在給定傳感器測量值的情況下標記這些專家給出的目標,對人來說還是一項具有挑戰(zhàn)性的任務(wù)。在實踐中,只有稀疏事件,比如人為干預等被記錄,由于其包含的信息有限,難以訓練,更加適合強化學習(RL)而不是模仿學習(IL)。
該工作專注于自動化專家,與人類專家相比,無論是帶策略還是不帶策略,自動化專家可以生成大規(guī)模密集標注數(shù)據(jù)集。為了達到專家級的性能,自動化專家可能依賴詳盡的計算、昂貴的傳感器甚至真值信息,因此直接部署是不可取的。
盡管一些模仿學習(IL) 方法不需要帶策略(on-policy)標注,例如 生成對抗模仿學習(Generative adversarial imitation learning,GAIL)和逆強化學習(IRL),但與環(huán)境的帶策略(on-policy)交互,效率不高。相反,自動化專家可以減少昂貴的帶策略(on-policy)交互,這使模仿學習(IL)能夠成功地將自動化專家應(yīng)用于自動駕駛的不同方面。
自動駕駛仿真器CARLA 的“專家”,通常稱為 Autopilot(或漫游智體)。Autopilot 可以訪問真實模擬狀態(tài),但由于用了手工制定的規(guī)則,其駕駛技能無法與人類專家相提并論。模仿學習(IL)可以看成是知識遷移,但是只是從專家行動中學習是不夠有效的。
Autopilot 由兩個軌跡跟蹤的 PID 控制器和緊急制動的危害(hazard)檢測器組成。危害包括
  • 前方檢測到行人/車輛;
  • 前方檢測到紅燈/停車信號;
  • 自車負速度,用于處理斜坡。
如果自車前方的觸發(fā)區(qū)域出現(xiàn)任何危害,Autopilot 會緊急剎車:油門=0,轉(zhuǎn)向 = 0,剎車 = 1;如果沒有檢測到危險,自車通過兩個 PID 控制器沿著所需路徑行駛,一個用于速度控制,另一個用于轉(zhuǎn)向控制;PID 控制器將自車的位置、旋轉(zhuǎn)和速度作為輸入,指定的路線是密集(1 米間隔)的航路點;速度 的PID 產(chǎn)生油門,轉(zhuǎn)向的 PID 產(chǎn)生轉(zhuǎn)向;手動調(diào)整PID 控制器和危害檢測器的參數(shù), 使得Autopilot 作為一個強大的基準方法(目標速度為 6 m/s)。
從頭開始訓練10M步之后,Roach超越基于規(guī)則的Autopilot,為CARLA設(shè)定了新的性能上限。從Roach專家進行學習時,可以訓練模仿學習(IL)智體,并研究更有效的訓練技術(shù)。鑒于神經(jīng)網(wǎng)絡(luò)的策略采用,Roach可以當同樣基于神經(jīng)網(wǎng)絡(luò)的模仿學習(IL)智體更好的教練。
Roach為模仿學習(IL)智體提供了許多可供學習的信息化目標,這遠遠超出了其他專家提供的確定性動作。文章中展示了動作分布、價值估計和潛在特征為監(jiān)督的有效性。
如圖就是作者提出的Roach (RL coach):這是一個在CARLA仿真器上Roach 標注的帶策略(on-policy)監(jiān)督進行學習的方案。Roach 的輸出在 CARLA 上可驅(qū)動車輛去記錄來自 Roach 的不帶策略數(shù)據(jù)。除了利用 3D 檢測算法和其他傳感器來合成 BEV之外,Roach 還可以解決現(xiàn)實世界中帶策略監(jiān)督稀缺的問題。

作者認為這個方法是可行的,因為一方面BEV作為一種強大的抽象表示減少了仿真到真實的差距,另一方面策略標注不必實時或甚至在線(onboard)產(chǎn)生。給定完整的序列,3D 檢測變得更容易。
Roach具有三個特點:
  • 首先,與之前的強化學習( RL )智體相比,Roach 不依賴于其他專家的數(shù)據(jù);
  • 其次,與CARLA仿真器基于規(guī)則的Autopilot 不同,Roach 是端到端可訓練的,因此可通過少量的工程工作推廣到新的場景;
  • 第三,采樣效率高,基于輸入/輸出表證和探索(exploration)損失,在單個GPU機器從頭開始訓練 Roach不到一周的時間,在 CARLA的六個LeaderBoard地圖獲得頂級專家性能。
Roach由一個策略網(wǎng)絡(luò)和一個價值網(wǎng)絡(luò)組成。策略網(wǎng)絡(luò)將 BEV 圖像和測量向量 映射到一個動作分布。最后,價值網(wǎng)絡(luò)用和策略網(wǎng)絡(luò)相同的輸入估計一個標量值輸出。
如圖是Roach的每個BEV表證通道:(有些相似谷歌waymo之前的工作)


可行駛區(qū)域和預期路線分別在圖( a )和 (b )中呈現(xiàn)。在圖 (c )中,實線為白色,虛線為灰色。圖( d )是 K 個灰度圖像的時間序列,其中自行車和車輛被渲染為白色邊框。圖( e )與圖 (d )相同,但針對行人。類似地,交通燈處的停止線和停止標志的觸發(fā)區(qū)域在圖(f )中呈現(xiàn)。紅燈和停車標志按最亮的級別著色,黃燈按中間級別著色,綠燈按較暗級別著色。如果停車標志處于活動狀態(tài),則呈現(xiàn)停車標志,即自車進入其附近并在自車完全停止后消失。
通過BEV 表證記住自車是否停止,用無循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)架構(gòu),減少 Roach 的模型大小。前面的圖示給出了所有通道的彩色組合。給Roach 提供一個測量向量,其中包含 BEV未表證的自車狀態(tài),包括轉(zhuǎn)向、油門、制動、閘門、橫向和橫向速度。
為了避免做參數(shù)調(diào)整和系統(tǒng)識別,Roach 直接預測動作分布。其動作空間主要是轉(zhuǎn)向和加速,加速度正值對應(yīng)油門,負值對應(yīng)剎車。這里用Beta分布描述動作。

與無模型強化學習(model-free RL)常常采用的高斯分布相比,Beta 分布的支持是有界的,避免了強制輸入約束的裁剪(clipping)或壓扁(squashing)操作。
這個會帶來表現(xiàn)更好的學習(better behaved learning)問題,因為不需要 tanh 層并且熵和 KL 散度可以明確計算。此外,Beta 分布的模態(tài)也適用于經(jīng)常進行極端操作的駕駛動作,例如緊急制動或急轉(zhuǎn)彎。
訓練采用帶裁剪的proximal policy optimization (PPO)方法訓練策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)(見論文“Proximal policy optimization algorithms“. arXiv:1707.06347, 2017)。
價值網(wǎng)絡(luò)訓練回歸期望回報,而策略網(wǎng)絡(luò)更新通過以下公式:

第一個目標 Lppo 是裁剪策略的梯度損失,采用廣義優(yōu)勢估計(generalized advantage estimation)估計其優(yōu)勢(見論文“High-dimensional continuous control using generalized advantage estimation“. ICLR, 2016)。第二個目標 Lent 是通常用于鼓勵探索(exploration)的最大熵損失直觀地講,Lent 將動作分布推向一個均勻先驗形式,因為最大化熵等效于最小化KL散度的均勻分布目標,如果二者共享同一支持的話。

這使得作者提出一種廣義形式,它鼓勵在合理的、符合基本交通規(guī)則的方向上進行探索,稱之為探索損失,定義為

其中終止條件集 (terminal condition set)Z 包括碰撞、運行交通紅綠燈/標志、路線偏離和阻塞等插曲(episode)結(jié)束事件。
最大熵損失Lent在所有時間步都對動作施加統(tǒng)一的先驗分布,而不管哪個事件 z 被觸發(fā);而探索損失Lexp在一個情節(jié)的最后 Nz (實踐中取100)步驟中把動作轉(zhuǎn)移到一個預定的探索先驗分布 pz,該探索先驗編碼了一個“建議(advice)”,防止觸發(fā)事件 z 再次發(fā)生。
如果 z 與碰撞或交通紅綠燈/標志有關(guān),加速度先驗 pz = B(1,2.5) 以鼓勵 Roach 在不影響轉(zhuǎn)向的情況下減速。相反,如果汽車被阻擋,加速度先驗 pz=B(2.5,1)。對路線偏離,轉(zhuǎn)向的統(tǒng)一先驗pz= B(1,1)。盡管這種情況下等效于最大化熵,但探索損失在路線偏離前的最后 10 秒進一步鼓勵探索轉(zhuǎn)向角。
為了讓模仿學習( IL )智體從 Roach 生成的信息化監(jiān)督中受益,作者為每個監(jiān)督制定一個損失,這樣Roach 的訓練方案可用于提高現(xiàn)有模仿學習(IL)智體的性能。
本文以DA-RB為例( 論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“,CVPR, 2020)它是CILRS(論文“Exploring the limitations of behavior cloning for autonomous driving“. ICCV, 2019)和DAGGER(論文“A reduction of imitation learning and structured prediction to no-regret online learning“. AISTATS, 2011)的結(jié)合。
整個網(wǎng)絡(luò)架構(gòu)如圖:包括(a)Roach和(b)CILRS

在(a)Roach架構(gòu)中,用六個卷積層對 BEV 進行編碼,兩個全連接 (FC) 層對測量向量進行編碼;兩個編碼器的輸出連接在一起,由另外兩個 FC 層處理產(chǎn)生潛在特征 jRL,然后輸入到價值頭和策略頭中,每個頭都有兩個 FC 隱藏層;軌跡以 10 FPS 頻率從六個 CARLA 服務(wù)器收集,每個服務(wù)器對應(yīng)六個LeaderBoard地圖的一個;在每一插曲的開始,隨機選擇一對起始位置和目標(target)位置,并使用 A* 搜索算法計算所需的路線;一旦達到目標,就選擇一個新的隨機目標;除非滿足 Z 的終止條件之一,否則該插曲不會結(jié)束。這里額外懲罰大的轉(zhuǎn)向變化以防止振蕩操作。為了避免高速違規(guī),添加與自車速度成正比的額外懲罰。
在(b)CILRS架構(gòu)中,包括一個相機圖像編碼的感知模塊和一個測量向量編碼的測量模塊;兩個模塊的輸出由 FC 層連接和處理,生成瓶頸(bottleneck)潛在特征;導航指令作為離散的高級命令給出,并且為每種命令構(gòu)造一個分支;所有分支共享相同的架構(gòu),而每個分支包含一個預測連續(xù)動作的動作頭和一個預測自車當前速度的速度頭;潛在特征由命令選擇的分支處理。
CILRS 的模仿目標包括 L1 動作損失

和速度預測的正則化

專家動作可能來自CARLA的Autopilot,它直接輸出確定性動作,或者來自 Roach,其將分布模態(tài)作為確定性輸出。除了確定性動作,Roach 還預測動作分布、價值和潛在特征。
動作分布損失:兩個分別被Roach和CILRS智體預測的動作分布之間KL-散度

特征損失:Roach的潛在特征

價值損失:用價值頭和回歸價值作為副任務(wù)來增強CILRS,其中價值損失是 Roach 估計和 CILRS 預測之間的均方誤差
采用CARLA的NoCrash和LeaderBoard做實驗評估算法。NoCrash 基準測試考慮從Town1(一個僅由單車道路和丁字路口組成的歐洲城鎮(zhèn))到Town2(具有不同紋理的Town1 較小版本)的泛化。相比之下,LeaderBoard在六張地圖中考慮了一個更困難的泛化任務(wù),涵蓋不同的交通情況,包括高速公路、美式路口、環(huán)形交叉路口、停車標志、車道變換和合并。
按照NoCrash 基準,測試了四種訓練天氣類型到兩種新天氣類型的泛化。為了節(jié)省計算資源,四種訓練天氣類型只評估了兩種。NoCrash 基準具有三個級別的交通密度(空曠、常規(guī)和密集),定義了每張地圖的行人和車輛數(shù)量。該文專注于 NoCrash-密集,并在常規(guī)和密集交通之間引入一個新的級別 NoCrash-繁忙(busy),以避免在密集交通環(huán)境經(jīng)常出現(xiàn)的擁堵。
對CARLA LeaderBoard,每張地圖的交通密度都經(jīng)過調(diào)整,與繁忙的交通設(shè)置有可比性。
一些實驗結(jié)果如下:

注:LBC來自論文“Learning by cheating“. CoRL, 2020. DARB來自論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“. CVPR, 2020。

注:SAM來自論文“Sam: Squeeze-and-mimic networks for conditional visual driving policy learning”,CoRL'20。LSD來自論文“Learning situational driving”,CVPR‘20。

未來的工作包括改進仿真基準測試和實際部署的性能。為使LeaderBoard飽和,模型容量應(yīng)增加。為用 Roach 標記真實世界的帶策略駕駛數(shù)據(jù),除了照片真實感之外,還必須解決幾個模擬到真實的差距,BEV 部分緩解了這一差距。對于城市駕駛模擬器,道路使用者(包括行人和車輛)的真實行為至關(guān)重要。
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25