ICCV‘21論文：模仿一個強化學習教練的端到端城市駕駛

2022-01-18 23:28:58· 來源：計算機視覺深度學習和自動駕駛作者：黃浴

arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“，作者主要來自瑞士蘇黎世ETH的Luc Van Gool組

arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“，作者主要來自瑞士蘇黎世ETH的Luc Van Gool組。

自動駕駛的端到端方法，通常依賴于專家演示。對帶策略（on-policy）密集監(jiān)督的端到端算法來說，人盡管是優(yōu)秀的司機，但并不是很好的教練。相反，靠特別提供信息的自動化專家可以有效地生成大規(guī)模帶策略（on-policy）和不帶策略（off-policy）演示。

然而，現(xiàn)有的城市駕駛自動化專家使用大量手工制定的規(guī)則，即使在有真值信息的駕駛模擬器上也表現(xiàn)不佳。為了解決這些問題，作者訓練了一個強化學習（RL）專家，將鳥瞰圖（BEV）圖像映射到連續(xù)的低層動作。

該專家在為開源仿真器 CARLA 設(shè)置新的性能上限的同時，還是一位更佳的教練，為模仿學習（IL）智體提供學習的信息化監(jiān)督信號。在這個強化學習（RL）教練的監(jiān)督下，一個單目攝像頭端到端的基準智體實現(xiàn)了專家級性能。

該端到端智體實現(xiàn)了 78% 的成功率，在更具挑戰(zhàn)性的 CARLA LeaderBoard，獲得了最佳的性能。另外，代碼上線：https://github.com/zhejz/carla-roach。

雖然模仿學習 (IL) 方法直接模仿專家的行為，但強化學習 (RL) 方法通常用專家演示的監(jiān)督學習對模型的一部分進行預訓練，這樣提高樣本效率。一般來說，專家演示可以分為兩類：

（i）不帶策略（off-policy），專家直接控制系統(tǒng)，狀態(tài)/觀測分布隨專家。自動駕駛的無策略數(shù)據(jù)包括一些公共駕駛數(shù)據(jù)集，如nuScenes，Lyft level 5，Bdd100k；
(ii) 帶策略（on-policy），系統(tǒng)由所需的智體控制，專家對數(shù)據(jù)進行“標記”；在這種情況下，狀態(tài)/觀測分布隨智體，但可以接觸專家演示數(shù)據(jù)；有策略數(shù)據(jù)是緩解協(xié)變量遷移（covariate shift）現(xiàn)象的基礎(chǔ)，因為它允許智體從自己的錯誤中學習，而不帶策略數(shù)據(jù)的專家沒有出現(xiàn)這種錯誤。

然而，從人那里收集足夠的帶策略演示并非易事。雖然可以在不帶策略數(shù)據(jù)收集過程中直接記錄人類專家采取的軌跡和行動，但在給定傳感器測量值的情況下標記這些專家給出的目標，對人來說還是一項具有挑戰(zhàn)性的任務(wù)。在實踐中，只有稀疏事件，比如人為干預等被記錄，由于其包含的信息有限，難以訓練，更加適合強化學習（RL）而不是模仿學習（IL）。

該工作專注于自動化專家，與人類專家相比，無論是帶策略還是不帶策略，自動化專家可以生成大規(guī)模密集標注數(shù)據(jù)集。為了達到專家級的性能，自動化專家可能依賴詳盡的計算、昂貴的傳感器甚至真值信息，因此直接部署是不可取的。

盡管一些模仿學習（IL）方法不需要帶策略（on-policy）標注，例如生成對抗模仿學習（Generative adversarial imitation learning，GAIL）和逆強化學習（IRL），但與環(huán)境的帶策略（on-policy）交互，效率不高。相反，自動化專家可以減少昂貴的帶策略（on-policy）交互，這使模仿學習（IL）能夠成功地將自動化專家應(yīng)用于自動駕駛的不同方面。

自動駕駛仿真器CARLA 的“專家”，通常稱為 Autopilot（或漫游智體）。Autopilot 可以訪問真實模擬狀態(tài)，但由于用了手工制定的規(guī)則，其駕駛技能無法與人類專家相提并論。模仿學習（IL）可以看成是知識遷移，但是只是從專家行動中學習是不夠有效的。

Autopilot 由兩個軌跡跟蹤的 PID 控制器和緊急制動的危害（hazard）檢測器組成。危害包括

前方檢測到行人/車輛；
前方檢測到紅燈/停車信號；
自車負速度，用于處理斜坡。

如果自車前方的觸發(fā)區(qū)域出現(xiàn)任何危害，Autopilot 會緊急剎車：油門=0，轉(zhuǎn)向 = 0，剎車 = 1；如果沒有檢測到危險，自車通過兩個 PID 控制器沿著所需路徑行駛，一個用于速度控制，另一個用于轉(zhuǎn)向控制；PID 控制器將自車的位置、旋轉(zhuǎn)和速度作為輸入，指定的路線是密集（1 米間隔）的航路點；速度的PID 產(chǎn)生油門，轉(zhuǎn)向的 PID 產(chǎn)生轉(zhuǎn)向；手動調(diào)整PID 控制器和危害檢測器的參數(shù)，使得Autopilot 作為一個強大的基準方法（目標速度為 6 m/s）。

從頭開始訓練10M步之后，Roach超越基于規(guī)則的Autopilot，為CARLA設(shè)定了新的性能上限。從Roach專家進行學習時，可以訓練模仿學習（IL）智體，并研究更有效的訓練技術(shù)。鑒于神經(jīng)網(wǎng)絡(luò)的策略采用，Roach可以當同樣基于神經(jīng)網(wǎng)絡(luò)的模仿學習（IL）智體更好的教練。

Roach為模仿學習（IL）智體提供了許多可供學習的信息化目標，這遠遠超出了其他專家提供的確定性動作。文章中展示了動作分布、價值估計和潛在特征為監(jiān)督的有效性。

如圖就是作者提出的Roach (RL coach)：這是一個在CARLA仿真器上Roach 標注的帶策略（on-policy）監(jiān)督進行學習的方案。Roach 的輸出在 CARLA 上可驅(qū)動車輛去記錄來自 Roach 的不帶策略數(shù)據(jù)。除了利用 3D 檢測算法和其他傳感器來合成 BEV之外，Roach 還可以解決現(xiàn)實世界中帶策略監(jiān)督稀缺的問題。

作者認為這個方法是可行的，因為一方面BEV作為一種強大的抽象表示減少了仿真到真實的差距，另一方面策略標注不必實時或甚至在線（onboard）產(chǎn)生。給定完整的序列，3D 檢測變得更容易。

Roach具有三個特點：

首先，與之前的強化學習（ RL ）智體相比，Roach 不依賴于其他專家的數(shù)據(jù)；
其次，與CARLA仿真器基于規(guī)則的Autopilot 不同，Roach 是端到端可訓練的，因此可通過少量的工程工作推廣到新的場景；
第三，采樣效率高，基于輸入/輸出表證和探索（exploration）損失，在單個GPU機器從頭開始訓練 Roach不到一周的時間，在 CARLA的六個LeaderBoard地圖獲得頂級專家性能。

Roach由一個策略網(wǎng)絡(luò)和一個價值網(wǎng)絡(luò)組成。策略網(wǎng)絡(luò)將 BEV 圖像和測量向量映射到一個動作分布。最后，價值網(wǎng)絡(luò)用和策略網(wǎng)絡(luò)相同的輸入估計一個標量值輸出。

如圖是Roach的每個BEV表證通道：（有些相似谷歌waymo之前的工作）

可行駛區(qū)域和預期路線分別在圖（ a ）和（b ）中呈現(xiàn)。在圖（c ）中，實線為白色，虛線為灰色。圖（ d ）是 K 個灰度圖像的時間序列，其中自行車和車輛被渲染為白色邊框。圖（ e ）與圖（d ）相同，但針對行人。類似地，交通燈處的停止線和停止標志的觸發(fā)區(qū)域在圖（f ）中呈現(xiàn)。紅燈和停車標志按最亮的級別著色，黃燈按中間級別著色，綠燈按較暗級別著色。如果停車標志處于活動狀態(tài)，則呈現(xiàn)停車標志，即自車進入其附近并在自車完全停止后消失。

通過BEV 表證記住自車是否停止，用無循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)架構(gòu)，減少 Roach 的模型大小。前面的圖示給出了所有通道的彩色組合。給Roach 提供一個測量向量，其中包含 BEV未表證的自車狀態(tài)，包括轉(zhuǎn)向、油門、制動、閘門、橫向和橫向速度。

為了避免做參數(shù)調(diào)整和系統(tǒng)識別，Roach 直接預測動作分布。其動作空間主要是轉(zhuǎn)向和加速，加速度正值對應(yīng)油門，負值對應(yīng)剎車。這里用Beta分布描述動作。

與無模型強化學習（model-free RL）常常采用的高斯分布相比，Beta 分布的支持是有界的，避免了強制輸入約束的裁剪（clipping）或壓扁（squashing）操作。

這個會帶來表現(xiàn)更好的學習（better behaved learning）問題，因為不需要 tanh 層并且熵和 KL 散度可以明確計算。此外，Beta 分布的模態(tài)也適用于經(jīng)常進行極端操作的駕駛動作，例如緊急制動或急轉(zhuǎn)彎。

訓練采用帶裁剪的proximal policy optimization (PPO)方法訓練策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)（見論文“Proximal policy optimization algorithms“. arXiv:1707.06347, 2017）。

價值網(wǎng)絡(luò)訓練回歸期望回報，而策略網(wǎng)絡(luò)更新通過以下公式：

第一個目標 Lppo 是裁剪策略的梯度損失，采用廣義優(yōu)勢估計（generalized advantage estimation）估計其優(yōu)勢（見論文“High-dimensional continuous control using generalized advantage estimation“. ICLR, 2016）。第二個目標 Lent 是通常用于鼓勵探索（exploration）的最大熵損失直觀地講，Lent 將動作分布推向一個均勻先驗形式，因為最大化熵等效于最小化KL散度的均勻分布目標，如果二者共享同一支持的話。

這使得作者提出一種廣義形式，它鼓勵在合理的、符合基本交通規(guī)則的方向上進行探索，稱之為探索損失，定義為

其中終止條件集（terminal condition set）Z 包括碰撞、運行交通紅綠燈/標志、路線偏離和阻塞等插曲（episode）結(jié)束事件。

最大熵損失Lent在所有時間步都對動作施加統(tǒng)一的先驗分布，而不管哪個事件 z 被觸發(fā)；而探索損失Lexp在一個情節(jié)的最后 Nz （實踐中取100）步驟中把動作轉(zhuǎn)移到一個預定的探索先驗分布 pz，該探索先驗編碼了一個“建議（advice）”，防止觸發(fā)事件 z 再次發(fā)生。

如果 z 與碰撞或交通紅綠燈/標志有關(guān)，加速度先驗 pz = B(1，2.5) 以鼓勵 Roach 在不影響轉(zhuǎn)向的情況下減速。相反，如果汽車被阻擋，加速度先驗 pz=B(2.5，1)。對路線偏離，轉(zhuǎn)向的統(tǒng)一先驗pz= B(1，1)。盡管這種情況下等效于最大化熵，但探索損失在路線偏離前的最后 10 秒進一步鼓勵探索轉(zhuǎn)向角。

為了讓模仿學習（ IL ）智體從 Roach 生成的信息化監(jiān)督中受益，作者為每個監(jiān)督制定一個損失，這樣Roach 的訓練方案可用于提高現(xiàn)有模仿學習（IL）智體的性能。

本文以DA-RB為例（論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“，CVPR, 2020）它是CILRS（論文“Exploring the limitations of behavior cloning for autonomous driving“. ICCV, 2019）和DAGGER（論文“A reduction of imitation learning and structured prediction to no-regret online learning“. AISTATS, 2011)的結(jié)合。

整個網(wǎng)絡(luò)架構(gòu)如圖：包括（a）Roach和（b）CILRS

在（a）Roach架構(gòu)中，用六個卷積層對 BEV 進行編碼，兩個全連接 (FC) 層對測量向量進行編碼；兩個編碼器的輸出連接在一起，由另外兩個 FC 層處理產(chǎn)生潛在特征 jRL，然后輸入到價值頭和策略頭中，每個頭都有兩個 FC 隱藏層；軌跡以 10 FPS 頻率從六個 CARLA 服務(wù)器收集，每個服務(wù)器對應(yīng)六個LeaderBoard地圖的一個；在每一插曲的開始，隨機選擇一對起始位置和目標（target）位置，并使用 A* 搜索算法計算所需的路線；一旦達到目標，就選擇一個新的隨機目標；除非滿足 Z 的終止條件之一，否則該插曲不會結(jié)束。這里額外懲罰大的轉(zhuǎn)向變化以防止振蕩操作。為了避免高速違規(guī)，添加與自車速度成正比的額外懲罰。

在（b）CILRS架構(gòu)中，包括一個相機圖像編碼的感知模塊和一個測量向量編碼的測量模塊；兩個模塊的輸出由 FC 層連接和處理，生成瓶頸（bottleneck）潛在特征；導航指令作為離散的高級命令給出，并且為每種命令構(gòu)造一個分支；所有分支共享相同的架構(gòu)，而每個分支包含一個預測連續(xù)動作的動作頭和一個預測自車當前速度的速度頭；潛在特征由命令選擇的分支處理。

CILRS 的模仿目標包括 L1 動作損失

和速度預測的正則化

專家動作可能來自CARLA的Autopilot，它直接輸出確定性動作，或者來自 Roach，其將分布模態(tài)作為確定性輸出。除了確定性動作，Roach 還預測動作分布、價值和潛在特征。

動作分布損失：兩個分別被Roach和CILRS智體預測的動作分布之間KL-散度

特征損失：Roach的潛在特征

價值損失：用價值頭和回歸價值作為副任務(wù)來增強CILRS，其中價值損失是 Roach 估計和 CILRS 預測之間的均方誤差

采用CARLA的NoCrash和LeaderBoard做實驗評估算法。NoCrash 基準測試考慮從Town1（一個僅由單車道路和丁字路口組成的歐洲城鎮(zhèn)）到Town2（具有不同紋理的Town1 較小版本）的泛化。相比之下，LeaderBoard在六張地圖中考慮了一個更困難的泛化任務(wù)，涵蓋不同的交通情況，包括高速公路、美式路口、環(huán)形交叉路口、停車標志、車道變換和合并。

按照NoCrash 基準，測試了四種訓練天氣類型到兩種新天氣類型的泛化。為了節(jié)省計算資源，四種訓練天氣類型只評估了兩種。NoCrash 基準具有三個級別的交通密度（空曠、常規(guī)和密集），定義了每張地圖的行人和車輛數(shù)量。該文專注于 NoCrash-密集，并在常規(guī)和密集交通之間引入一個新的級別 NoCrash-繁忙（busy），以避免在密集交通環(huán)境經(jīng)常出現(xiàn)的擁堵。

對CARLA LeaderBoard，每張地圖的交通密度都經(jīng)過調(diào)整，與繁忙的交通設(shè)置有可比性。

一些實驗結(jié)果如下：

注：LBC來自論文“Learning by cheating“. CoRL, 2020. DARB來自論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“. CVPR, 2020。

注：SAM來自論文“Sam: Squeeze-and-mimic networks for conditional visual driving policy learning”，CoRL'20。LSD來自論文“Learning situational driving”，CVPR‘20。

未來的工作包括改進仿真基準測試和實際部署的性能。為使LeaderBoard飽和，模型容量應(yīng)增加。為用 Roach 標記真實世界的帶策略駕駛數(shù)據(jù)，除了照片真實感之外，還必須解決幾個模擬到真實的差距，BEV 部分緩解了這一差距。對于城市駕駛模擬器，道路使用者（包括行人和車輛）的真實行為至關(guān)重要。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：【直播實訓】適用于不同類型的電池的測試方法
上一篇：直播｜2022 （呼蘭）汽車冬季極寒測試技術(shù)云論壇

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

ICCV‘21論文：模仿一個強化學習教練的端到端城市駕駛

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工