綜述：基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛算法

2022-06-07 23:34:56· 來源：paperweekly 作者：陳道明（布里斯托爾大學(xué)）

這是 21 年的一篇綜述文章，可以算得上是最前沿的自動(dòng)駕駛技術(shù)綜述。這幾年隨著深度表征學(xué)習(xí)的發(fā)展，強(qiáng)化學(xué)習(xí)領(lǐng)域也得到了加強(qiáng)。本文會(huì)對(duì)目前最先進(jìn)的自動(dòng)駕駛 D

這是 21 年的一篇綜述文章，可以算得上是最前沿的自動(dòng)駕駛技術(shù)綜述。這幾年隨著深度表征學(xué)習(xí)的發(fā)展，強(qiáng)化學(xué)習(xí)領(lǐng)域也得到了加強(qiáng)。本文會(huì)對(duì)目前最先進(jìn)的自動(dòng)駕駛 DRL 算法進(jìn)行匯總和分類。

論文標(biāo)題：

Deep Reinforcement Learning for Autonomous Driving: A Survey

論文鏈接：

https://arxiv.org/abs/2002.00444

—— 01 簡介 ——

自動(dòng)駕駛系統(tǒng)（AD system），由多個(gè)級(jí)別的感知和控制任務(wù)組成，目前在感知方面，已經(jīng)可以通過深度學(xué)習(xí)架構(gòu)來實(shí)現(xiàn)。但在控制層面，經(jīng)典的監(jiān)督學(xué)習(xí)已經(jīng)不再使用，因?yàn)榇硇枰诿恳粋€(gè)瞬間做出動(dòng)作決策，這些決策可能會(huì)改變場景條件。

▲ 自動(dòng)駕駛各級(jí)別的任務(wù)

—— 02 AD system 的組成 ——

2.1 感知模塊（Preception Module）

感知模塊的目標(biāo)是創(chuàng)建環(huán)境狀態(tài)的中間級(jí)別表示（例如所有障礙物和代理的鳥瞰圖），稍后將由最終產(chǎn)生駕駛策略的決策系統(tǒng)使用。該狀態(tài)將包括車道位置、可行駛區(qū)域、代理（例如汽車和行人）的位置、交通信號(hào)燈的狀態(tài)等。感知中的不確定性傳播到信息鏈的其余部分。強(qiáng)大的傳感對(duì)于安全至關(guān)重要，因此使用冗余源可以提高檢測的信心。這是通過語義分割、運(yùn)動(dòng)估計(jì)、深度估計(jì)、污點(diǎn)檢測等幾種感知任務(wù)的組合來實(shí)現(xiàn)的，這些任務(wù)可以有效地統(tǒng)一成一個(gè)多任務(wù)模型。

焉知科技

，贊 7

▲ 多視角相機(jī)融合的鳥瞰

2.2 場景理解（Scene Understanding）

該模塊的作用是將感知模塊獲得的信息映射到高級(jí)動(dòng)作或決策層。該模塊旨在提供對(duì)場景的更高層次的理解，通過融合異構(gòu)傳感器源（如激光雷達(dá)、相機(jī)、雷達(dá)、超聲波），抽象和概括場景信息，為決策制定提供簡化的信息。2.3 定位和建圖（Localization and Mapping）定位和建圖技術(shù)，又稱 SLAM 是自動(dòng)駕駛的關(guān)鍵技術(shù)之一。由于問題的規(guī)模，傳統(tǒng)的 SLAM 技術(shù)通過語義對(duì)象檢測得到增強(qiáng)，以實(shí)現(xiàn)可靠的消歧。此外，局部高清地圖（HD maps）可以用作物體檢測的先驗(yàn)。

2.4 規(guī)劃和推動(dòng)策略（Planning and Driving Policy）

軌跡規(guī)劃是自動(dòng)駕駛中的關(guān)鍵模塊，在高清地圖或基于 GPS 的地圖上計(jì)劃路線，并引導(dǎo)代理生成運(yùn)動(dòng)層的命令。經(jīng)典運(yùn)動(dòng)計(jì)劃會(huì)忽略環(huán)境動(dòng)態(tài)和差分約束，因此類似于 A* 算法之類的基于 Djisktra 的算法在此問題中并不適用。而快速探索隨機(jī)樹（RRT）通過隨機(jī)采樣和無障礙路徑生成來探索配置空間。目前有多種版本的 RRT 被用于自動(dòng)駕駛管道中的運(yùn)動(dòng)規(guī)劃。2.5 控制（Control）這是最底層的運(yùn)動(dòng)控制，即汽車的加速加速，方向盤的轉(zhuǎn)動(dòng)角度，以及剎車。目前的車輛控制通常是基于經(jīng)典的最優(yōu)控制理論，通過狀態(tài)空間方程中的汽車當(dāng)前狀態(tài) 和控制輸入量來控制汽車。此方法通常使用 MPC 模型和 PID 控制器使車輛跟隨軌跡。但是目前自動(dòng)駕駛車輛通常使用的是強(qiáng)化學(xué)習(xí)，該方法的好處是可以處理隨機(jī)控制問題以及具有未知獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移概率的不適定問題。更多此方面的內(nèi)容推薦閱讀綜述文 [1]。
—— 03 強(qiáng)化學(xué)習(xí) ——強(qiáng)化學(xué)習(xí)（RL）是于監(jiān)督學(xué)習(xí)（Sueprvised Learning）和非監(jiān)督學(xué)習(xí)（Unsupervised Learning）之外的第三種機(jī)器學(xué)習(xí)（Machine Learning）方式。RL 通過一個(gè)代理來完成行動(dòng)策略。代理的目標(biāo)是最大化在其生命周期內(nèi)收到的累積獎(jiǎng)勵(lì)。代理可以通過利用了解不同狀態(tài)-動(dòng)作對(duì)的預(yù)期效用（即預(yù)期未來獎(jiǎng)勵(lì)的折扣和）的知識(shí)來逐漸增加其長期獎(jiǎng)勵(lì)。在形式化涉及單個(gè) RL 代理的順序決策問題時(shí)，馬爾可夫決策過程 (MDP) 是最流行的解決方法。MDP 由一個(gè)狀態(tài)集合、一個(gè)動(dòng)作集合、一個(gè)轉(zhuǎn)移函數(shù) 和一個(gè)獎(jiǎng)勵(lì)函數(shù) 組成。通過目標(biāo)是找到最優(yōu)策略，從而產(chǎn)生最高的折扣獎(jiǎng)勵(lì)總和期望值：

其中，是遵循策略的狀態(tài)值方程，是折扣系數(shù)，，用于控制代理如何看待未來的獎(jiǎng)勵(lì)，低值鼓勵(lì)代理人的短視行為，其中代理人旨在最大化短期獎(jiǎng)勵(lì)，而高值導(dǎo)致代理人更具前瞻性并在更長的時(shí)間范圍內(nèi)最大化獎(jiǎng)勵(lì)。為時(shí)間步數(shù)，它可以是有限的也可以是無限的。
另一個(gè)與狀態(tài)函數(shù)方程相關(guān)的是狀態(tài)-動(dòng)作方程，又稱為“Q值”：

▲ MDP 決策的組成部分和關(guān)系圖

在許多現(xiàn)實(shí)世界的應(yīng)用領(lǐng)域中，智能體不可能觀察到環(huán)境狀態(tài)的所有特征；在這種情況下，決策問題被表述為部分可觀察的馬爾可夫決策過程（POMDP）。解決強(qiáng)化學(xué)習(xí)任務(wù)意味著找到一個(gè)策略，該策略使?fàn)顟B(tài)空間中軌跡上的期望折扣總和最大化。
RL 代理可以直接學(xué)習(xí)價(jià)值函數(shù)估計(jì)、策略和/或環(huán)境模型。動(dòng)態(tài)規(guī)劃（DP）算法可用于在給定環(huán)境模型的獎(jiǎng)勵(lì)和轉(zhuǎn)移函數(shù)方面計(jì)算最優(yōu)策略。與 DP 不同，在 MonteCarlo 方法中沒有完整環(huán)境知識(shí)的假設(shè)。蒙特卡洛方法在逐集意義上是增量的。情節(jié)完成后，價(jià)值估計(jì)和政策被更新。
另一方面，時(shí)間差（TD）方法在逐步意義上是增量的，使其適用于非情節(jié)場景。與蒙特卡羅方法一樣，TD 方法可以直接從原始經(jīng)驗(yàn)中學(xué)習(xí)，而無需環(huán)境動(dòng)態(tài)模型。與 DP 一樣，TD 方法基于其他估計(jì)來學(xué)習(xí)它們的估計(jì)。

文章對(duì)于 RL 和 DRL 的算法進(jìn)行了綜合性的概述，這里不做詳細(xì)的解釋，建議系統(tǒng)性的學(xué)習(xí)這些算法。

—— 04 自動(dòng)駕駛?cè)蝿?wù)中的強(qiáng)化學(xué)習(xí) ——

在自動(dòng)駕駛中，RL 可以完成的任務(wù)有：控制器優(yōu)化、路徑規(guī)劃和軌跡優(yōu)化、運(yùn)動(dòng)規(guī)劃和動(dòng)態(tài)路徑規(guī)劃、為復(fù)雜導(dǎo)航任務(wù)開發(fā)高級(jí)駕駛策略、高速公路、交叉路口、合并和拆分的基于場景的策略學(xué)習(xí)，預(yù)測行人、車輛等交通參與者的意圖，并最終找到確保安全和執(zhí)行風(fēng)險(xiǎn)估計(jì)的策略。

4.1 狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)

為了成功地將 DRL 應(yīng)用于自動(dòng)駕駛?cè)蝿?wù)，設(shè)計(jì)適當(dāng)?shù)臓顟B(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)非常重要。

4.1.2 狀態(tài)空間

自動(dòng)駕駛汽車常用的狀態(tài)空間特征包括：本車的位置、航向和速度，以及本車的傳感器視野范圍內(nèi)的其他障礙物。此外，我們通常使用一個(gè)以自主車輛為中心的坐標(biāo)系，并在其中增強(qiáng)車道信息，路徑曲率、自主的過去和未來軌跡、縱向信息等。我們通常會(huì)使用一個(gè)鳥瞰圖來展示這些信息。

▲ 鳥瞰圖

4.1.3 動(dòng)作空間
自主車輛的控制策略需要操縱一系列執(zhí)行器，比如方向盤，油門和剎車（暫時(shí)不考慮其他的執(zhí)行器）。有一點(diǎn)需要注意的是，這些控制器都是在連續(xù)空間中運(yùn)行的，而大多數(shù) DRL 控制器屬于離散空間。因此我們需要選擇合適的時(shí)間步長。獎(jiǎng)勵(lì)為自動(dòng)駕駛的 DRL 代理設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)仍然是一個(gè)懸而未決的問題。AD 任務(wù)的標(biāo)準(zhǔn)示例包括：向目的地行駛的距離、本車的速度、使本車保持靜止、與其他道路使用者或場景對(duì)象的碰撞，人行道上的違規(guī)行為，保持在車道上，保持舒適和穩(wěn)定性，同時(shí)避免極端加速、制動(dòng)或轉(zhuǎn)向，并遵守交通規(guī)則。
4.2 運(yùn)動(dòng)規(guī)劃和軌跡優(yōu)化
運(yùn)動(dòng)規(guī)劃是確保目標(biāo)點(diǎn)和目的地點(diǎn)之間存在路徑的任務(wù)。但是動(dòng)態(tài)環(huán)境和變化的車輛動(dòng)力學(xué)中的路徑規(guī)劃是自動(dòng)駕駛中的一個(gè)難題，比如通過十字路口，或者并入高速公路。有許多文章在這方面做了嘗試，并獲得了不錯(cuò)的效果，比如論文 [4] [5] [6] [7]。
4.3 模擬器和場景生成工具
自動(dòng)駕駛數(shù)據(jù)集使用包含圖像、標(biāo)簽對(duì)的訓(xùn)練集來處理監(jiān)督學(xué)習(xí)設(shè)置，用于各種模式。強(qiáng)化學(xué)習(xí)需要一個(gè)可以恢復(fù)狀態(tài)-動(dòng)作對(duì)的環(huán)境，同時(shí)分別對(duì)車輛狀態(tài)、環(huán)境以及環(huán)境和代理的運(yùn)動(dòng)和動(dòng)作的隨機(jī)性進(jìn)行建模。各種模擬器被積極用于訓(xùn)練和驗(yàn)證強(qiáng)化學(xué)習(xí)算法。具體信息如下：

—— 05 自動(dòng)駕駛在現(xiàn)實(shí)世界的挑戰(zhàn) ——此部分內(nèi)容我目前不會(huì)接觸到，因此先留個(gè)坑，等以后再填。

參考文獻(xiàn)

[1] A Survey of Deep Learning Applications to Autonomous Vehicle Control:
https://ieeexplore.ieee.org/abstract/document/8951131?casa_token=fwUZxwU0Eo8AAAAA:B[2] End-to-End Deep Reinforcement Learning for Lane Keeping Assist:https://arxiv.org/abs/1612.04340[3] Deep Reinforcement Learning framework for Autonomous Driving:https://www.ingentaconnect.com/content/ist/ei/2017/00002017/00000019/art00012[4] A Reinforcement Learning based Approach for Automated Lane Change Maneuvers:https://ieeexplore.ieee.org/abstract/document/8500556?casa_token=OcyB7gHOxcAAAAAA:JrwO6[5] Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge:https://ieeexplore.ieee.org/abstract/document/8317735?casa_token=HaEyBLwaSU0AAAAA:5[6] A Multiple-Goal Reinforcement Learning Method for Complex Vehicle Overtaking Maneuvers:https://ieeexplore.ieee.org/abstract/document/5710424?casa_token=Y-bJbe3K9r0AAAAA:ZNo[7] Navigating Occluded Intersections with Autonomous Vehicles Using Deep Reinforcement Learning:https://ieeexplore.ieee.org/abstract/document/8461233?casa_token=uuC5uVdLp60AAAAA:6fr7[8] Reinforcement Learning with A* and a Deep Heuristic:https://arxiv.org/abs/1811.07745[9] CARLA: An Open Urban Driving Simulator:https://proceedings.mlr.press/v78/dosovitskiy17a.html[10] TORCS - The Open Racing Car Simulator:https://sourceforge.net/projects/torcs/

[11] MADRaS Multi-Agent DRiving Simulato:https://www.opensourceagenda.com/projects/madras

[12] Microscopic Traffic Simulation using SUMO:https://ieeexplore.ieee.org/abstract/document/8569938?casa_token=1z4z-bT6kTsAAAAA:BdTO6tJB4xEgr_EO0CPveWlForEQHJWyprok3uyy3DssqzT-7Eh-pr7H__3DOJPDdpuIVUr7Lw

[13] Flow: Architecture and Benchmarking for Reinforcement Learning in Traffic Control:https://www.researchgate.net/profile/Abdul-Rahman-Kreidieh/publication/320441979_Flow_Archite?

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：BMS三大核心功能：電芯監(jiān)控、荷電狀態(tài)估算以及單體電池均衡
上一篇：沉浸式汽車音響技術(shù)發(fā)展現(xiàn)狀及應(yīng)用( 上)

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

綜述：基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛算法

微信公眾號(hào)

—— 01 簡介 ——

2.1 感知模塊（Preception Module）

2.2 場景理解（Scene Understanding）

2.4 規(guī)劃和推動(dòng)策略（Planning and Driving Policy）

—— 04 自動(dòng)駕駛?cè)蝿?wù)中的強(qiáng)化學(xué)習(xí) ——

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對(duì)摩托車前照燈配光性能的工