日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

綜述:基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛算法

2022-06-07 23:34:56·  來源:paperweekly  作者:陳道明(布里斯托爾大學(xué))  
 
這是 21 年的一篇綜述文章,可以算得上是最前沿的自動(dòng)駕駛技術(shù)綜述。這幾年隨著深度表征學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)領(lǐng)域也得到了加強(qiáng)。本文會(huì)對(duì)目前最先進(jìn)的自動(dòng)駕駛 D

這是 21 年的一篇綜述文章,可以算得上是最前沿的自動(dòng)駕駛技術(shù)綜述。這幾年隨著深度表征學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)領(lǐng)域也得到了加強(qiáng)。本文會(huì)對(duì)目前最先進(jìn)的自動(dòng)駕駛 DRL 算法進(jìn)行匯總和分類。

圖片

論文標(biāo)題:

Deep Reinforcement Learning for Autonomous Driving: A Survey

論文鏈接:

https://arxiv.org/abs/2002.00444


—— 01 簡介 ——

自動(dòng)駕駛系統(tǒng)(AD system),由多個(gè)級(jí)別的感知和控制任務(wù)組成,目前在感知方面,已經(jīng)可以通過深度學(xué)習(xí)架構(gòu)來實(shí)現(xiàn)。但在控制層面,經(jīng)典的監(jiān)督學(xué)習(xí)已經(jīng)不再使用,因?yàn)榇硇枰诿恳粋€(gè)瞬間做出動(dòng)作決策,這些決策可能會(huì)改變場景條件。

圖片

▲ 自動(dòng)駕駛各級(jí)別的任務(wù)


—— 02 AD system 的組成 ——


2.1 感知模塊(Preception Module)

感知模塊的目標(biāo)是創(chuàng)建環(huán)境狀態(tài)的中間級(jí)別表示(例如所有障礙物和代理的鳥瞰圖),稍后將由最終產(chǎn)生駕駛策略的決策系統(tǒng)使用。該狀態(tài)將包括車道位置、可行駛區(qū)域、代理(例如汽車和行人)的位置、交通信號(hào)燈的狀態(tài)等。感知中的不確定性傳播到信息鏈的其余部分。強(qiáng)大的傳感對(duì)于安全至關(guān)重要,因此使用冗余源可以提高檢測的信心。這是通過語義分割、運(yùn)動(dòng)估計(jì)、深度估計(jì)、污點(diǎn)檢測等幾種感知任務(wù)的組合來實(shí)現(xiàn)的,這些任務(wù)可以有效地統(tǒng)一成一個(gè)多任務(wù)模型。

焉知科技

,贊             7

▲ 多視角相機(jī)融合的鳥瞰


2.2 場景理解(Scene Understanding)

該模塊的作用是將感知模塊獲得的信息映射到高級(jí)動(dòng)作或決策層。該模塊旨在提供對(duì)場景的更高層次的理解,通過融合異構(gòu)傳感器源(如激光雷達(dá)、相機(jī)、雷達(dá)、超聲波),抽象和概括場景信息,為決策制定提供簡化的信息。2.3 定位和建圖(Localization and Mapping)定位和建圖技術(shù),又稱 SLAM 是自動(dòng)駕駛的關(guān)鍵技術(shù)之一。由于問題的規(guī)模,傳統(tǒng)的 SLAM 技術(shù)通過語義對(duì)象檢測得到增強(qiáng),以實(shí)現(xiàn)可靠的消歧。此外,局部高清地圖(HD maps)可以用作物體檢測的先驗(yàn)。

2.4 規(guī)劃和推動(dòng)策略(Planning and Driving Policy)

軌跡規(guī)劃是自動(dòng)駕駛中的關(guān)鍵模塊,在高清地圖或基于 GPS 的地圖上計(jì)劃路線,并引導(dǎo)代理生成運(yùn)動(dòng)層的命令。經(jīng)典運(yùn)動(dòng)計(jì)劃會(huì)忽略環(huán)境動(dòng)態(tài)和差分約束,因此類似于 A* 算法之類的基于 Djisktra 的算法在此問題中并不適用。而快速探索隨機(jī)樹(RRT)通過隨機(jī)采樣和無障礙路徑生成來探索配置空間。目前有多種版本的 RRT 被用于自動(dòng)駕駛管道中的運(yùn)動(dòng)規(guī)劃。2.5 控制(Control)這是最底層的運(yùn)動(dòng)控制,即汽車的加速加速,方向盤的轉(zhuǎn)動(dòng)角度,以及剎車。目前的車輛控制通常是基于經(jīng)典的最優(yōu)控制理論,通過狀態(tài)空間方程  中的汽車當(dāng)前狀態(tài)  和 控制輸入量  來控制汽車。此方法通常使用 MPC 模型和 PID 控制器使車輛跟隨軌跡。但是目前自動(dòng)駕駛車輛通常使用的是強(qiáng)化學(xué)習(xí),該方法的好處是可以處理隨機(jī)控制問題以及具有未知獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移概率的不適定問題。更多此方面的內(nèi)容推薦閱讀綜述文 [1]
—— 03 強(qiáng)化學(xué)習(xí) ——強(qiáng)化學(xué)習(xí)(RL)是于 監(jiān)督學(xué)習(xí)(Sueprvised Learning)和非監(jiān)督學(xué)習(xí)(Unsupervised Learning)之外的第三種機(jī)器學(xué)習(xí)(Machine Learning)方式。RL 通過一個(gè)代理來完成行動(dòng)策略。代理的目標(biāo)是最大化在其生命周期內(nèi)收到的累積獎(jiǎng)勵(lì)。代理可以通過利用了解不同狀態(tài)-動(dòng)作對(duì)的預(yù)期效用(即預(yù)期未來獎(jiǎng)勵(lì)的折扣和)的知識(shí)來逐漸增加其長期獎(jiǎng)勵(lì)。在形式化涉及單個(gè) RL 代理的順序決策問題時(shí),馬爾可夫決策過程 (MDP) 是最流行的解決方法。MDP 由一個(gè)狀態(tài)集合 、一個(gè)動(dòng)作集合 、一個(gè)轉(zhuǎn)移函數(shù)  和一個(gè)獎(jiǎng)勵(lì)函數(shù)  組成。通過目標(biāo)是找到最優(yōu)策略 ,從而產(chǎn)生最高的折扣獎(jiǎng)勵(lì)總和期望值:

圖片

其中, 是遵循策略  的狀態(tài)值方程, 是折扣系數(shù), 用于控制代理如何看待未來的獎(jiǎng)勵(lì),低  值鼓勵(lì)代理人的短視行為,其中代理人旨在最大化短期獎(jiǎng)勵(lì),而高  值導(dǎo)致代理人更具前瞻性并在更長的時(shí)間范圍內(nèi)最大化獎(jiǎng)勵(lì)。 為時(shí)間步數(shù),它可以是有限的也可以是無限的。
另一個(gè)與狀態(tài)函數(shù)方程相關(guān)的是狀態(tài)-動(dòng)作方程,又稱為“Q值”:

圖片


圖片

▲ MDP 決策的組成部分和關(guān)系圖


在許多現(xiàn)實(shí)世界的應(yīng)用領(lǐng)域中,智能體不可能觀察到環(huán)境狀態(tài)的所有特征;在這種情況下,決策問題被表述為部分可觀察的馬爾可夫決策過程(POMDP)。解決強(qiáng)化學(xué)習(xí)任務(wù)意味著找到一個(gè)策略 ,該策略使?fàn)顟B(tài)空間中軌跡上的期望折扣總和最大化。
RL 代理可以直接學(xué)習(xí)價(jià)值函數(shù)估計(jì)、策略和/或環(huán)境模型。動(dòng)態(tài)規(guī)劃(DP)算法可用于在給定環(huán)境模型的獎(jiǎng)勵(lì)和轉(zhuǎn)移函數(shù)方面計(jì)算最優(yōu)策略。與 DP 不同,在 MonteCarlo 方法中沒有完整環(huán)境知識(shí)的假設(shè)。蒙特卡洛方法在逐集意義上是增量的。情節(jié)完成后,價(jià)值估計(jì)和政策被更新。
另一方面,時(shí)間差(TD)方法在逐步意義上是增量的,使其適用于非情節(jié)場景。與蒙特卡羅方法一樣,TD 方法可以直接從原始經(jīng)驗(yàn)中學(xué)習(xí),而無需環(huán)境動(dòng)態(tài)模型。與 DP 一樣,TD 方法基于其他估計(jì)來學(xué)習(xí)它們的估計(jì)。

文章對(duì)于 RL 和 DRL 的算法進(jìn)行了綜合性的概述,這里不做詳細(xì)的解釋,建議系統(tǒng)性的學(xué)習(xí)這些算法。


—— 04 自動(dòng)駕駛?cè)蝿?wù)中的強(qiáng)化學(xué)習(xí) ——

在自動(dòng)駕駛中,RL 可以完成的任務(wù)有:控制器優(yōu)化、路徑規(guī)劃和軌跡優(yōu)化、運(yùn)動(dòng)規(guī)劃和動(dòng)態(tài)路徑規(guī)劃、為復(fù)雜導(dǎo)航任務(wù)開發(fā)高級(jí)駕駛策略、高速公路、交叉路口、合并和拆分的基于場景的策略學(xué)習(xí),預(yù)測行人、車輛等交通參與者的意圖,并最終找到確保安全和執(zhí)行風(fēng)險(xiǎn)估計(jì)的策略。

圖片

4.1 狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)

為了成功地將 DRL 應(yīng)用于自動(dòng)駕駛?cè)蝿?wù),設(shè)計(jì)適當(dāng)?shù)臓顟B(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)非常重要。


4.1.2 狀態(tài)空間


自動(dòng)駕駛汽車常用的狀態(tài)空間特征包括:本車的位置、航向和速度,以及本車的傳感器視野范圍內(nèi)的其他障礙物。此外,我們通常使用一個(gè)以自主車輛為中心的坐標(biāo)系,并在其中增強(qiáng)車道信息,路徑曲率、自主的過去和未來軌跡、縱向信息等。我們通常會(huì)使用一個(gè)鳥瞰圖來展示這些信息。

圖片

▲ 鳥瞰圖

4.1.3 動(dòng)作空間
自主車輛的控制策略需要操縱一系列執(zhí)行器,比如方向盤,油門和剎車(暫時(shí)不考慮其他的執(zhí)行器)。有一點(diǎn)需要注意的是,這些控制器都是在連續(xù)空間中運(yùn)行的,而大多數(shù) DRL 控制器屬于離散空間。因此我們需要選擇合適的時(shí)間步長。獎(jiǎng)勵(lì)為自動(dòng)駕駛的 DRL 代理設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)仍然是一個(gè)懸而未決的問題。AD 任務(wù)的標(biāo)準(zhǔn)示例包括:向目的地行駛的距離 、本車的速度、使本車保持靜止、與其他道路使用者或場景對(duì)象的碰撞,人行道上的違規(guī)行為,保持在車道上,保持舒適和穩(wěn)定性,同時(shí)避免極端加速、制動(dòng)或轉(zhuǎn)向,并遵守交通規(guī)則。
4.2 運(yùn)動(dòng)規(guī)劃和軌跡優(yōu)化
運(yùn)動(dòng)規(guī)劃是確保目標(biāo)點(diǎn)和目的地點(diǎn)之間存在路徑的任務(wù)。但是動(dòng)態(tài)環(huán)境和變化的車輛動(dòng)力學(xué)中的路徑規(guī)劃是自動(dòng)駕駛中的一個(gè)難題,比如通過十字路口,或者并入高速公路。有許多文章在這方面做了嘗試,并獲得了不錯(cuò)的效果,比如論文 [4] [5] [6] [7]。
4.3 模擬器和場景生成工具
自動(dòng)駕駛數(shù)據(jù)集使用包含圖像、標(biāo)簽對(duì)的訓(xùn)練集來處理監(jiān)督學(xué)習(xí)設(shè)置,用于各種模式。強(qiáng)化學(xué)習(xí)需要一個(gè)可以恢復(fù)狀態(tài)-動(dòng)作對(duì)的環(huán)境,同時(shí)分別對(duì)車輛狀態(tài)、環(huán)境以及環(huán)境和代理的運(yùn)動(dòng)和動(dòng)作的隨機(jī)性進(jìn)行建模。各種模擬器被積極用于訓(xùn)練和驗(yàn)證強(qiáng)化學(xué)習(xí)算法。具體信息如下:

圖片


—— 05 自動(dòng)駕駛在現(xiàn)實(shí)世界的挑戰(zhàn) ——此部分內(nèi)容我目前不會(huì)接觸到,因此先留個(gè)坑,等以后再填。

圖片

參考文獻(xiàn)

圖片

[1] A Survey of Deep Learning Applications to Autonomous Vehicle Control:
https://ieeexplore.ieee.org/abstract/document/8951131?casa_token=fwUZxwU0Eo8AAAAA:B[2] End-to-End Deep Reinforcement Learning for Lane Keeping Assist:https://arxiv.org/abs/1612.04340[3] Deep Reinforcement Learning framework for Autonomous Driving:https://www.ingentaconnect.com/content/ist/ei/2017/00002017/00000019/art00012[4] A Reinforcement Learning based Approach for Automated Lane Change Maneuvers:https://ieeexplore.ieee.org/abstract/document/8500556?casa_token=OcyB7gHOxcAAAAAA:JrwO6[5] Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge:https://ieeexplore.ieee.org/abstract/document/8317735?casa_token=HaEyBLwaSU0AAAAA:5[6] A Multiple-Goal Reinforcement Learning Method for Complex Vehicle Overtaking Maneuvers:https://ieeexplore.ieee.org/abstract/document/5710424?casa_token=Y-bJbe3K9r0AAAAA:ZNo[7] Navigating Occluded Intersections with Autonomous Vehicles Using Deep Reinforcement Learning:https://ieeexplore.ieee.org/abstract/document/8461233?casa_token=uuC5uVdLp60AAAAA:6fr7[8] Reinforcement Learning with A* and a Deep Heuristic:https://arxiv.org/abs/1811.07745[9] CARLA: An Open Urban Driving Simulator:https://proceedings.mlr.press/v78/dosovitskiy17a.html[10] TORCS - The Open Racing Car Simulator:https://sourceforge.net/projects/torcs/

[11] MADRaS Multi-Agent DRiving Simulato:https://www.opensourceagenda.com/projects/madras

[12] Microscopic Traffic Simulation using SUMO:https://ieeexplore.ieee.org/abstract/document/8569938?casa_token=1z4z-bT6kTsAAAAA:BdTO6tJB4xEgr_EO0CPveWlForEQHJWyprok3uyy3DssqzT-7Eh-pr7H__3DOJPDdpuIVUr7Lw

[13] Flow: Architecture and Benchmarking for Reinforcement Learning in Traffic Control:https://www.researchgate.net/profile/Abdul-Rahman-Kreidieh/publication/320441979_Flow_Archite?

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25