日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

綜述-圖強化學習在混合自動化交通中的協(xié)同決策應用

2022-11-24 20:57:36·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
論文“Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: Framework, Survey, and Challenges“,作者來自北理工、德國德累斯頓大學、新加坡南洋理工和瑞士ETH。智能網(wǎng)聯(lián)車(CAV)的正常運行對于未來智

論文“Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: framework, Survey, and Challenges“,作者來自北理工、德國德累斯頓大學、新加坡南洋理工和瑞士ETH。

智能網(wǎng)聯(lián)車(CAV)的正常運行對于未來智能運輸系統(tǒng)的安全和效率至關(guān)重要。同時,過渡到全自動駕駛之前需要長時間的混合自動化交通,包括CAV(AV)和人類駕駛車輛(HV)。因此,CAV的協(xié)同決策,對于生成適當?shù)鸟{駛行為,和提高混合自動化交通的安全性和效率,是至關(guān)重要的。近年來,深度強化學習(DRL)被廣泛應用于解決決策問題。然而,現(xiàn)有的基于DRL的方法主要集中于解決單個CAV的決策。

在混合自動化交通中,現(xiàn)有的基于DRL的方法不能準確地表示車輛的交互影響以及對動態(tài)交通環(huán)境進行建模。為了解決這些缺點,本文提出一種用于混合自動化交通中CAV的多智體決策的圖強化學習(GRL)方法。首先,設(shè)計了通用的模塊化GRL框架。然后,對DRL和GRL方法進行了系統(tǒng)綜述,重點介紹了最近研究遇到的問題。此外,基于所設(shè)計的框架,進一步對不同的GRL方法進行比較研究,驗證GRL方法的有效性。結(jié)果表明,與DRL方法相比,GRL方法可以很好地優(yōu)化CAV在混合自動化交通中的多智體決策性能。最后,總結(jié)挑戰(zhàn)和未來的研究方向。

源代碼下載可以在https://github.com/Jacklinkk/GraphCAV。


伯克利分校的開源軟件Flow是一個基于DRL的混合自動化交通框架,它充當交通模擬器(例如Sumo和Aimsun)和RL庫之間的接口。Flow框架不僅提供典型的交通場景,還為RL算法的開發(fā)和驗證創(chuàng)建幾個基準;它還支持道路網(wǎng)絡文件(例如OpenStreetMap)的導入操作,模擬真實世界條件下的交通操作。

基于GRL的方法的主要特征可以概括如下:1)將混合自動化交通建模為圖架構(gòu)。特別地,車輛被視為圖節(jié)點,而車輛的交互被視為圖邊。2) 采用GNN進行特征提??;提取的特征被饋送到策略網(wǎng)絡以生成CAV的駕駛行為。許多研究用基于GRL的方法來生成協(xié)作行為。

圖片

根據(jù)輸出水平,駕駛行為可分為兩類:高級行為和低級控制命令。高級行為主要包括并線、超車和車道保持,而低級控制命令包括各種車輛控制方向的速度和加速度等。駕駛行為表現(xiàn)為一個動作空間,可分為離散動作空間和連續(xù)動作空間。

高級行為只能表示為離散的行為空間;而低級控制命令可以表示為離散的動作空間。DRL模塊的不同策略生成方法,生成不同的行動空間,進而生成不同類別的駕駛行為。

連續(xù)動作空間由控制命令的特定值組成。例如,在高速公路場景中,連續(xù)動作空間可以定義為a = [at,t] ,其中at表示縱向加速度,t表示轉(zhuǎn)向角。使用多維(或一維)向量對連續(xù)動作空間進行編碼,其中每個編碼位置表示控制命令??刂泼钔ǔ1幌拗圃谀硞€數(shù)值范圍內(nèi),并且控制命令的特定值基于所采用的控制策略而定。連續(xù)動作空間可以以一定粒度離散化,但在這種情況下,必須考慮控制精度和動作空間維度之間的權(quán)衡。

GRL模塊包含兩個子模塊:GNN模塊和DRL模塊。該模型使用圖特征作為輸入,輸出策略作為動作選擇的基礎(chǔ)。

圖片

不同類型的DRL方法產(chǎn)生不同的駕駛策略類別。DRL方法可分為基于價值的方法和基于策略的方法?;趦r值的方法僅適用于離散動作空間;這些方法旨在生成由不同動作價值組成的駕駛策略,然后根據(jù)每個可用動作的價值選擇駕駛行為?;诓呗缘姆椒ㄟm用于離散和連續(xù)動作空間??梢陨蛇@兩種隨機確定性駕駛策略,然后相應地選擇駕駛行為。

基于DRL的方法在混合自動化交通的決策中非常流行。然而,當僅使用DRL來解決多智體決策和協(xié)同駕駛時,系統(tǒng)復雜性顯著增加,并且難以對智體之間的關(guān)系進行建模。由于GNN可以獲得拓撲關(guān)系,并有助于對多智體的相互影響進行建模,因此它在提高混合自動化交通中的決策性能方面具有巨大潛力。基于GRL的方法的詳細結(jié)構(gòu)如圖所示:

圖片

在一個“高速公路閘道”場景中,輸出駕駛行為表示為 一個用于控制自動駕駛車輛橫向運動的高級變道命令列表。HVs和AVs的縱向控制均通過智能駕駛員模型(IDM)實現(xiàn),而HVs的橫向控制則通過SUMO的LC2013變道模型實現(xiàn)。

高速公路閘道方案是一種開環(huán)(非封閉)方案。除了節(jié)點特征矩陣和鄰接矩陣之外,場景還包括索引矩陣(標注HV或者AV)。因此,圖表征由節(jié)點特征矩陣、鄰接矩陣和索引矩陣組成。

其駕駛行為被表征為離散的動作空間。在每個時間步,行動空間包括不同的變道指令。

車輛駕駛的目標是高效、安全地退出相應的匝道,同時將對HVs的影響降至最低。獎勵函數(shù)由四部分組成:平均速度獎勵、意圖獎勵、變道懲罰和碰撞懲罰。

在一個“8字形”場景中,輸出駕駛行為是一個用于控制自動駕駛車縱向運動的低級控制命令列表,而HVs的縱向控制由IDM實現(xiàn)。

該場景作為由兩個單車道環(huán)形網(wǎng)絡組成交叉口的封閉表征。當車輛同時到達十字路口時,必須減速以遵守通行規(guī)則。這樣降低網(wǎng)絡中車輛的平均速度。在這種情況下,需要協(xié)同駕駛提高車輛的平均速度,同時確保安全,以優(yōu)化交叉口通行能力。

8字形場景是一個閉環(huán)場景,因此不需要索引矩陣。其鄰接矩陣的推導方式與高速公路匝道場景相同,但節(jié)點特征矩陣不同。

駕駛行為表現(xiàn)為連續(xù)動作空間。在每個時間步,動作空間由縱向加速度組成。

在所考慮的高速公路閘道和8字形兩個場景中,獎勵的定義受場景和任務績效的影響(例如,總體交通效率、特定車道的交通效率、場景中特定類型車輛通行時間的縮短)。此外,對于混合自動駕駛交通中的多智體協(xié)同決策問題,必須考慮整體回報和個體回報之間的沖突。這包括具有不同主動性水平的人類駕駛員之間的社會交互和隱性協(xié)同作用。獎勵函數(shù)的設(shè)計過程還需要考慮HVs和AVs的優(yōu)先級,在設(shè)計損失函數(shù)時需要考慮這些優(yōu)先級,以及涉及自動駕駛的法律法規(guī)的制定和穩(wěn)健性。

未來智能網(wǎng)聯(lián)車的研究應該集中在以下三點:(1)如何設(shè)計智能聯(lián)網(wǎng)車隊的軌跡控制算法和策略,以便車輛在紅燈信號面前能夠平穩(wěn)減速,實現(xiàn)最小的停車次數(shù)、油耗和尾氣排放量;(2) 如何充分利用車隊信息優(yōu)化信號時間方案,實現(xiàn)最小延誤和最優(yōu)交通效率的控制目標;(3) 如何與上下游交叉口兼容,將優(yōu)化控制擴展到路網(wǎng),并實時解決優(yōu)化問題。

應考慮更復雜的車輛運動學和動力學模型,因為道路條件和車輛模型的參數(shù)對于準確評估車輛運動至關(guān)重要。 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25