基于優(yōu)化嵌入強(qiáng)化學(xué)習(xí)的環(huán)島場景下自動駕駛自適應(yīng)決策方法研究

2021-10-27 00:26:18· 來源：同濟(jì)智能汽車研究所

編者按：環(huán)島是一種復(fù)雜的駕駛場景，在該場景下車輛需要進(jìn)行進(jìn)入、駛出、換道等操作，此外，環(huán)形道路更增加了駕駛復(fù)雜性。近年來，強(qiáng)化學(xué)習(xí)以其獨特的與環(huán)境的交

編者按：環(huán)島是一種復(fù)雜的駕駛場景，在該場景下車輛需要進(jìn)行進(jìn)入、駛出、換道等操作，此外，環(huán)形道路更增加了駕駛復(fù)雜性。近年來，強(qiáng)化學(xué)習(xí)以其獨特的與環(huán)境的交互能力和自學(xué)習(xí)能力在自動駕駛決策問題上得到廣泛應(yīng)用。本文將強(qiáng)化學(xué)習(xí)方法應(yīng)用于環(huán)島駕駛場景，利用強(qiáng)化學(xué)習(xí)得到?jīng)Q策變量，然后輸入給下層非線性MPC控制器進(jìn)行跟蹤。仿真結(jié)果證明該方法具有較高計算效率和更好的性能。

本文譯自：《Adaptive Decision-Makingfor Automated Vehicles Under Roundabout Scenarios Using Optimization EmbeddedReinforcement Learning》

文章來源：IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS

作者：Yuxiang Zhang , Bingzhao Gao , Lulu Guo , Hongyan Guo and Hong Chen

原文鏈接：https://ieeexplore.ieee.org/document/9311168

摘要：環(huán)島是一個典型的可變、交互式場景，在該場景中，自動駕駛車輛應(yīng)做出自適應(yīng)和安全的決策。本文提出了一種優(yōu)化嵌入式強(qiáng)化學(xué)習(xí)（OERL）方法來實現(xiàn)環(huán)形交叉口下的自適應(yīng)決策。本文的改進(jìn)是對Actor-Critic框架中actor的修正，將基于模型的優(yōu)化方法嵌入到強(qiáng)化學(xué)習(xí)中，以直接探索動作空間中的連續(xù)行為。因此，所提出的方法能夠以較高的采樣效率同時宏觀行為（是否改變車道）和中尺度行為（期望加速度和動作時間）。當(dāng)場景發(fā)生變化時，嵌入型直接搜索方法可以及時調(diào)整中等規(guī)模的行為，提高決策的適應(yīng)性。更值得注意的是，修改后的actor能夠匹配人類駕駛員的行為，宏觀行為捕捉人類思維的跳躍，而中尺度行為優(yōu)先通過駕駛技能進(jìn)行調(diào)整。為了使agent能夠適應(yīng)不同類型的環(huán)形交叉口，本文設(shè)計任務(wù)表示方案來重構(gòu)策略網(wǎng)絡(luò)。在實驗中，將算法效率和學(xué)習(xí)到的駕駛策略與包含宏觀行為和恒定中尺度行為（期望加速度和動作時間）的決策進(jìn)行了比較。為了考察該方法的適應(yīng)性，本文對一種未經(jīng)訓(xùn)練的環(huán)島和兩種以上的危險情況進(jìn)行了仿真，以驗證所提出的方法在不同的場景下相應(yīng)地改變了決策。結(jié)果表明，所提出方法具有較高的算法效率和更好的系統(tǒng)性能。

關(guān)鍵詞：決策、直接搜索、參數(shù)化、強(qiáng)化學(xué)習(xí)（RL）

1 引言

隨著自動駕駛汽車的發(fā)展，決策方法在主動適應(yīng)復(fù)雜、多變和交互式場景方面面臨重大挑戰(zhàn)[1]。除了感知技術(shù)的不確定性外，其他駕駛員的行為無法精確預(yù)測且受個人風(fēng)格高度影響，這些因素限制了算法做出可信和主動的決策[2]。為了確保安全，當(dāng)前的駕駛策略是保守的，有時與人類行為不同，這降低了駕駛策略的可接受程度。盡管智能車已經(jīng)配備了L2或L3自動駕駛系統(tǒng)，但人類駕駛和機(jī)器駕駛的車輛在不久的將來仍需要混合使用[3]。因此，自動駕駛車輛的決策方法應(yīng)在保證安全的情況下提高其可接受程度和性能[4]。

A. 最新技術(shù)回顧與挑戰(zhàn)

下邊回顧了有關(guān)決策和強(qiáng)化學(xué)習(xí)（RL）的文獻(xiàn)，因為RL被認(rèn)為是一種有利的選擇，更適合決策方法之間的交互環(huán)境[5]

1）決策：相關(guān)研究采用基于規(guī)則和基于學(xué)習(xí)的方法對駕駛策略進(jìn)行建模，如基于情景的狀態(tài)機(jī)切換[6]–[8]、馬爾可夫決策過程[9]–[12]等。相似之處在于，這些決定被定義為伴隨著疲勞的特定的、離散的人類駕駛行為（如超車、車道保持、車道改變和右轉(zhuǎn)彎） [13]。因此，決策需要由專家預(yù)先定義，并且很難推廣到未重新定義的行為或場景[14]。此外，一旦駕駛場景變得復(fù)雜，盡管考慮了有限的駕駛行為，控制器仍需要執(zhí)行復(fù)雜的切換規(guī)則來保證動作的安全可行[15]。

為了提高自動駕駛車輛的可擴(kuò)展性，決策結(jié)合了更詳細(xì)的信息，如橫向和縱向目標(biāo)[16]，動作空間在104左右離散化，作為巨大探索空間和更好概括之間的折衷。在[17]中，決策通過一些參數(shù)進(jìn)行分解，這些參數(shù)是表示宏觀和中尺度決策的物理量（比如末端相對橫向位置和末端航向角），其價值最終形成了決策。由于這些參數(shù)涉及一個有限集，且每個參數(shù)都在特定范圍內(nèi)有界[18]，[19]，因此決策過程轉(zhuǎn)化為尋找這些參數(shù)的最優(yōu)值?；趨?shù)的決策更適合于優(yōu)化，并且增加了對多種場景的擴(kuò)展性。

更值得注意的是，在自動駕駛車輛的分層控制框架下，通過聯(lián)合設(shè)計決策模塊和軌跡規(guī)劃模塊，并利用中尺度連續(xù)行為的信息，可以實現(xiàn)更好的性能[20]。

2）強(qiáng)化學(xué)習(xí)：無模型RL在連續(xù)問題中缺乏高效性和穩(wěn)定性[21]–[24]。為了提高算法的效率和穩(wěn)定性，一些文獻(xiàn)提出了異步更新策略[25]、獎勵重整[26]和預(yù)訓(xùn)練[27]、[28]等技術(shù)。當(dāng)基于模型的控制器用于采樣時，確定性策略方法具有更高的算法效率和穩(wěn)定性[29]–[33]。

由于汽車控制問題的特殊性，當(dāng)周圍車輛的行為無法準(zhǔn)確預(yù)測且可能突然改變時，必須密切關(guān)注變化場景[34]。在此期間，駕駛策略不同于正常情況，也不同于主智能體以前做出的決策，該決策只是暫時維持。因此，決策方法需要適應(yīng)性，以便在可變和交互式場景中采取相應(yīng)措施[35]。基于模型的方法可以有效地探索動作，駕駛策略可以快速迭代[36]。

B. 工作和貢獻(xiàn)

在這項工作中，本文提出了一種優(yōu)化嵌入式RL（OERL），以實現(xiàn)自動駕駛車輛在典型的可變交互場景環(huán)島中的自適應(yīng)決策。該方法同時確定宏觀行為、末端相對橫向位置、中等尺度行為、期望加速度和動作時間，其中人類駕駛員的期望加速度和動作時間不同，這在以前的研究中很少考慮。為了實現(xiàn)自適應(yīng)決策，本文對Actor-Critic（AC）框架中的actor進(jìn)行了以下改進(jìn)。首先，在狀態(tài)設(shè)計中，除了表征環(huán)境的狀態(tài)向量（ER）外，還添加了表征任務(wù)的狀態(tài)向量（TR）。其次，對策略網(wǎng)絡(luò)進(jìn)行重組，以平衡ER和TR的不同維度。第三，建立了一個神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ?，對軌跡規(guī)劃模塊的執(zhí)行能力進(jìn)行建模，并將其用于嵌入式優(yōu)化方法。第四，直接搜索方法，即基于模型的優(yōu)化方法，被用于對連續(xù)動作探索，以保證算法的高效性和在多變交互場景中的適應(yīng)性。

本文的創(chuàng)新點和貢獻(xiàn)可以概括如下：

1）該方法與駕駛員的駕駛行為相匹配。例如，在可變情景下，可以優(yōu)先調(diào)整中等尺度行為，例如在達(dá)到腦海中設(shè)定的閾值之前，通過駕駛技能連續(xù)調(diào)整踏板和方向盤，然后轉(zhuǎn)移到另一個宏觀駕駛行為。此外，中等尺度的行為與人類駕駛員不同。

2）該方法合理地利用模型來提高了RL方法的效率。通過將基于模型的優(yōu)化方法嵌入到RL中，與包含終端相對橫向位置的離散宏觀行為和期望加速度和動作時間的恒定中尺度行為的決策相比，該方法能夠保證算法效率。

3）通過考慮TR和重組策略網(wǎng)絡(luò)，駕駛策略可以及時識別不同工況并適應(yīng)不同類型的環(huán)島。

4）利用嵌入式優(yōu)化方法，通過在線調(diào)整期望的加速度和動作時間，可以實現(xiàn)自適應(yīng)決策，以避免交互場景中的緊急情況，并獲得更好的性能。

本文的其余部分組織如下。在第二節(jié)中，首先描述了駕駛場景和整個系統(tǒng)。隨后，提出了基于參數(shù)的決策問題。在第三節(jié)中，說明了OERL，其中包含一個改進(jìn)的actor網(wǎng)絡(luò)（AN）、直接搜索方法和一個神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ?。在第四?jié)中，通過仿真評估了該方法的有效性。結(jié)論見第五節(jié)。

2 基于參數(shù)的決策問題描述

本節(jié)介紹了環(huán)形交叉口、一個復(fù)雜而典型的駕駛遭遇場景，并對整個控制系統(tǒng)進(jìn)行描述。駕駛行為建模為馬爾可夫決策過程（MDP）。由于該問題包含了行駛目的地確定和多車交互，因此狀態(tài)空間被專門設(shè)計以使系統(tǒng)高效運行。在此基礎(chǔ)上，建立了基于參數(shù)決策的動作空間。

A. 駕駛場景和系統(tǒng)描述

對于城市交通中的自動駕駛車輛，場景更加復(fù)雜，包含許多駕駛遭遇。除了根據(jù)導(dǎo)航完成的路徑任務(wù)外，車輛還將與多個車輛交互并保持安全駕駛[37]。除了眾多場景之外，環(huán)島場景是一個典型復(fù)雜的駕駛遭遇場景，包含上述兩種典型場景：行駛目的地確定和多車交互。環(huán)形交叉口的示意圖如圖1所示。在環(huán)島上，當(dāng)前車道和相鄰車道上有多輛車輛。

圖1 環(huán)島和控制系統(tǒng)架構(gòu)

非保守決策可以通過確定的和基于參數(shù)的描述來實現(xiàn)[16]，[17]。例如，在某些主動換道行為中，動作時間應(yīng)較短，或加速度應(yīng)較高。參數(shù)指相對于當(dāng)前車道的末端相對橫向偏移、動作時間和期望加速度，其中包含環(huán)形交叉口中的多種車道保持和車道改變。

在整體控制系統(tǒng)中，仿真環(huán)境在Prescan中建立，并在路徑規(guī)劃中確定車輛行駛目的地。然后，在基于參數(shù)的決策模塊中，應(yīng)用所提出的OERL來獲取決策參數(shù)的值。然后，在軌跡規(guī)劃和運動控制模塊中，采用非線性模型預(yù)測控制直接優(yōu)化軌跡。最后，運動控制變量輸出到執(zhí)行器控制模塊。

B. MDPs 建模

在這項工作中，基于參數(shù)的決策問題被建模為RL中的MDPs。連續(xù)狀態(tài)空間S、包含離散變量和連續(xù)變量的動作空間A以及獎勵函數(shù)可設(shè)計為以下部分。

1）狀態(tài)設(shè)計：不同的是，狀態(tài)表示分為兩部分：ER和TR。ER幫助agent做出安全決策，TR讓agent完成路徑任務(wù)。這一變化也與第Ⅲ-B節(jié)中引入的新AN一致。

關(guān)于ER，在環(huán)形交叉口中，周圍車輛可分為兩部分并進(jìn)行編號，如圖2所示。表1給出了不同位置的范圍。一部分是靠近主車輛且應(yīng)特別注意的車輛，其標(biāo)記為淺藍(lán)色，具有七個潛在位置（P1、P2、…、P7）。為了充分描述它們中的每一個，考慮了相對車道Ln（k）、相對速度vn（k）、加速度an（k）、相對距離dn（k）和周圍車輛的意圖In（k），其中下標(biāo)n表示與特定車輛對應(yīng)的潛在位置。

圖2 決策場景示意圖

表1 不同車輛的位置范圍

這里，相對車道Ln（k）=Ln（k）− Lh（k）可通過周圍車輛的當(dāng)前車道Ln（k）和主車輛的當(dāng)前車道 Lh（k）計算。相對速度vn（k）=vn（k）−vh（k）可通過周圍車輛的速度vn（k）和主車輛的速度vh（k）計算得出。周圍車輛的意圖In（k）∈{−1，0，1}可以通過我們以前的工作進(jìn)行預(yù)測。同時，人類駕駛員也會選擇流暢的車道，而不是阻塞的車道。因此，將圖2中用淺藍(lán)色標(biāo)記的相鄰車道中的臨近交通流（例如P8、P9、…、P12）考慮為ER的另一部分。此處，相鄰車道前后的臨近距離交通流狀態(tài)可分別由標(biāo)記區(qū)域內(nèi)這些車輛之間的平均相對速度

和平均車頭時距

。這里，THn，j（k）=dn，j（k）/vn，j（k）是編號為Pn的臨近交通流中第j輛車的車頭時距。因此，位置P1–P7中的狀態(tài)向量可以表示為：

其中，F(xiàn)n∈{1，0}表示位置（P1，…，P7）是否為可行車道。P8-P12位置的狀態(tài)向量可以表示為：

因此，ER部分的狀態(tài)向量可以表示為：

關(guān)于TR，在環(huán)形交叉口中，有一個帶有路線規(guī)劃的預(yù)期出口，其角度、半徑和車道為αE，DE和LE。主體車輛和預(yù)期出口之間的相對縱向距離lh和車道Lh被作為TR的狀態(tài)向量。此處，相對車道Lh（k）=LE−Lh（k）可通過出口車道LE和主車當(dāng)前車道Lh（k）計算得出。相對縱向距離可表示為

式中，αh是主車和預(yù)期出口之間的相對角度，αh（k）和Dh（k）是k時刻主車的角度和半徑。因此，TR部分的狀態(tài)向量可以表示為：

最后，狀態(tài)向量建立為S = (SER, STR)。

2）動作設(shè)計

當(dāng)使用基于參數(shù)的決策框架時，可以得到更復(fù)雜的決策結(jié)果，該決策將應(yīng)用于軌跡規(guī)劃并改變[17]中的軌跡形式。因此，動作空間包含三個部分，可以表示為

其中，Ty（k）∈ {−L、0、L}是當(dāng)前車道的橫向目標(biāo)偏移量，L是兩條相鄰車道線之間的距離。在該方法中，我們假設(shè)在時刻k時當(dāng)前車道的終端相對橫向偏移量與前方較短距離可以通過感知技術(shù)獲取。atar（k）是目標(biāo)加速度，ta（k）是預(yù)期的動作持續(xù)時間，其隨著任務(wù)和工況的不同而變化。動作向量能夠精確地描述決策，并且參數(shù)值隨著決策不同而變化。更具體地說，表2列出了一些例子。車道變更場景中具有不同決策參數(shù)的決策可以描述為相同的人類行為，例如車道保持（加速、保持和減速），激進(jìn)、中等和溫和模式下的右側(cè)車道變更（加速、保持和減速）和左側(cè)車道變更（加速、保持和減速）。

3）回報設(shè)計

本文考慮安全回報rs、任務(wù)回報rt和執(zhí)行回報re。在計算安全回報rs時，考慮當(dāng)前車道前方 Lh(k) 和目標(biāo)車道 Ltar(k)=Lh(k)+ sign(Ty(k)前方的周圍車輛，其中也包含將在接下來5 秒內(nèi)變換為這兩條車道的周圍車輛。當(dāng)sign(Ty(k))=0時，只考慮位置 P4 的車輛。當(dāng)主車換道，取sign(Ty(k))=-1;例如，位置P1、P2、P3和P4車輛將被考慮。假設(shè)對應(yīng)位置Pn的車輛與其車道內(nèi)的主車輛之間的距離為dn(k)?？紤]到這些位置，安全回報rs的增量方程可以表示為

其中de=3是緊急距離，dc=1是碰撞距離。

任務(wù)回報rt可分為兩類。一類與其位置一致，增量方程可以表示為：

另一類與動作一致。由于行駛在內(nèi)車道在速度方面具有更多優(yōu)勢，因此主車傾向于駛?cè)雰?nèi)車道。預(yù)期車道可大致計算為：

式中，αE和αlc是主車與出口的角度，以及對車道變化時角度變化的估計。然后，任務(wù)回報rt的增量方程可以表示為：

此外，當(dāng)選擇換道動作時，會比較前車和交通流。假設(shè)目標(biāo)車道和當(dāng)前車道中的車輛為P1和P4。獎勵可以表示為：

相應(yīng)的增量方程可以表示為

其中，k1=0.04、k2=0.03、k3=0.02和k4=0.1是系數(shù)。最后，執(zhí)行獎勵re可以計算為：

其中k5=0.01和k6=0.04是系數(shù)。LT是環(huán)形交叉口中的總車道。總獎勵可以表示為：

3 優(yōu)化嵌入式強(qiáng)化學(xué)習(xí)

在本節(jié)中，OERL在第Ⅲ-A節(jié)中進(jìn)行了總結(jié)，其中對AC框架的actor進(jìn)行了幾次改進(jìn)。然后，第Ⅲ-B——Ⅲ-D節(jié)詳細(xì)介紹了這些改進(jìn)。最終，所提出的方法提高了樣本效率，并處理了變化的場景，這超出了純學(xué)習(xí)方法。

A. RL算法設(shè)計與改進(jìn)

在本文中，動作空間混合了離散動作和連續(xù)動作。為了獲得與離散動作空間相同的采樣效率，在RL中嵌入了基于模型的優(yōu)化方法。由于決策過程沒有物理模型，只有軌跡規(guī)劃控制器才能提供一些先驗知識，反映動作的執(zhí)行情況。因此，可以建立一個經(jīng)驗?zāi)Ｐ蛠砟M主車的狀態(tài)變化。之后，可以找到?jīng)Q策參數(shù)連續(xù)值的良好樣本，這可以顯著提高連續(xù)動作空間中的探索效率，加快學(xué)習(xí)過程。

AC框架的示意圖如圖3所示。如下文所述，對AC框架的actor進(jìn)行了改進(jìn)。首先，對離散動作Ty的AN進(jìn)行了修改，以有效地增強(qiáng)TR對動作的影響。其次，建立了三個神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ蛠砟M所設(shè)計的軌跡規(guī)劃控制器。然后，使用直接搜索法（單純形搜索算法）指導(dǎo)搜索連續(xù)動作的參數(shù)值。

圖3 AC框架及算法

OERL如算法1所示。根據(jù)算法1和圖3可知，離散動作Ty由修改的AN決定。修改后的AN和critic網(wǎng)絡(luò)的權(quán)重在一幕結(jié)束時更新，并從最后一個狀態(tài)開始引導(dǎo)[25]。同時，AN1（AN1）和AN2（AN2）計算連續(xù)動作的初始點。AN1和AN2的權(quán)重通過基于經(jīng)驗?zāi)Ｐ偷闹苯铀阉饔嬎愕玫降膭幼鱝tar（k）、ta（k）利用監(jiān)督學(xué)習(xí)進(jìn)行更新。在每一幕中，更新一個有經(jīng)驗的好策略，將其與歷史上最好的策略進(jìn)行比較，并記錄一個更好的策略。

B. Actor 網(wǎng)絡(luò)

在決策中，任務(wù)特征（TR）與ER起著同等的作用。例如，在任務(wù)的初始階段，agent有更多的自由選擇更高的獎勵動作，而在后期，它必須更多地考慮任務(wù)的成功。這將導(dǎo)致與ER不同決定。然而，TR只有兩個維度，ER有52個維度。因此，當(dāng)應(yīng)用全連接神經(jīng)網(wǎng)絡(luò)時，TR將衰減。當(dāng)這兩種表示具有顯著不同的維數(shù)時，會給函數(shù)逼近帶來很大困難。

在這項工作中，改變了AN中關(guān)于終端相對橫向偏移Ty的結(jié)構(gòu)，如圖4所示。它有兩個隱藏層。為了有效地保留此功能和行為，復(fù)制TR，并將這些向量重新放入輸入層和第一個隱藏層。因此，在輸入層中有104個節(jié)點，其中一半是狀態(tài)表示，另一半是復(fù)制TR。在第一隱藏層中，常規(guī)節(jié)點為32個。復(fù)制TR以形成相等的32個節(jié)點，以重新放入第一個隱藏層。第二個隱藏層只有常規(guī)節(jié)點，數(shù)量為16。

圖4 決策和軌跡規(guī)劃架構(gòu)

C. 神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ?/div>

建立神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ?，利用BP神經(jīng)網(wǎng)絡(luò)對多個運動點進(jìn)行學(xué)習(xí)從而模擬不同決策參數(shù)下主車的狀態(tài)變化。

首先，收集軌跡數(shù)據(jù)。由于決策參數(shù)的值在一個固定的范圍內(nèi)，為了獲得其在不同決策中的執(zhí)行情況，進(jìn)行了若干并行實驗。在參數(shù)決策D=（ta，atar）下設(shè)計的軌跡規(guī)劃控制器可以表示為：

其中x=[X，Y，φ，vx，vy，ωr]是狀態(tài)向量；u=[a，δf]是控制向量，a改變縱向速度vx；考慮了一個關(guān)于縱向速度vx變化的簡單方程；并設(shè)計了一個下層跟蹤控制器來跟蹤期望的a，這簡化了運動控制模型。P（ta）=（X（ta），Y（ta））是預(yù)測時域的終端位置。Rac和Rcd分別為直線路段和曲線路段。運動控制模型

附在附錄中。在并行實驗中，當(dāng)Ty=0且期望加速度為atar∈ [−2,2]時，期望的決策參數(shù)動作持續(xù)時間ta∈ [2,4]。不同決策D=（ta，atar）下的優(yōu)化軌跡可作為數(shù)據(jù)庫，其中部分如圖5所示。如圖5所示，中等尺度變量，如預(yù)期加速度atar和動作持續(xù)時間ta，對自動駕駛車輛的軌跡有重要影響。

圖5 不同決策參數(shù)組合下的車輛軌跡。其中，T2,T3和T4指ta=2,3,4;A1-A5指atar=-2,-1,0,1,2

圖6 軌跡示例

然后，每個軌跡可以用系數(shù)lx表示，橫向運動系數(shù)ly，1，ly，2，…，ly，5和時間系數(shù)lt，1，lt，2，…，lt，5。我們以其中一條軌跡為例，圖6表示該軌跡的特征。在一個軌跡中，lx可以表示為：

式中，sx是縱向位移，vh，0是主車的初始速度。同時，系數(shù)lx也會受到期望加速度atar的影響。在橫向運動中，記錄該軌跡上的五個點，其中縱向位移分別為1/8lx、1/4lx、1/2lx、3/4lx和7/8lx。相應(yīng)的橫向運動系數(shù)ly，i和時間系數(shù)lt，i可表示為:

最后，系數(shù)lx，橫向運動系數(shù)序列l(wèi)y，1，ly，2，…，ly，5和時間系數(shù)lt，1，lt，2，…，lt，5通過三種神經(jīng)網(wǎng)絡(luò)為經(jīng)驗?zāi)Ｐ瓦M(jìn)行學(xué)習(xí)，這能夠反映各種軌跡規(guī)劃的特點。輸入向量包含主車的初始速度vh、0、預(yù)期加速度atar和預(yù)期行動持續(xù)時間ta。

為了避免學(xué)習(xí)過程中出現(xiàn)局部極小值，遺傳算法將Levenberg–Marquardt訓(xùn)練方法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合。所有的神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ投加袃蓚€隱層，第一層和第二層分別有128個節(jié)點和64個節(jié)點。訓(xùn)練集和測試集的樣本數(shù)分別為322和18。平均訓(xùn)練步數(shù)約為500，這將隨初始權(quán)重的不同而變化。訓(xùn)練誤差的閾值為1e−6.當(dāng)主車速度vh,0=10 m/s2時，神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ陀?xùn)練結(jié)果如圖7所示。

圖7 神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ洼敵鼋Y(jié)果

D.利用經(jīng)驗?zāi)Ｐ椭苯铀阉鬟B續(xù)動作

該優(yōu)化算法利用神經(jīng)網(wǎng)絡(luò)模型和周圍車輛的運動預(yù)測來尋找最優(yōu)期望加速度atar和期望動作持續(xù)時間ta。此處將不詳細(xì)討論對周圍車輛運動的預(yù)測。由于數(shù)學(xué)模型被神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ退〈浔Ａ袅塑壽E規(guī)劃的特點，因此無法利用梯度來優(yōu)化決策參數(shù)。直接搜索方法完全依賴于目標(biāo)函數(shù)值，并用估計的梯度替換實際梯度。在連續(xù)動作空間的RL中，算法的效率與動作探索一致。一旦能夠探索出好的動作，算法的效率就會顯著提高。在這項工作中，單純形搜索法，內(nèi)爾德均值法，用于優(yōu)化決策參數(shù)。利用上述神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ停色@得縱向位移系數(shù)lx、時間步長序列Ts以及主車縱向位移為Sx時的橫向位移Sy，其可表示為：

上式中，sx由（16）計算，橫向運動系數(shù)ly，1，ly，2，…，ly，5和時間系數(shù)lt，1，lt，2，…，lt，5由（17）計算得出。

然后，選擇當(dāng)前車道（Ln=Lh）和目標(biāo)車道（Lh+sign（Ty）=Ln）中的車輛。當(dāng)決策Ty=0時，主要考慮位置P4或P9處最近車輛，期望動作持續(xù)時間ta設(shè)置為1秒。目標(biāo)加速度atar經(jīng)過優(yōu)化，以保持主車和前車的時距。當(dāng)判定Ty ≠0時，取Ty=L，例如，處于位置P4且d4<2de的車輛?？紤]位置P1、P2和P3中|di|<2de的車輛，并優(yōu)化期望行動持續(xù)時間ta和期望加速度atar，以盡可能保持主車和前車之間的距離。周圍車輛的軌跡被生成，周圍車輛Pn在時間序列Ts的j步中的位置可以預(yù)測為（sn，x（Ts（j）），sn，y（Ts（j））。這里，sn，x和sn，y的序列分別表示為Sn，x和Sn，y。意圖和軌跡預(yù)測的準(zhǔn)確性沒有討論，這已經(jīng)有很多以前的工作。因此，目標(biāo)函數(shù)是增量計算的，可以擴(kuò)展：

此外，在目標(biāo)函數(shù)的增量方程中還考慮了期望動作持續(xù)時間ta和期望加速度atar，即

利用神經(jīng)網(wǎng)絡(luò)經(jīng)驗?zāi)Ｐ秃蛦渭冃沃苯铀阉鞣?，可以找到?jīng)Q策組合D=（ta，atar）。有效的動作探索可以大大提高。同時，在連續(xù)RL中，策略被神經(jīng)網(wǎng)絡(luò)逼近。因此，經(jīng)過訓(xùn)練的策略可以依次提供良好的初始單純形頂點，這將影響直接搜索方法中的迭代次數(shù)。

4 復(fù)雜駕駛場景下的仿真結(jié)果

首先，對直接搜索法中的一些參數(shù)進(jìn)行了評估，并對其學(xué)習(xí)效率進(jìn)行了比較。然后，在并行仿真中展示了所學(xué)習(xí)的決策策略，并與固定的換道時間和沒有縱向速度變化的情況進(jìn)行了比較。最后，對一種未經(jīng)訓(xùn)練的環(huán)形交叉口和另外兩種危險情況下的性能進(jìn)行了仿真，以進(jìn)一步評估所提方法的適應(yīng)性。

A.學(xué)習(xí)階段評估

在這項工作中，我們使用直接搜索法來獲得混合動作空間中的連續(xù)動作，這可以大大提高算法效率。

首先，評估了直接搜索方法的有效性。設(shè)計初始單純形IS=（I−di，I，I+di）中的初始點I和步驟dI是實驗中的影響因素。這里，初始點I是由ANs1和2輸出的（atar，ta）。步驟dI是初始點I的變化。當(dāng)初始點以不同的步驟dI接近最優(yōu)點I時，記錄迭代步驟。如圖8所示，更接近最優(yōu)點的初始點I具有更少的迭代步驟。此外，在適當(dāng)范圍內(nèi)選擇的不同步驟dI對迭代次數(shù)幾乎沒有影響。因此，AN輸出初始點I，其將在學(xué)習(xí)過程中更新，并且手動設(shè)置步驟dI。

圖8 不同影響因素下的對比結(jié)果

在這項工作中，直接搜索方法可以在連續(xù)動作空間中提供良好的樣本，并與離散動作學(xué)習(xí)獲得相似的算法效率。在訓(xùn)練階段，由于連續(xù)動作空間中的算法樣本效率很低，我們只比較了混合動作空間中的學(xué)習(xí)和離散動作空間中的正常學(xué)習(xí)的學(xué)習(xí)效果。在離散動作空間問題中，目標(biāo)加速度和預(yù)期動作持續(xù)時間設(shè)置為常數(shù)，如表Ⅲ所示。進(jìn)行了幾個平行實驗，記錄了整個訓(xùn)練過程Nt。

計算了平均訓(xùn)練時間和平均獎勵，如表三所示。在表三中，樣本效率在這兩種學(xué)習(xí)中具有相似的趨勢，即所提出的學(xué)習(xí)方法可以實現(xiàn)更精細(xì)的決策并獲得更高的獎勵。同時，將基于規(guī)則框架的AN與重構(gòu)后的AN進(jìn)行比較。在重構(gòu)AN中，隱藏層中的節(jié)點數(shù)分別為32和16。在常規(guī)AN中，隱藏層中的節(jié)點數(shù)分別為64和32。一個規(guī)則框架的訓(xùn)練迭代次數(shù)大約是重構(gòu)后的三倍，結(jié)構(gòu)也要復(fù)雜得多。

表3 離散和混合動作空間結(jié)果比較

B.駕駛策略評估

圖9 場景N1與N2的仿真結(jié)果

首先，駕駛策略學(xué)習(xí)的仿真結(jié)果如圖9（a）和（b）所示。在仿真中，我們假設(shè)可以精確預(yù)測周圍車輛的意圖。利用已知的高精度車輛意圖和運動學(xué)模型對軌跡進(jìn)行預(yù)測。未準(zhǔn)確預(yù)測周圍車輛意圖的情況將在第IV-C節(jié)中討論。如圖1環(huán)島示意圖所示，根據(jù)路線規(guī)劃，主車在入口E1進(jìn)入，在出口E3退出。在每個場景中，將學(xué)習(xí)到的駕駛策略與包含終端位置的離散宏觀行為和包含加速度及動作時間的恒定微觀行為的決策進(jìn)行比較。

在場景N1中有15輛車，初始位置和速度如圖9（a）的子圖（1）所示。當(dāng)前車道上有一輛周車v10，內(nèi)車道上沒有其他周圍車輛。因此，主車將切換到內(nèi)車道，并當(dāng)接近入口E3時切換至外車道。在不同決策參數(shù)和恒定決策參數(shù)下，總仿真時間分別為9.97和11.6秒。圖9（a）的子圖（2）顯示了部分周車的軌跡輪廓。周車和主車在不同決策參數(shù)和恒定決策參數(shù)下的軌跡輪廓（如表三所示）在圖9（a）的子圖（2）呈現(xiàn)。與周車的最小距離如圖9（a）的子圖（3）所示。決策動作參數(shù)如圖9（a）的子圖（4）-（6）所示。從這些子圖中可以看出，這兩種決策方法導(dǎo)致環(huán)形交叉口中不同的車道變換時間，以及不同的期望加速度atar和期望動作持續(xù)時間ta。采用可變參數(shù)決策的車輛可以在較短的時間內(nèi)順利執(zhí)行內(nèi)車道的換道并通過環(huán)島。

在方案N2中，同樣對上述內(nèi)容進(jìn)行比較。如圖9（b）的子圖（1）所示，周車v10在當(dāng)前車道的內(nèi)車道上行駛，且與當(dāng)前車道上周車的距離大于內(nèi)車道。具有可變參數(shù)決策的主車將加速和延長換道動作時間，以實現(xiàn)換道，而不是像具有恒定參數(shù)決策的主車那樣保持車道。同時，在此過程中，與周圍其他車輛的最小距離保持在安全的情況下。在變化的決策參數(shù)和恒定的決策參數(shù)下，總模擬時間分別為9.7和12.0秒。

在場景T1中，測試未經(jīng)訓(xùn)練的完全不同的環(huán)島場景。環(huán)島僅有三條車道，主車需要在E1和E3中進(jìn)出。半徑比原始環(huán)島小得多，原始環(huán)島分別為33米、29米和25米。如圖10的子圖（4）-（6）所示，在進(jìn)入內(nèi)部車道后，主車僅在兩個時間步長內(nèi)保持車道，然后轉(zhuǎn)向外部車道以退出環(huán)島。

圖10 場景T1仿真結(jié)果

在這些仿真中，我們可以看到，主車已經(jīng)學(xué)習(xí)了主動駕駛策略，這表明在沒有潛在危險情況下主車將嘗試超車。

C.交互式場景評估

如圖11所示，可能會出現(xiàn)一些更復(fù)雜和危險的場景。當(dāng)主車改變車道時，下一個相鄰車道上的周圍車輛（灰色車輛）也可能改變到目標(biāo)車道，并導(dǎo)致情況或決策波動的出現(xiàn)。造成這種危險情況可能有以下原因。首先，意圖無法準(zhǔn)確預(yù)測且可能會突然改變。如果無法正確預(yù)測周車的運動，主車決策的改變最終導(dǎo)致波動，甚至造成危險。如第II-B節(jié)所示，下一相鄰車道的周圍車輛實際上不在決策對應(yīng)區(qū)域（淺綠色區(qū)域，如圖12所示）。該區(qū)域內(nèi)的周車很難被察覺，在正常決策中不被考慮，但也會引起波動甚至危險。此外，盲目擴(kuò)大決策區(qū)域會增加問題的復(fù)雜性，不利于決策的合理性。

圖11 復(fù)雜危險場景示意圖

圖12 環(huán)島中兩個復(fù)雜危險場景實例（（a）為左換道E1，（b）為右換道E2）

基于上述兩個主要原因，本文提出的方法還有另外兩個優(yōu)點，可以進(jìn)一步提高決策過程的安全性和穩(wěn)定性。首先，如圖5所示，決策參數(shù)會影響計劃軌跡。一旦下一個相鄰車道上的周車將車道更改為與主車相同的目標(biāo)車道，不同的決策參數(shù)可用于改變軌跡形式，并與周圍其他車輛保持安全距離。同時，直接搜索法可以及時地給出這種特定情況下決策參數(shù)的最優(yōu)值。因此，主車可以首先根據(jù)當(dāng)前決策相應(yīng)地調(diào)整以適應(yīng)多變的環(huán)境，并做出盡可能小的改變。這樣，主車可以臨時更改駕駛策略。除非安全受到很大影響，否則主車將不考慮其他類型的決策。

我們展示了在兩種情況下發(fā)生這種情況時的結(jié)果，如圖12所示。在每種情況下，進(jìn)行了三個比較實驗：固定決策（A:−L,3,0），考慮紅色車輛時，原始駕駛策略不變（B），考慮紅色車輛時，決策及時變化（C）。用于評估安全性的兩輛車之間的距離、主車（dH）和紅色車（dE）到目標(biāo)車道的距離、控制變量、轉(zhuǎn)向角δ、目標(biāo)加速度a、優(yōu)化結(jié)果、預(yù)期行動持續(xù)時間ta和目標(biāo)加速度atar如圖13和14所示。從結(jié)果中可以看出，考慮到紅色車輛（C），當(dāng)決策及時改變時，控制距離以保證安全（a），而不會引起控制（c）-（f）的波動。此外，這也有助于主車增加獲得優(yōu)先通行權(quán)（b）的可能性，從而縮短轉(zhuǎn)向目標(biāo)車道的時間。

圖13 場景E1結(jié)果對比

圖14 場景E2結(jié)果對比

5 總結(jié)

在本文中，所提出的OERL實現(xiàn)了自適應(yīng)決策，并在一個典型的可變交互場景——環(huán)島中進(jìn)行了驗證。改進(jìn)后的方法匹配了駕駛員行為，實現(xiàn)了自適應(yīng)決策，顯著提高了算法效率。相應(yīng)地，actor的狀態(tài)、動作和框架以及策略網(wǎng)絡(luò)都是專門設(shè)計的。通過實驗驗證了該方法在保留連續(xù)變化的中尺度行為的情況下取得了較好的性能，同時與包含終端位置的離散宏觀行為和加速度和動作時間的恒定微觀行為的決策具有相當(dāng)?shù)臉颖拘省Ｔ摲椒ǔ司哂休^高的采樣效率外，還可以使駕駛策略快速適應(yīng)不同類型的環(huán)行交叉口和多變的場景，從而確保安全性。

在我們未來的工作中，我們將研究該方法在多個場景下的擴(kuò)展。將更精確地考慮其他交通參與者的預(yù)測，以提高控制系統(tǒng)的安全性。

附錄——非線性運動控制模型

在軌跡規(guī)劃控制器中，使用了非線性運動控制模型[17]。該模型包含同時考慮縱向和橫向動力學(xué)的非線性車輛模型以及運動學(xué)方程。在考慮縱向動力學(xué)的情況下，考慮縱向速度變化時，將單軌車輛動力學(xué)模型轉(zhuǎn)化為非線性車輛模型進(jìn)行模型預(yù)測控制。這里，考慮后輪驅(qū)動、前輪轉(zhuǎn)向的車輛。在全局坐標(biāo)系中，考慮車輛運動學(xué)的幾何關(guān)系，建立非線性運動控制模型，如下所示：

x=[X，Y，φ，vx，vy，ωr]是狀態(tài)向量；u=[a，δf]是控制向量?？紤]了一個簡單的縱向速度vx變化方程，設(shè)計了一個低階跟蹤控制器來跟蹤期望的a，這簡化了運動控制模型。δf是方向盤轉(zhuǎn)角。X和Y是全局坐標(biāo)系中X和Y方向的坐標(biāo)；φ是全球坐標(biāo)系中的航向角；M是車輛的質(zhì)量；vy為橫向速度；ωr是橫擺率；Iz是車輛繞z軸的轉(zhuǎn)動慣量；lf和lr分別是重心（CoG）到前軸和后軸的距離?？紤]一個簡潔的輪胎模型，前輪αf和后輪αr中的輪胎側(cè)偏力可以線性化，因為側(cè)偏角很小，并且前輪和每個后輪上的輪胎側(cè)向力Fyf和Fyr可以寫成：

式中，Cr和Cf分別為前后輪胎的側(cè)偏剛度。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于優(yōu)化嵌入強(qiáng)化學(xué)習(xí)的環(huán)島場景下自動駕駛自適應(yīng)決策方法研究

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機(jī)動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工