日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

基于混合DDPG的車輛運動規(guī)劃方法

2020-08-11 20:07:00·  來源:同濟智能汽車研究所  
 
編者按:在無人駕駛的運動規(guī)劃問題中,經(jīng)典的優(yōu)化技術(shù)雖然性能優(yōu)異,但其主要缺點是考慮到復(fù)雜的車輛動力學(xué),在線優(yōu)化需要大量的計算。人工神經(jīng)網(wǎng)絡(luò)的方法因其在
編者按:在無人駕駛的運動規(guī)劃問題中,經(jīng)典的優(yōu)化技術(shù)雖然性能優(yōu)異,但其主要缺點是考慮到復(fù)雜的車輛動力學(xué),在線優(yōu)化需要大量的計算。人工神經(jīng)網(wǎng)絡(luò)的方法因其在學(xué)習(xí)、自適應(yīng)和泛化方面的優(yōu)良性能而越來越受到人們的關(guān)注。作者將無人駕駛技術(shù)與機器學(xué)習(xí)結(jié)合起來,采用強化學(xué)習(xí)中DPPG的方法,設(shè)計了基于神經(jīng)網(wǎng)絡(luò)的運動規(guī)劃器,其通過學(xué)習(xí)的方法來離線進行優(yōu)化計算。

文章譯自:
Hybrid DDPG Approach for Vehicle Motion Planning

文章來源:
16th International Conference on Informatics in Control, Automation and Robotics

作者:
Árpád Fehér, Szilárd Aradi, Ferenc Hegedus, Tamás Bécsi dand Péter Gáspá
原文鏈接:
https://www.researchgate.net/publication/335068669_Hybrid_DDPG_Approach_for_Vehicle_Motion_Planning/link/5ef22e2592851c3d231ebf31/download

摘要:本文提出了一種結(jié)合經(jīng)典控制技術(shù)和機器學(xué)習(xí)的運動規(guī)劃解決方案。對于這個任務(wù),一個強化學(xué)習(xí)環(huán)境已經(jīng)被創(chuàng)建,其中通過設(shè)計路徑的經(jīng)典控制回路提供獎賞功能。采用帶有動態(tài)輪胎模式的平面單軌非線性車輛模型來描述系統(tǒng)動力學(xué)。通過駕駛車輛沿軌道行駛來評估規(guī)劃軌跡的優(yōu)劣。研究表明,這種封裝的問題和環(huán)境提供了一個具有連續(xù)動作的一步強化學(xué)習(xí)任務(wù),該任務(wù)可以用深度確定性策略梯度的學(xué)習(xí)代理來處理。這個問題的解決方案提供了一個實時的基于神經(jīng)網(wǎng)絡(luò)的運動規(guī)劃器和一個跟蹤算法,并且由于訓(xùn)練過的網(wǎng)絡(luò)提供了對當(dāng)前狀態(tài)-動作對預(yù)期回報的初步估計,系統(tǒng)也作為一個軌跡可行性估計器。
 
關(guān)鍵詞:自動駕駛汽車;運動規(guī)劃;強化學(xué)習(xí)
 
1 前言
高度自動化駕駛和自主駕駛有望在多個方面提高道路運輸質(zhì)量,比如提高安全水平的同時降低油耗和排放。該課題的發(fā)展?jié)摿κ蛊涑蔀槠囆袠I(yè)和相關(guān)學(xué)術(shù)機構(gòu)最熱門的研究領(lǐng)域之一。本文研究了可行運動規(guī)劃問題,即車輛必須跟隨的軌跡設(shè)計和評估問題。
 
許多不同的方法已經(jīng)演變多年來解決運動規(guī)劃問題輪式車輛,它們都有優(yōu)點和缺點。幾何方法從幾何曲線收集車輛的路徑,如螺旋線,圓弧和樣條。通常的選擇是將曲率定義為弧長的函數(shù)(Li et al.,2015)。它們通常用于簡單的低動態(tài)場景,如自動泊車(Vorobieva et al., 2013)。雖然這些算法的計算成本很低,但考慮車輛非完整動力學(xué)的能力受到最大轉(zhuǎn)向角度和幾何加速度約束的使用限制(Minh and Pumwa, 2014)。其他流行的軌跡規(guī)劃方法是基于圖搜索技術(shù)。將車輛的配置空間(可能狀態(tài)空間)進行離散或隨機采樣,構(gòu)建安全可達且未占據(jù)狀態(tài)的圖(Palmieri et al.,2016)。然后,通過一些啟發(fā)式方法沿著圖搜索由適當(dāng)選擇的度量定義的最短連接(Gammell et al.,2015)?;趫D搜索的方法的制定使處理碰撞避免變得容易,但是車輛動力學(xué)的考慮仍然很難納入。變分方法使運動規(guī)劃成為一個非線性優(yōu)化問題,使得幾乎可以使用任意的車輛模型(Singh et al.,2017)。這些方法被證明可以生成動態(tài)可行的軌跡,即使是在高動態(tài)場景中,但是這需要很高的計算量,這通常使實時應(yīng)用無法實現(xiàn)(Hegedus et al,2017a)。
 
除了傳統(tǒng)的方法外,基于人工神經(jīng)網(wǎng)絡(luò)的方法因其在學(xué)習(xí)、自適應(yīng)和泛化方面的優(yōu)良性能而越來越受到人們的關(guān)注。監(jiān)督學(xué)習(xí)技術(shù)用于道路車輛的運動預(yù)測(Yim and Oh, 2004)以及動態(tài)環(huán)境下工業(yè)機器人的電機控制(Liu et al.,2017)。近年來,強化學(xué)習(xí)(RL)也被成功地應(yīng)用于類車移動機器人的運動規(guī)劃。在(Tai et al.,2017)中,作者提出了一種移動機器人在沒有先驗地圖信息的情況下到達指定目標位置的路徑規(guī)劃方法,而(Chen et al.,2017)處理行人密集環(huán)境中的運動規(guī)劃。在(Li et al.,2019)中教授了跑道模擬的連續(xù)橫向控制,在(Paxton et al.,2017)中,作者將MTCS方法與RL技術(shù)結(jié)合用于簡單的演示。
 
經(jīng)典的優(yōu)化技術(shù)雖然性能優(yōu)異,但其主要缺點是考慮到復(fù)雜的車輛動力學(xué),在線優(yōu)化需要大量的計算。
 
然而,隨著強化學(xué)習(xí)的應(yīng)用,它是有可能教會一個人工神經(jīng)網(wǎng)絡(luò)如何駕駛一個具有相同復(fù)雜程度的車輛模型的最優(yōu)方式。有了這種方法,需要計算的任務(wù)就可以被轉(zhuǎn)移到線下(Plessen, 2019)。本文的主要目的是建立一種針對道路車輛的軌跡規(guī)劃與跟蹤算法,能夠在實時約束條件下提供動態(tài)可行運動。
 
DDPG規(guī)劃提出了訓(xùn)練自己,用于預(yù)定義的初始狀態(tài)和結(jié)束狀態(tài)的最優(yōu)軌跡規(guī)劃問題,如3.1節(jié)所述,不考慮任何障礙,但動力學(xué)描述在3.2節(jié)。系統(tǒng)的輸出是可由橫向控制器跟蹤的詳細軌跡曲線。對產(chǎn)生的控制回路的評估考慮了角度和距離誤差,并將側(cè)滑作為可行性的衡量。
2 深度強化學(xué)習(xí)的規(guī)劃方法設(shè)計
2.1 強化學(xué)習(xí)
在本文所討論的問題中,人工神經(jīng)網(wǎng)絡(luò)(ANN)的訓(xùn)練缺乏訓(xùn)練數(shù)據(jù),因此機器學(xué)習(xí)過程需要通過試錯產(chǎn)生自己的經(jīng)驗,形成一個強化學(xué)習(xí)框架。在這個領(lǐng)域,學(xué)習(xí)者和決策者算法被稱為代理。代理之外的一切都稱為環(huán)境。環(huán)境應(yīng)向代理提供以下信息:狀態(tài)(輸出)、動作(輸入)、獎賞(輸出)。學(xué)習(xí)過程由經(jīng)歷集組成,經(jīng)歷集是用一組給定的初始參數(shù)嘗試解決原始問題,而經(jīng)歷集通常由一系列步驟組成。代理與環(huán)境進行交互,并根據(jù)提供的狀態(tài)信息選擇操作,從而產(chǎn)生代表每一步新情況的新狀態(tài)。此外,環(huán)境提供了關(guān)于代理如何完成其工作的信息作為標量值,稱為獎賞。
軌跡設(shè)計的發(fā)展概述如圖1所示,可以看到:在每一個經(jīng)歷中,代理接收初始條件和軌跡規(guī)劃目標并計算軌跡的內(nèi)部點,然后我們駕駛車輛沿著計劃路線(控制回路),同時對其性能進行評估。學(xué)習(xí)代理收到評價后的獎賞價值之后,整個過程從頭開始。這是一個一步返回的學(xué)習(xí)任務(wù),意思是一個經(jīng)歷由一個步驟組成,不考慮下一個狀態(tài)(圖1中的灰色),這降低了學(xué)習(xí)的復(fù)雜性。
 
圖1:強化學(xué)習(xí)中的代理-環(huán)境交互
 
2.2深度確定性策略梯度方法
 
在我們之前的研究中,我們在車輛任務(wù)(Becsi et al.,2018)(Feher et al.,2018)(Aradi et al.,2018)中訓(xùn)練了強化學(xué)習(xí)代理,其中代理通過謹慎的動作控制環(huán)境,但大多數(shù)車輛控制任務(wù)和運動規(guī)劃環(huán)境必須通過連續(xù)的動作來控制。我們?yōu)檫@種連續(xù)方法選擇了一種相對容易實現(xiàn)但性能良好的學(xué)習(xí)代理,稱為深度確定性策略梯度(DDPG)。這是一種使用深度函數(shù)逼近器的model-free、離線策略的actor-critic算法,可以在高維連續(xù)動作空間中學(xué)習(xí)策略(Lillicrap et al., 2015)。它基于確定性策略梯度(deterministic policy gradient, DPG)算法(Silver et al.,2014)。actor μ(s|θμ)被指定為當(dāng)前策略,它確定地將狀態(tài)映射到一個特定的動作,critic Q(s,a)使用Bellman方程。actor通過以下規(guī)則進行更新:
 
3 訓(xùn)練環(huán)境
正如前面提到的,代理需要一個可以行動和學(xué)習(xí)的環(huán)境。這樣的環(huán)境必須至少包括以下子系統(tǒng):
  • 基于軌跡生成模塊的可行條件;
  • 帶有動態(tài)車輪模型的非線性平面單軌車輛模型;
  • 縱向和橫向控制;
  • 獎賞計算;
3.1 軌跡生成
軌跡規(guī)劃任務(wù)的輸入包括:車輛開始時的狀態(tài)和期望的結(jié)束狀態(tài)?;谶@些信息,學(xué)習(xí)代理決定了軌跡的中間點。
我們給出了一個訓(xùn)練的例子,其中位置和航向角的初始狀態(tài)向量(2)固定在車輛的位置,并選擇一個固定的速度(90km/h)作為主要道路的典型速度。最終狀態(tài)(3)是從一組狀態(tài)中提取的均勻分布的隨機向量,這些狀態(tài)比可行目標(3)寬一些。不可行目標的最終狀態(tài)樣本太多,會延長學(xué)習(xí)過程,因此需要避免,雖然有一些有利于學(xué)習(xí)邊界。
 
通過動力學(xué)模型對規(guī)劃軌跡進行了驗證。可通過經(jīng)驗公式(4)來確定可行的最終狀態(tài),經(jīng)驗公式(4)給出了正常情況下一般車輛在固定速度下所能走的最小圓弧半徑。通過確定初始狀態(tài)和結(jié)束狀態(tài),學(xué)習(xí)代理確定了兩個中間點的y坐標,它們沿著x坐標平均放置在初始點和結(jié)束點之間??紤]到初始和結(jié)束的梯度,一個樣條被插入基于四個保持點,這給出了期望的軌跡。
 
3.2 車輛模型
 
為了在合理的計算條件下準確地預(yù)測車輛的行為,采用了包含動態(tài)車輪模型的非線性平面單軌車輛模型。該模型即使在高動態(tài)駕駛動作的情況下也能給出可行的結(jié)果,但其簡單程度足以使其運行時間保持在合適的水平(Hegedus et al.,2017b)。
 
圖 2 :非線性單軌車輛模型
多體模型(圖2)包括車輛底盤和兩個和前后軸剛性連接的車輪。主要參數(shù)有質(zhì)量m,底盤轉(zhuǎn)動慣量q,車輛重心和前后軸的水平距離lf , lr  車輛重心高度h,前后輪的轉(zhuǎn)動慣量q[f/r]和半徑r[f/r]。車輪模型的參數(shù)也有重要的影響,其中最重要的是摩擦系數(shù)m[f/r],以及影響道路與輪胎間傳遞力的魔術(shù)公式的滑移曲線參數(shù)C[f/r][x/y], B[f/r][x/y], E[f/r][x/y]。
模型的輸入是前輪的轉(zhuǎn)向角(后輪被認為是無轉(zhuǎn)向的)和應(yīng)用在車輪上的總驅(qū)動力矩Md和制動力矩Mb(無動力系統(tǒng)建模)。驅(qū)動力矩通過時變分配因數(shù)xM分配給前后軸M [f / r]。對于制動力矩,理想分布為M[f/r],b,以保持相等的制動滑移。
底盤可以縱向移動x和橫向移動y,并圍繞其垂直軸旋轉(zhuǎn)Ψ(航向運動)。車輪只能繞自己的水平軸旋轉(zhuǎn),其縱向和橫向滑移率s[f/r],[x/y]是動態(tài)建模的。下面的上標用于區(qū)分固定地面(無上標)、固定車輛(V)和固定輪(W)坐標系下的動態(tài)量,點符號(˙)用于時間導(dǎo)數(shù)。
利用牛頓第二定律,導(dǎo)出了底盤在地面固定慣性坐標系下的運動方程:
 
其中F為輪胎力,氣動阻力的計算方法為:
 
其中,CD為阻力系數(shù),Af為前向橫截面積,ρA是空氣質(zhì)量密度。
考慮到車輪的運動,可以推導(dǎo)出輪胎的力。前輪和后輪的模型是平等的,所以只有方程的前面一個是提出。(Pacejka, 2012)利用牛頓第二定律建立的前輪動力學(xué)方程和動態(tài)滑移方程如下:
 
縱向和橫向滑移相關(guān)的松弛長度為:
 
其中,l[f/r],0為靜止的值,l[f/r],min是車輪旋轉(zhuǎn)或者鎖住時的值。滾動阻力矩Mf,rr按照SAE J2452的標準計算。輪胎縱向和側(cè)向力的計算公式為:
 
對于力的計算,采用阻尼滑移值來提高數(shù)值解的穩(wěn)定性:
 
式中kf, x為與速度有關(guān)的阻尼因子,計算公式為:
 
kf,x,0為零速度時的阻尼值,vlow為關(guān)閉阻尼時的速度??v向力和側(cè)向力的疊加采用擬橢圓法:
 
所提出的車輪模型使使用顯式ODE(常微分方程)求解器(例如四階龍格-庫塔方法)具有大約1 ms的中等步長。該模型最初是用Python實現(xiàn)的,但考慮到學(xué)習(xí)過程中的大量迭代,即使使用了這個時間步驟,運行時也是不可行的。因此,車輛模型和求解器是用C實現(xiàn)的,這導(dǎo)致速度大約增加了10倍。
3.3縱向和橫向控制
為了沿著軌跡行駛,我們開發(fā)了縱向和橫向控制。在一個經(jīng)歷過程開始時,車輛并不是以0 km/h開始,因此為了得到穩(wěn)定的狀態(tài),車輛模型使用了一個預(yù)熱距離來達到初始狀態(tài)。對于縱向控制任務(wù),一個簡單的PID可以有效地解決這一問題。橫向控制采用斯坦利方法(Thrun et al,1970)。
 
Ψ是前軸的航向誤差,y是前軸的橫向誤差,v是車速(在前軸計算,它的方向與前輪平行),k是增益因子。
在斯坦利控制器的輸出中,速度敏感飽和被應(yīng)用。
3.4獎賞計算
在每個訓(xùn)練步驟中,代理接收到狀態(tài)向量(軌跡的初始條件)并確定其動作,即中間點。為了計算獎賞,車輛通過內(nèi)部的橫向和縱向控制沿著軌跡行駛。訓(xùn)練過程的每一段經(jīng)歷都要持續(xù),只要車車輛沒有到達軌跡的終點,除非有終止條件使其停止。
在定義代理的獎賞函數(shù)時,考慮了以下條件,其中終止條件為:
  • 橫向距離誤差大于10米
  • 縱向或橫向滑移大于0.1
  • 最大步數(shù)大于2500
  • (Y aw)航向角度誤差大于0.2弧度
除終止條件外,滑移、角度偏差和距離偏差的總和還要求描述了該劑性能的質(zhì)量特征。經(jīng)歷過程獎賞由三個分量組成。
 
環(huán)境定義了在軌跡上平均分布的10個檢查點(cp)。在檢查點計算距離(Rdist)和角度(Rangle)獎賞,在所有時刻計算滑移獎賞(Rslip)。定義子獎賞值在范圍內(nèi)[0,3],計算方法如下:
 
其中,Ψ是前軸的航向誤差,y是橫向誤差,pos是車輛在軌跡上的位置。初始值和方程是由經(jīng)驗決定的。當(dāng)終止條件上升時,經(jīng)歷過程停止,代理得到負獎賞(R≈−10)。該環(huán)境包括一個重置方法,用于將車輛恢復(fù)到其初始位置。
 
4 結(jié)果
 
強化學(xué)習(xí)算法通常需要大量的迭代。培訓(xùn)過程的成功取決于許多參數(shù)。訓(xùn)練算法的超參數(shù)對其影響很大,在最近的案例中,縱向和橫向控制的效率、軌跡發(fā)生器模塊的可行條件和一致的獎勵函數(shù)也有影響。
 
在本例中,最重要的超參數(shù)是actor和critic網(wǎng)絡(luò)的學(xué)習(xí)率(αa),(αc)和動作約束因子(af n),(af f)和Ornstein-Uhlenbeck噪聲參數(shù)(μ),(σ),(θ)
在迭代過程中,神經(jīng)網(wǎng)絡(luò)的超參數(shù)保持不變。在發(fā)展過程中,獎賞功能的形式和參數(shù)如何強烈地影響學(xué)習(xí)和結(jié)果變得很清楚。經(jīng)過多次迭代后,所選擇的超參數(shù)總結(jié)在表1中。下圖是8萬集訓(xùn)練后的結(jié)果。在約40000次開始產(chǎn)生高質(zhì)量的軌跡。圖3顯示了使用21個經(jīng)歷的窗口長度的移動來平滑的最大Q值的趨勢。該圖顯示,最大Q值穩(wěn)定。critic網(wǎng)絡(luò)很好地掌握了獎賞功能?;诿芏葓D(圖4),學(xué)習(xí)評估幾乎是完美的,它顯示了估計Q值與實際獎賞的對比,從測試片段中采樣。該圖顯示出很強的正相關(guān)關(guān)系。
 
圖 3:訓(xùn)練Q值
 
圖4:密度圖
表1:超參數(shù)
 
對于學(xué)習(xí)智能體的性能評估,我們區(qū)分了由不同軌跡類型表示的兩種情況。第一種情況(圖6)為車輛需要轉(zhuǎn)彎時,第二種情況(圖5)為避障情況。在第一種情況下,目標角度是一個較大的值,然而在第二個情況中,它趨近于0。轉(zhuǎn)彎工況的目標角度與距離有關(guān)。
 
圖5:避障工況性能
 
圖6:轉(zhuǎn)彎工況性能
慮到之前定義的最大速度,以90km/h的車速對這些情況進行評估,測試集略大于之前認為理論上可行的區(qū)域。圖表顯示規(guī)劃器很好地解決了這些情況。圖表還表明,情況越艱難,實現(xiàn)的誤差也越大。特別是在避障工況下,理論邊界往往是有效的(見圖5)。此外,除了學(xué)習(xí)的最優(yōu)軌跡規(guī)劃器(actor網(wǎng)絡(luò))之外,critic網(wǎng)絡(luò)給出了規(guī)劃軌跡的預(yù)先估計的物理可行性。對于建立自動駕駛車輛控制系統(tǒng)的決策模型具有實際意義。
5 結(jié)論
本文提出了一種可行的運動規(guī)劃方法,并將基于深度確定性策略梯度的強化學(xué)習(xí)與經(jīng)典控制方法相結(jié)合。結(jié)果表明,人工智能和經(jīng)典方法的結(jié)合可以成為一個很好的工具來設(shè)計自主車輛控制的有效解決方案,其可以獲得更多的可行性和穩(wěn)定性的信息。該算法在學(xué)習(xí)過程中表現(xiàn)出收斂性,因此,經(jīng)過訓(xùn)練的代理基本上能夠生成有效的軌跡。對情況的目視檢查表明代理的總體行為符合要求。進一步的研究將集中于使用變速解決方案和實際測試來擴展環(huán)境。
參考文獻:
 
 
 
 
 
END
 
聯(lián)系人:唐老師  
電話:021-69589116
郵箱:20666028@#edu.cn
 
 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25