日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制

2021-06-23 23:08:28·  來源:同濟智能汽車研究所  
 
編者按:近年來,基于車輛運動學(xué)與動力學(xué)模型的模型預(yù)測控制(MPC)理論在自動駕駛車輛控制方面得到了廣泛的應(yīng)用,MPC基于預(yù)先設(shè)定的系統(tǒng)模型,通過滾動優(yōu)化,解
編者按:近年來,基于車輛運動學(xué)與動力學(xué)模型的模型預(yù)測控制(MPC)理論在自動駕駛車輛控制方面得到了廣泛的應(yīng)用,MPC基于預(yù)先設(shè)定的系統(tǒng)模型,通過滾動優(yōu)化,解決設(shè)定的優(yōu)化問題并求解出控制輸入。MPC的主要優(yōu)點在于能夠系統(tǒng)地處理多個優(yōu)化目標(biāo),并且可以處理輸入和輸出的約束。本文中提出了一種逆最優(yōu)控制(IOC)算法用于從人類演示數(shù)據(jù)中學(xué)習(xí)成本函數(shù),將學(xué)習(xí)得到的成本函數(shù)應(yīng)用于路徑跟蹤MPC中。結(jié)果顯示,該控制器不僅可以遵循參考軌跡,還可以使側(cè)向速度、側(cè)向加速度等特征更接近人類駕駛。

本文譯自:

《Learning-based Model Predictive Control for Path Tracking Control of Autonomous Vehicle》

文章來源:

2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC)

作者:

Mohammad Rokonuzzaman, Navid Mohajer, Saeid Nahavandi, Shady Mohamed

原文鏈接:

https://ieeexplore.ieee.org/document/9283293


摘要:自動駕駛汽車的路徑跟蹤控制器在改善車輛的動態(tài)行為方面起著重要作用。模型預(yù)測控制 (MPC) 是最強大的控制器之一,可以處理多個優(yōu)化目標(biāo),并適應(yīng)執(zhí)行器和車輛狀態(tài)的物理限制,以確保安全和其他所需行為。作為一種高潛力的解決方案,可以將人工演示的學(xué)習(xí)成本函數(shù)集成到 MPC 中。通過從人工演示中學(xué)習(xí)成本函數(shù),可以避免大量參數(shù)調(diào)整,更重要的是,可以調(diào)整控制器以提供對人類更自然的所需控制動作。在本研究中,提出了一種創(chuàng)新的逆最優(yōu)控制 (IOC) 算法,以使用從人工演示中收集的數(shù)據(jù)為控制任務(wù)學(xué)習(xí)合適的成本函數(shù)。目標(biāo)是設(shè)計一種控制器,該控制器生成的運動與人類產(chǎn)生的運動的特定特征相匹配。這些特征包括側(cè)向加速度、側(cè)向速度和偏離車道中心。從結(jié)果中可以看出,設(shè)計的控制器能夠?qū)W習(xí)人類駕駛的所需特征并在生成適當(dāng)?shù)目刂苿幼鞯耐瑫r實現(xiàn)它們。

關(guān)鍵詞:自動駕駛汽車,路徑跟蹤控制器,模型預(yù)測控制,逆最優(yōu)控制

1 引言

模型預(yù)測控制(MPC)被認(rèn)為是設(shè)計自動駕駛汽車路徑跟蹤控制器的合適框架。該技術(shù)在每個時間步解決一個優(yōu)化問題,并且可以同時處理多個目標(biāo)。此外,它可以適應(yīng)執(zhí)行器和車輛狀態(tài)的物理限制,以確保安全和其他所需的行為。為了為自動駕駛汽車制定有效的模型預(yù)測控制,應(yīng)該定義適當(dāng)?shù)某杀竞瘮?shù)。成本函數(shù)的設(shè)計往往取決于設(shè)計者的經(jīng)驗和精通程度。當(dāng)乘客的感覺被考慮到車輛性能中時,設(shè)計成本函數(shù)會更加復(fù)雜。

從客觀的角度來看,可以通過改善自動駕駛汽車的操控行為來提高人類的舒適度和安全性[1]、[2]。這種考慮是對傳統(tǒng)車輛乘坐舒適性的補充,其主要取決于車輛的振動特性[3]-[5]。從主觀角度看,舒適度取決于人的感覺,難以表述為一組成本函數(shù)。作為一種高潛力的解決方案,從人工演示中學(xué)習(xí)成本函數(shù)一直是研究人員的一個有吸引力的選擇。

為了學(xué)習(xí)成本函數(shù)或成本函數(shù)的一些參數(shù),許多研究人員提出了逆最優(yōu)控制(IOC)。在這種方法中,對于未知的成本函數(shù),專家演示通常用作最優(yōu)控制問題的解決方案[6]。考慮 IOC 環(huán)境下的 MPC 問題,對于成本函數(shù)的未知參數(shù),可以將演示輸入視為最優(yōu)輸入序列。給定演示數(shù)據(jù)和參數(shù)成本函數(shù),初步概述了參數(shù)控制的最優(yōu)條件。此外,IOC 問題可以定義為一種搜索算法,用于尋找滿足最佳條件的合適參數(shù)值[7]。

從演示中估計成本函數(shù)的另一種方法是使用逆強化學(xué)習(xí) (IRL)。在某些情況下,IOC 和 IRL 被互相定義為相同的方法。在 IRL 的背景下,使用諸如馬爾可夫決策過程 (MDP) 之類的概率方法從已證明的最佳行為中提取獎勵函數(shù)[8]、[9]。在 MDP 方法中,特別是對于強化學(xué)習(xí) (RL) 的情況,假設(shè)成本函數(shù)是已知的。然而,如前所述,為 RL 設(shè)計合適的成本函數(shù)同樣困難。IRL 已被用于模仿學(xué)習(xí)(有時稱為學(xué)徒學(xué)習(xí)),其目標(biāo)是找到一種控制策略,該策略在未知獎勵函數(shù)的情況下能表現(xiàn)得和演示者一樣好[9]。

許多不同類型的系統(tǒng)提出了IRL和IOC,例如類人機器人[10]、直升機控制[11]和特定駕駛風(fēng)格的復(fù)制[12]。在[10]中,IRL被提出來尋找獎勵函數(shù),以使用來自人工演示的數(shù)據(jù)來設(shè)計仿人機器人更自然和動態(tài)的運行行為。從模擬結(jié)果來看,學(xué)習(xí)到的獎勵函數(shù)顯示出可用于不同環(huán)境的良好泛化特性。即使優(yōu)化問題是離線解決的,學(xué)習(xí)到的獎勵函數(shù)也可以很容易地集成到在線 MPC 算法中。類似地,在[13]中,IOC 被實現(xiàn)為類人運動控制。但是,在這種情況下,沒有考慮每個關(guān)節(jié)的運動;相反,類人機器人的位置和方向用于使用雙層優(yōu)化問題來描述運動。高層控制迭代代價函數(shù)的權(quán)重,并試圖最小化測量數(shù)據(jù)與從低層控制收集的最優(yōu)控制的解之間的距離。

在自動駕駛的背景下,IRL 已被提出用于預(yù)測人類意圖。例如,它用于對人類行為進行建模,推斷人類駕駛員的路線偏好[14]。類似地,在[15]中,IRL用于預(yù)測駕駛員在道路上的意圖。人類駕駛員的運動被表述為一個優(yōu)化問題,并使用IRL找到獎勵函數(shù)。在[12]中,IRL也被用于在生成自動駕駛汽車跟隨的軌跡時復(fù)制個人駕駛風(fēng)格。在這項工作中,最大熵IRL[14]用于解決自動駕駛的路徑規(guī)劃問題。此外,成本函數(shù)以類似于[9]的方式近似為特征的線性組合。IRL的最終目標(biāo)是為成本函數(shù)的每個特征找到合適的權(quán)重,最終用于為車輛生成優(yōu)化軌跡。

盡管 IOC 和 IRL 已針對上述不同應(yīng)用實現(xiàn),但據(jù)我們所知,這些技術(shù)尚未用于自動駕駛汽車的路徑跟蹤控制器。考慮到可以通過提高車輛的操縱性能來提高乘客的舒適度,基于人工演示數(shù)據(jù)的基于學(xué)習(xí)的 MPC 有可能適應(yīng)這種措施,從而提高乘客的舒適度。在本文中,我們建議將 IOC 用于基于學(xué)習(xí)的 MPC,用于自動駕駛汽車的路徑跟蹤任務(wù)。為了實現(xiàn)此功能,設(shè)計了一種新穎的基于特征的 MPC 參數(shù)成本函數(shù)。此外,提出了一種創(chuàng)新的 IOC 算法,以使用從人工演示中收集的數(shù)據(jù)來學(xué)習(xí) MPC 的合適成本函數(shù)參數(shù)。數(shù)據(jù)是使用集成的3D模擬環(huán)境“虛幻引擎”和 Matlab-Simulink 平臺收集的。目標(biāo)是設(shè)計一個控制器,產(chǎn)生與人類產(chǎn)生的運動的特定特征相匹配的運動。這些特征包括橫向加速度、橫向速度、與車道中心的距離和偏航率。成本函數(shù)的參數(shù)是從人工演示數(shù)據(jù)中學(xué)習(xí)的。然后使用這些參數(shù)來實現(xiàn)自動駕駛汽車的 MPC 控制器。

本文的其余部分組織如下。在第Ⅱ節(jié)中,介紹了人工演示學(xué)習(xí)成本函數(shù)背后的理論框架。詳細解釋了MPC的制定、成本函數(shù)的定義和IOC的方法論。第Ⅲ節(jié)概述了從人工演示中收集數(shù)據(jù)的實驗,以及從收集的數(shù)據(jù)中學(xué)習(xí)成本函數(shù)所采取的步驟,以及在路徑跟蹤控制器中應(yīng)用學(xué)習(xí)到的參數(shù)。在第Ⅳ節(jié)和第Ⅴ節(jié)中,展示并進一步討論了結(jié)果,并給出了研究的結(jié)論。

2 從人工演示中學(xué)習(xí)成本函數(shù)

本工作的主要目標(biāo)是使用從人工演示中收集的數(shù)據(jù)為路徑跟蹤任務(wù)找到合適的成本函數(shù)。道路路徑剖面對自動駕駛汽車的操控行為有顯著影響[16];在本工作中,對于給定的參考路徑,人工演示的軌跡被認(rèn)為是最佳解決方案。此外,假設(shè)存在與人類駕駛員生成的軌跡相關(guān)聯(lián)的成本函數(shù)。目標(biāo)是找到成本函數(shù)的適當(dāng)參數(shù),該參數(shù)捕獲個人人類駕駛?cè)蝿?wù)的選定特征。在本節(jié)中,首先討論 MPC 控制器的公式。然后,建立了基于特征的 MPC 成本函數(shù)的設(shè)計。最后,詳細闡述了 IOC 的設(shè)計。

A. 模型預(yù)測控制

在 MPC 中,基于車輛的過渡模型計算車輛在特定范圍內(nèi)的未來狀態(tài)。在每個時間步,求解非線性優(yōu)化問題以生成最小化成本函數(shù)的控制動作。在優(yōu)化后的控制序列中,只有第一個控制動作被發(fā)送到車輛,接下來的時間間隔內(nèi)重復(fù)整個過程。MPC控制器的主要優(yōu)點之一是可以處理多個目標(biāo)。此外,由于它解決了約束優(yōu)化問題,因此可以約束車輛的狀態(tài)(例如轉(zhuǎn)向角)以匹配物理限制。對于本工作,考慮車輛狀態(tài)六χ=[X,Y,ψ,vy, r, ay]被考慮,其中X和Y是車輛在全局坐標(biāo)系中的位置,ψ是偏航角,r是偏航率,vy是縱向速度,ay是縱向加速度。對于這些車輛狀態(tài)和轉(zhuǎn)向角輸入u=δ ,車輛過渡模型可以表示為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制

基于學(xué)習(xí)的控制器的成本函數(shù)可以用參數(shù)形式表示并更新以提高控制器的性能,即復(fù)制人工演示。帶有參數(shù)成本函數(shù)的MPC問題可以表示為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制1

其中,g(χk,uk)表示狀態(tài)和輸入約束,θ表示成本函數(shù)的參數(shù)向量。解決這個優(yōu)化問題,找到一個優(yōu)化的控制序列 U* = [uk*....uk+N*] 并且在每個時間步只將序列的第一個控制動作發(fā)送到車輛。在接下來的時間間隔內(nèi)重復(fù)此過程。

B. 成本函數(shù)

改進的自動駕駛汽車路徑跟蹤控制器應(yīng)適應(yīng)準(zhǔn)確和安全的路徑跟蹤,同時生成控制動作,提供對人更自然的運動。此處考慮了參數(shù)成本函數(shù),并使用基于特征的學(xué)習(xí)技術(shù)來找到產(chǎn)生與人類駕駛員相似特征的參數(shù)的最佳值。對于人工演示或控制器生成的每個軌跡,以下特征用于設(shè)計參數(shù)成本函數(shù)。

a)車道中心距離:該特征表示車輛與車道中心的偏差,可以表示為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制2

其中t為時間,χc(t)=[X, Y]是t時刻車輛在道路上的位置,p(t)=[Xref, Yref]是車道中心距離車輛位置最近的道路點,N是軌跡中的樣本數(shù)。

b)與路徑的偏離角:車輛橫擺角與路徑角的偏離由該特征表示。

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制3

其中,χψ為車輛航向角,pψ為路徑角度。

c)橫向速度:另一個需要與人工演示進行比較的特征是車輛的橫向速度,它表示為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制4

d)偏航率:對于路徑跟蹤任務(wù),偏航率是影響乘客舒適度的重要特征。此特征可以由下式計算得到

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制5

e)橫向加速度:對乘客舒適度有顯著影響的最重要特征之一是車輛的橫向加速度。該特征計算為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制6

最后,利用這些特征,路徑跟蹤任務(wù)的成本函數(shù)表示為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制7

其中,θ為是需要從人工演示中學(xué)習(xí)的參數(shù)或權(quán)重向量,以便使用 MPC 生成的運動與人工演示中的特征相匹配。

C. 逆最優(yōu)控制

在一般最優(yōu)控制問題中,目標(biāo)是找到基于某些特定準(zhǔn)則的控制動作或策略。這些準(zhǔn)則通常使用提供選擇動作的成本的成本函數(shù)來表達。然而,設(shè)計一個合適的成本函數(shù)很困難,而且通常需要大量的時間進行調(diào)整。在 IOC 方法中,目標(biāo)是基于用戶演示找到合適的成本函數(shù),而不是找到最優(yōu)策略。然后可以使用該成本函數(shù)來生成最優(yōu)策略。圖1顯示了 IOC 過程的一般示意圖。IOC 和 IRL 技術(shù)可以互換使用,因為它們描述了類似的方法。

在此過程中,重要的是設(shè)計適當(dāng)?shù)某杀竞瘮?shù),明確解決設(shè)計偏好和目標(biāo)。例如,對于自動駕駛的復(fù)雜任務(wù),調(diào)整成本函數(shù)的不同參數(shù)以獲得優(yōu)選性能并不簡單。在這方面,IOC提供了一個合適的選項,可以根據(jù)從人工演示收集的數(shù)據(jù)來調(diào)整成本函數(shù)。

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制8
圖1 IOC過程示意圖

人工演示數(shù)據(jù)集D=基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制9用于考慮各種駕駛場景的P條軌跡。對于人工演示,我們假設(shè)存在與人類駕駛?cè)蝿?wù)相關(guān)的成本函數(shù),因此通過為 MPC 控制器找到合適的權(quán)重,可以復(fù)制人類駕駛運動的某些特征。為了實現(xiàn)這一點,人類的駕駛?cè)蝿?wù)使用 II-B 中討論的特征來表達。對于一組未知的成本參數(shù),人工演示的預(yù)期特征可以表示為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制10

其中,基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制11是所有演示的特征向量,fd是演示軌跡的特征向量,ζk是數(shù)據(jù)集D中第k個軌跡。這里的目標(biāo)是找到一組成本參數(shù),使得學(xué)習(xí)到的控制器的預(yù)期特征與人工演示的特征相匹配。演示特征和控制器特征之間的差異可以表示為以下梯度

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制12

其中,fl是由控制器為一組固定參數(shù)值θ生成的軌跡的特征向量。使用基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制13可以通過求解基于梯度的優(yōu)化方法找到優(yōu)化值θ*。然而,計算學(xué)習(xí)系統(tǒng)的預(yù)期特征并不簡單,尤其是對于像自動駕駛汽車這樣的高維復(fù)雜系統(tǒng)。當(dāng)我們?yōu)樽詣玉{駛汽車設(shè)計路徑跟蹤控制器時,我們將最可能的軌跡近似為給定參數(shù)集的非線性MPC問題的解決方案,然后使用MPC生成的軌跡計算學(xué)習(xí)控制器的預(yù)期特征。然后,基于梯度基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制13,改變權(quán)重值并重復(fù)相同的過程直到收斂。

3 基于模型的人工演示和實施

在本節(jié)中,解釋了從人工演示中收集的數(shù)據(jù)。此外,還討論了提出的IOC方法的實施。

A. 人工演示數(shù)據(jù)

為了實施基于學(xué)習(xí)的控制方法,使用模擬器收集人體演示數(shù)據(jù)。對于車輛,非線性動力學(xué)模型可用于有效模擬其運動[17],[18]。14自由度車輛動力學(xué)模型用于捕捉車輛的動態(tài)行為。此外,使用 3D 模擬環(huán)境“Unreal Engine”來渲染環(huán)境。車輛模型實現(xiàn)和環(huán)境仿真均在MATLAB-Simulink中進行。羅技G290轉(zhuǎn)向踏板系統(tǒng)用于在模擬環(huán)境中驅(qū)動車輛,同時通過虛幻引擎和車輛動力學(xué)模型之間的通信收集所需的數(shù)據(jù)。圖2顯示了數(shù)據(jù)收集流的軟件架構(gòu)。

收集了10位人類駕駛員的數(shù)據(jù),用于評估所提出方法的有效性。圖3顯示了硬件設(shè)置和虛幻引擎中環(huán)境渲染的快照。最初要求所有駕駛員熟悉駕駛控制器和環(huán)境,以了解他們對模擬環(huán)境的反應(yīng)。行駛10分鐘后,要求駕駛員在三種特定路況下行駛,同時保持車速在30~35km/h之間。有不同類型曲線組成的選定路徑輪廓,對于每條道路,記錄了每個駕駛員的5次試驗。在三個駕駛場景中,兩個場景用于學(xué)習(xí)成本函數(shù)參數(shù),一個場景用于測試控制器的性能。

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制14
圖2 數(shù)據(jù)采集系統(tǒng)架構(gòu)

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制15
圖3 用于人工演示的虛幻引擎中的駕駛控制器和環(huán)境渲染

B.從人工演示中學(xué)習(xí)成本函數(shù)

對于收集到的屬于駕駛員的數(shù)據(jù)集,使用以下公式計算特征值

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制16
其中,m 是每個駕駛場景的試驗次數(shù),P 是駕駛場景的總數(shù)。對于所有駕駛場景,參考位置為車道的中心。

為了學(xué)習(xí)權(quán)重參數(shù)θ,車輛被設(shè)置為每個駕駛場景的起點。隨機選擇一組初始的權(quán)重參數(shù)(θ)數(shù)值,然后使用 MPC 控制器在所有道路上駕駛車輛。駕駛場景完成后,控制器生成的軌跡的預(yù)期特征由下式計算

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制17

基于此控制器的預(yù)期特征和人工演示,優(yōu)化的梯度可以計算為

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制18

使用此梯度更新θ的值,并繼續(xù)該過程直到收斂。

C. 軌跡跟蹤控制器

從IOC算法中找到的學(xué)習(xí)權(quán)重用于MPC的成本函數(shù),以執(zhí)行自動駕駛汽車的路徑跟蹤任務(wù)。II-A中描述的MPC公式用于模擬控制器的性能。我們之前的工作中可以找更多MPC實現(xiàn)的細節(jié)[19]。對于MPC控制器,使用預(yù)測范圍 Np = 5 和控制范圍 Np = 5。非線性優(yōu)化問題使用“Ipopt”包和開源優(yōu)化工具“CasAdi”[20]來解決。

4 結(jié)果與討論

權(quán)重參數(shù)利用兩種駕駛場景學(xué)習(xí)得到。第三個是測試駕駛場景,用于評估控制器的性能。圖4顯示了控制器和人工駕駛在訓(xùn)練駕駛場景中計算特征的性能比較。圖5顯示了測試駕駛場景的相同比較。可以如期觀察到,圖4中特征值更接近相應(yīng)的人類演示。從圖5的結(jié)果來看,學(xué)習(xí)到的控制器顯示出適當(dāng)?shù)姆夯芰?,因此它可以用于其他環(huán)境。圖6描繪了人類駕駛軌跡和由學(xué)習(xí)控制器生成的用于測試駕駛場景的軌跡。從該圖中可以看出,學(xué)習(xí)到的控制器不僅能夠遵循參考軌跡,還能夠?qū)W習(xí)人類駕駛的所需特征并在生成適當(dāng)?shù)目刂苿幼鞯耐瑫r實施它們。

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制19
圖4 訓(xùn)練駕駛場景的人工演示和控制器功能的比較

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制20
圖5 測試駕駛場景的人工演示和控制器功能的比較

基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制21
圖6 試駕場景中人工演示和控制器軌跡的比較

我們在基于學(xué)習(xí)的 MPC 的初步實現(xiàn)的研究中做了幾個假設(shè)。首先,前向速度保持在人類演示的小范圍內(nèi)(30-35km/h)。對于訓(xùn)練,收集的數(shù)據(jù)未考慮速度小于30km/h的情景。類似地,為了進行權(quán)重的學(xué)習(xí),模擬的車輛速度保持恒定在每個特定駕駛場景的人工演示的平均速度上。此外,訓(xùn)練和測試場景僅包含不同曲率的路徑。我們未來的計劃是進行更嚴(yán)格的訓(xùn)練,以使用這種方法評估學(xué)習(xí)控制器的泛化特性。

5 總結(jié)

模型預(yù)測控制 (MPC) 是一種用于設(shè)計自動駕駛汽車路徑跟蹤控制器的有效控制技術(shù)。該技術(shù)實施了一個優(yōu)化步驟,可以處理多個目標(biāo)并適應(yīng)執(zhí)行器和車輛狀態(tài)的物理限制,以確保安全和其他所需的行為。從人工演示中學(xué)習(xí)成本函數(shù)被認(rèn)為是避免對 MPC 進行大量參數(shù)調(diào)整的有吸引力的選擇。最重要的是,它使控制器能夠進行調(diào)整,以提供對人類更自然的控制動作。為了學(xué)習(xí)成本函數(shù)或成本函數(shù)的一些參數(shù),已經(jīng)提出了逆最優(yōu)控制(IOC)和逆強化學(xué)習(xí)(IRL)方案。

在本文中,我們提出了一種創(chuàng)新的 IOC 算法,以使用從人類演示中收集的數(shù)據(jù)為控制任務(wù)學(xué)習(xí)合適的成本函數(shù)。目標(biāo)是設(shè)計一個控制器,該控制器生成的運動與人類產(chǎn)生的運動的特定特征相匹配。這些特征包括橫向加速度、橫向速度、與車道中心的距離和偏航率。為了實現(xiàn)此功能,成本函數(shù)的參數(shù)是從人工演示數(shù)據(jù)中學(xué)習(xí)的。然后使用這些參數(shù)來實現(xiàn)用于自動駕駛車輛路徑跟蹤的 MPC 控制器。針對訓(xùn)練和測試駕駛場景,展示了控制器和人類駕駛對計算特征的性能比較。正如預(yù)期的那樣,觀察到訓(xùn)練場景中的特征值更接近相應(yīng)的人工演示。學(xué)習(xí)到的控制器表現(xiàn)出適當(dāng)?shù)姆夯芰?,因此可以在不同的環(huán)境中使用。還觀察到,學(xué)習(xí)到的控制器不僅能夠?qū)W習(xí)人類駕駛的期望特征,而且能夠遵循參考軌跡。未來的計劃是使用實際駕駛場景進行更嚴(yán)格的訓(xùn)練,并使用這種方法增強學(xué)習(xí)控制器的泛化特性。


參考文獻
 
基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制22
基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制23
基于學(xué)習(xí)的自動駕駛汽車路徑跟蹤模型預(yù)測控制24
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25