日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運動控制

2026-01-16 12:52:14·  來源:同濟智能汽車研究所  
 

編者按:本文提出了一種面向分布式驅(qū)動智能車輛的強化學(xué)習(xí)增強運動控制框架,旨在解決實際機電系統(tǒng)中因電機控制單元與電機過熱、減速器機械磨損等因素引起的驅(qū)動單元性能差異與扭矩輸出能力衰減問題。文章指出,驅(qū)動單元性能差異往往時變且難以準確識別,單元越多補償越難,因此需要可自動補償?shù)淖赃m應(yīng)方法。為此,作者在基于二次規(guī)劃扭矩分配的分層控制架構(gòu)上,引入深度確定性策略梯度(DDPG)強化學(xué)習(xí)模塊在線計算補償扭矩,并強調(diào)該補償過程不依賴故障辨識。實驗部分在仿真環(huán)境和硬件在環(huán)平臺上進行驗證,并在典型工況下與基線方法對比評估,結(jié)果表明該方法在驅(qū)動單元性能變化條件下能夠提升運動狀態(tài)跟蹤性能,同時滿足車載實時運行需求。

本文譯自:

《Reinforcement Learning-Enhanced Motion Control for Distributed-Drive Intelligent Vehicles With Performance Variation of Driving Units》

文章來源:IEEE/ASME Transactions on Mechatronics, vol. 30, no. 4, pp. 3090–3099.(2025)

作者:Zhibin Shuai, Siyou Tao, Jicheng Chen, Yijie Chen, Jiangtao Gai and Hui Zhang

作者單位:China North Vehicle Research Institute, Beijing, China, School of Transportation Science and Engineering, Beihang University, Beijing, China, School of Reliability and Systems Engineering, Beihang University, Beijing, China

原文鏈接:

https://ieeexplore.ieee.org/document/11018510/


摘要:本文研究針對分布式驅(qū)動智能車輛驅(qū)動單元性能變化的強化學(xué)習(xí)增強型運動控制問題。為應(yīng)對這一挑戰(zhàn),首先系統(tǒng)分析了驅(qū)動單元性能變化的成因,并將該變化建模為車輛動力學(xué)框架中的未知退化系數(shù)。在此基礎(chǔ)上,將深度確定性策略梯度算法與成熟的控制分配方法相結(jié)合,構(gòu)建了一種分層控制架構(gòu),以減輕驅(qū)動單元性能波動的影響。通過將基于強化學(xué)習(xí)的控制與既有控制策略相融合,所提出的框架有效兼顧了車輛橫向穩(wěn)定性與對驅(qū)動單元性能變化的適應(yīng)能力。為驗證所提方法,同時開展了數(shù)值仿真與硬件在環(huán)實驗。結(jié)果表明,基于強化學(xué)習(xí)的控制器能夠自適應(yīng)處理多種性能退化場景,并顯著提升跟蹤精度。此外,硬件在環(huán)實驗證實了該強化學(xué)習(xí)算法的實時可實現(xiàn)性,在實際運行條件下取得了令人滿意的控制性能。

關(guān)鍵詞:控制分配,分布式驅(qū)動智能車輛,強化學(xué)習(xí)

Ⅰ 引言

分布式電驅(qū)車輛在推動電動化出行發(fā)展方面具有關(guān)鍵作用,具備諸多顯著優(yōu)勢,例如更強的機動性 [1]–[3]、更高的能量效率 [4] 以及更低的排放。此類車輛能夠在多樣化應(yīng)用場景中提供高性能解決方案,有力推動了向更可持續(xù)交通系統(tǒng)的轉(zhuǎn)型。此外,分布式電驅(qū)動車輛已在交通運輸、物流、軍事及公共服務(wù)等多個工業(yè)領(lǐng)域成功應(yīng)用。

分布式驅(qū)動車輛的運動控制系統(tǒng)通過協(xié)調(diào)各驅(qū)動單元的牽引或制動扭矩來確保車輛行駛安全。一般而言[5],此類系統(tǒng)可分為無模型控制與基于模型的控制兩類方法。傳統(tǒng)的無模型控制方法(如PID控制器[6])已應(yīng)用于前后輪主動轉(zhuǎn)向的分散式控制中,但這類方法對參數(shù)變化極為敏感,且需大量調(diào)試工作,因此難以獲得最優(yōu)解。鑒于分布式電驅(qū)動車輛屬于過驅(qū)動機械系統(tǒng),協(xié)同控制動作至關(guān)重要[7]??刂品峙浼夹g(shù)通過優(yōu)化期望虛擬控制輸入的分配,計算各驅(qū)動電機的扭矩輸出,從而充分利用系統(tǒng)的過驅(qū)動特性。該技術(shù)通常與高層反饋控制律相結(jié)合,現(xiàn)有研究多采用基于模型的控制器,包括線性二次調(diào)節(jié)器[8]、滑??刂芠9][10]、模型預(yù)測控制[11][12]及其衍生方法。

傳統(tǒng)控制分配算法通常假設(shè)各驅(qū)動單元性能一致。然而在實際應(yīng)用中,由于制造公差、標(biāo)定誤差及工況波動等因素,驅(qū)動單元間的性能差異不可避免。若忽略這些差異將導(dǎo)致車輛實際響應(yīng)與預(yù)期控制目標(biāo)產(chǎn)生偏差,從而影響閉環(huán)穩(wěn)定性,并可能引發(fā)潛在的可靠性風(fēng)險。

強化學(xué)習(xí)能夠在復(fù)雜不確定的環(huán)境中靈活自適應(yīng)地學(xué)習(xí)最優(yōu)的控制策略,從而有效支撐智能車輛控制設(shè)計。該方法已在多項車輛應(yīng)用中得到成功實踐,包括自適應(yīng)巡航控制系統(tǒng)[13]、變道算法[14][15]、路徑跟蹤控制器[16]、導(dǎo)航系統(tǒng)[17]以及決策框架[18]。當(dāng)前基于強化學(xué)習(xí)的車輛控制應(yīng)用主要聚焦于在日益復(fù)雜的環(huán)境條件下提升行駛安全性。

為應(yīng)對這些挑戰(zhàn),Hu等人[19]提出了一種基于魯棒控制屏障函數(shù)的強化學(xué)習(xí)架構(gòu),確保實現(xiàn)無碰撞的模型參考軌跡跟蹤。在此類安全保證框架的基礎(chǔ)上,He 等人 [20] 提出一種受“恐懼神經(jīng)”啟發(fā)的強化學(xué)習(xí)框架,模擬杏仁核防御機制以學(xué)習(xí)風(fēng)險規(guī)避的駕駛策略。針對車輛動力學(xué)存在參數(shù)不確定性的系統(tǒng),Shi等人[21]提出了一種基于強化學(xué)習(xí)的雙層控制算法,將確定性策略梯度與自適應(yīng)動態(tài)規(guī)劃相結(jié)合,以解決驅(qū)動動力學(xué)不確定條件下的路徑跟蹤難題。文獻[22]提出了一種利用強化學(xué)習(xí)算法求解車輛路徑規(guī)劃問題的端到端框架。

上述大多數(shù)基于強化學(xué)習(xí)的算法主要集中在決策層面。這在一定程度上是因為車輛動力學(xué)控制需要對轉(zhuǎn)向、加速、制動等多個連續(xù)動作進行精確操控,從而形成了高維動作空間。高維動作空間會顯著增加計算復(fù)雜度,給強化學(xué)習(xí)算法帶來挑戰(zhàn)。在分布式驅(qū)動車輛中該問題更為突出,因為其動作空間相較集中驅(qū)動車輛更大。此外,由驅(qū)動單元性能變化引入的不確定性,也使得基于模型的控制方法難以設(shè)計出魯棒且可靠的控制策略。文獻 [23] 提出一種分層控制方法:上層為用于運動控制的 MPC算法,下層引入強化學(xué)習(xí)在兼顧經(jīng)濟性與車輛穩(wěn)定性的前提下進行控制分配。文獻 [24] 進一步在控制分配中考慮了驅(qū)動單元故障。

基于上述討論,本文針對驅(qū)動單元存在性能變化的分布式驅(qū)動智能車輛,研究一種基于強化學(xué)習(xí)的運動控制問題。首先構(gòu)建了一種分層運動控制結(jié)構(gòu),該結(jié)構(gòu)由上層控制器與下層控制分配算法組成。隨后,采用DDPG算法以緩解驅(qū)動單元性能變化帶來的影響。區(qū)別于已有研究[24]直接將強化學(xué)習(xí)與故障估計結(jié)合進行扭矩分配的方法,本研究利用強化學(xué)習(xí)計算補償扭矩,無需依賴故障識別過程。

本文的主要貢獻概括如下:提出了一種面向驅(qū)動單元性能變化故障的分布式驅(qū)動車輛基于DDPG算法的運動控制新框架。將基于DDPG的算法集成到傳統(tǒng)分層運動控制結(jié)構(gòu)中,可以在不依賴故障識別的情況下提升控制性能。通過將基于強化學(xué)習(xí)的控制器與既有的控制策略相結(jié)合,平衡了車輛穩(wěn)定性與控制器對時變故障的適應(yīng)能力。并通過仿真與硬件在環(huán)實驗對所提出的框架進行了驗證。

本文其余部分組織如下:第Ⅱ節(jié)建立了分布式驅(qū)動車輛動力學(xué)模型和驅(qū)動單元性能退化模型;第Ⅲ節(jié)介紹基于控制分配的分層運動控制架構(gòu);第Ⅳ節(jié)給出基于DDPG的強化學(xué)習(xí)補償方法;第Ⅴ節(jié)通過仿真與硬件在環(huán)實驗進行驗證;第Ⅵ節(jié)給出本文結(jié)論和未來工作。

Ⅱ 問題構(gòu)建與系統(tǒng)建模

A.面向控制的車輛運動學(xué)模型

在本研究中,主要關(guān)注平面運動的縱向、側(cè)向和橫擺動力學(xué)。地面車輛的縱向動力學(xué)可建模如下:

圖片

其中,為車輛縱向速度,為整車質(zhì)量,為全部驅(qū)動單元提供的縱向合力,為空氣密度,為車輛空氣阻力系數(shù),為車輛迎風(fēng)面積,為滾動阻力。

針對分布式驅(qū)動車輛的橫向與橫擺運動動力學(xué),本文采用單軌模型,其形式為(見文獻[26]):

圖片

其中, 表示車輛質(zhì)心側(cè)偏角,表示橫擺角速度;分別為前軸與后軸輪胎側(cè)偏剛度;為前兩輪轉(zhuǎn)向角(假設(shè)前兩輪等角轉(zhuǎn)向);為車輛繞垂直軸的轉(zhuǎn)動慣量;為由各驅(qū)動單元縱向力共同產(chǎn)生的外加橫擺力矩;分別為質(zhì)心到前軸、后軸的距離。

定義驅(qū)動單元輸出向量,其中表示第 個驅(qū)動單元的扭矩輸出,并定義廣義控制輸入向量為。因此,廣義控制輸入可由計算得到,其中

圖片

為車輛輪距,為車輪的有效滾動半徑。

B.分布式驅(qū)動單元模型

目前,分布式驅(qū)動車輛中輪邊驅(qū)動與輪轂驅(qū)動單元均被廣泛采用。典型的驅(qū)動單元由永磁同步電機、機械減速器以及電機控制單元構(gòu)成,如圖1所示。

圖片

圖1. 分布式驅(qū)動單元的組成。

理想情況下,車輛中的各個驅(qū)動單元應(yīng)具有一致的機電特性。然而在實際機電系統(tǒng)中,諸如永磁同步電機與電機控制單元過熱、以及機械減速器的機械磨損等現(xiàn)象都會引起驅(qū)動單元的性能差異。

永磁同步電機的扭矩控制通常采用磁場定向控制(FOC),從而獲得電機輸出扭矩。機械減速器(通常為定軸齒輪箱或行星齒輪機構(gòu))以恒定傳動比降低轉(zhuǎn)速并放大電機輸出扭矩。其輸出軸扭矩 可表達為:

圖片

其中,為機械減速器的機械效率。

在本文中,考慮驅(qū)動單元退化后,第個電機的實際輸出扭矩為:

圖片

其中,為第個電機的實際輸出扭矩,為退化系數(shù),理論上取值范圍為0到1。

需要指出的是,這類性能差異通常具有時變性、不確定性與非線性特征,使其難以定位與檢測;當(dāng)分布式驅(qū)動單元數(shù)量增加時,精確檢測與補償會變得更加困難。因此,有必要開發(fā)一種能夠自動補償不同驅(qū)動單元性能差異的智能自適應(yīng)算法。


Ⅲ 基于控制分配的分層式運動控制


A. 傳統(tǒng)分層控制架構(gòu)

對于分布式驅(qū)動車輛的運動控制而言,縱向速度與車輛橫擺率是最關(guān)鍵的車輛狀態(tài)量,因其在自動駕駛與輔助駕駛場景中會直接影響車輛行駛軌跡。因此,本研究將這兩個狀態(tài)量定義為車輛運動控制的跟蹤目標(biāo)。

由于需要跟蹤的狀態(tài)只有兩個,但車輛上存在多個相互獨立的驅(qū)動單元,分布式驅(qū)動車輛屬于典型的過驅(qū)動系統(tǒng)。因此,本文采用一種包含控制分配的經(jīng)典分層控制架構(gòu)來實現(xiàn)平面運動控制,如圖2中虛線框所示。該分層控制器由參考模型、高層跟蹤控制器以及控制分配模塊構(gòu)成。參考模型首先根據(jù)駕駛員指令或路徑規(guī)劃輸入計算期望縱向速度與期望橫擺角速度。隨后,高層控制器生成用于跟蹤這些期望狀態(tài)的廣義控制輸入。最后,控制分配模塊將這些廣義控制量分配為各個驅(qū)動單元的扭矩指令。需要強調(diào)的是,該傳統(tǒng)框架默認不考慮驅(qū)動單元性能差異,即假設(shè)

B. 參考模型

車輛縱向速度與橫擺角速度的參考值,可以由自動駕駛模塊的路徑規(guī)劃器直接給出,也可以根據(jù)駕駛員對方向盤與踏板的操縱來計算。期望縱向速度的計算表達式為:

圖片

其中,表示車輛初始速度, 是由駕駛員踏板決定的期望加速度。

期望橫擺角速度 可取為單軌模型在穩(wěn)態(tài)下的橫擺角速度 [27],它由駕駛員轉(zhuǎn)向輸入、車輛速度以及車輛幾何參數(shù)共同決定:

圖片

其中,是根據(jù)車輛幾何參數(shù)、并采用文獻 [27] 中的方法計算得到的系數(shù)。

C. 上層跟蹤控制器

為跟蹤期望的縱向速度車輛橫擺角速度,可采用前文所述多種跟蹤控制方法。本研究選取PI控制器作為縱向速度的基礎(chǔ)跟蹤控制器,其表達式如下:

圖片

其中,分別是縱向速度PI控制的比例增益與積分增益。 此外,本文采用模型預(yù)測控制器(MPC)作為車輛橫擺角速度控制的基于模型的控制器。MPC 問題定義為:

圖片

其中為狀態(tài)向量,為待跟蹤的期望狀態(tài)(期望側(cè)偏角取0);為控制輸入; 表示控制輸入增量; 為松弛因子序列,用于避免優(yōu)化問題可能出現(xiàn)不可行。 表示在初始條件、映射 與 給定時,對狀態(tài)的預(yù)測; 為預(yù)測時域長度。非線性映射 按照式(2)定義。另外,分別表示相應(yīng)變量的最小值與最大值。

D. 過驅(qū)動系統(tǒng)的控制分配

當(dāng)跟蹤控制器給出廣義控制輸入 后,需要一個控制分配模塊將其分配為各個驅(qū)動單元的扭矩指令。在多種控制分配方法中,本文采用基于二次規(guī)劃(QP)的控制分配方法。

為以最小功率實現(xiàn)廣義控制輸入,定義代價函數(shù)如下:

圖片

其中,為用于在“分配效果”和“控制輸入大小”之間進行權(quán)衡的加權(quán)因子;為對角加權(quán)矩陣,構(gòu)造如下:

圖片

其中, 和為可調(diào)參數(shù),用于調(diào)節(jié)的的偏差容忍度; 為第個車輪的法向載荷,其計算參考文獻[28]。的設(shè)計目的是盡可能充分利用各車輪的附著裕度。 在上述定義基礎(chǔ)上,基于 QP 的控制分配最終可表述為:

圖片

其中, 為控制器采樣周期;分別為各驅(qū)動單元扭矩上限與下限;為驅(qū)動單元扭矩變化率限制; 表示輸入增量。本文選擇文獻[29]中的方法求解該 QP 問題,原因是其在計算開銷方面具有優(yōu)勢。


Ⅳ 基于強化學(xué)習(xí)的增強型運動控制設(shè)計


A.強化學(xué)習(xí)增強的運動控制算法

在經(jīng)典的分層運動控制器中,驅(qū)動單元的輸出變化無法被檢測并進行補償,因此跟蹤性能難以得到保證。為解決該問題,引入一個強化學(xué)習(xí)智能體,以增強系統(tǒng)應(yīng)對驅(qū)動單元性能變化的能力。所提出的強化學(xué)習(xí)增強運動控制架構(gòu)如圖2 所示。該智能體被專門設(shè)計為與經(jīng)典分層控制器協(xié)同工作。智能體的任務(wù)是通過觀測分層控制器與車輛狀態(tài),生成合理的校正扭矩。在觀測到反饋狀態(tài)并計算獎勵后,智能體為每個驅(qū)動單元確定扭矩校正量 , 并將其疊加到由基于QP的控制分配算法求得的扭矩指令上。因此,域控制器發(fā)送給各驅(qū)動單元的最終扭矩指令 可表示為:

圖片

其中,為第個驅(qū)動單元的最終扭矩指令;為由基于 QP 的控制分配所確定的扭矩指令;為第個驅(qū)動單元的扭矩校正量,由智能體推理得到。

圖片

圖2. 分布式驅(qū)動車輛的運動控制架構(gòu)。強化學(xué)習(xí)增強方法在傳統(tǒng)分層控制基礎(chǔ)上進行決策并添加補償。

B.強化學(xué)習(xí)智能體的設(shè)計

從強化學(xué)習(xí)智能體的視角來看,環(huán)境由車輛本體以及經(jīng)典分層式運動控制器共同構(gòu)成。因此,狀態(tài)空間應(yīng)包含兩類信息:其一是與車輛平面運動狀態(tài)相關(guān)的變量,即車輛縱向速度,橫擺角速度 ,質(zhì)心側(cè)偏角 ,車輛縱向與橫向加速度,以及前輪轉(zhuǎn)角 ;其二是與經(jīng)典分層控制器輸出相關(guān)的變量,例如上層控制器的跟蹤誤差,以及由控制分配模塊確定的各驅(qū)動單元扭矩指令。綜上,狀態(tài)空間定義為,其中為縱向速度跟蹤誤差, 為橫擺角速度跟蹤誤差。動作空間定義為各驅(qū)動單元的扭矩修正量:

在智能車輛的平面運動控制中,我們期望車輛運動狀態(tài)能夠跟蹤駕駛員或運動規(guī)劃模塊給定的期望值。因此,在訓(xùn)練過程中,強化學(xué)習(xí)智能體的獎勵函數(shù)設(shè)計為

圖片

其中, 和用于平衡縱向速度與車輛橫擺角速度的跟蹤誤差。

DDPG 是一種面向連續(xù)動作空間的確定性強化學(xué)習(xí)算法,與分布式驅(qū)動汽車的扭矩補償控制需求高度匹配。DDPG 通過采用 actor–critic 結(jié)構(gòu)、經(jīng)驗回放以及目標(biāo)網(wǎng)絡(luò)軟更新,顯著提升訓(xùn)練穩(wěn)定性與收斂速度。此外,還引入噪聲注入、動作裁剪等策略以增強智能體的探索能力。通過對現(xiàn)有強化學(xué)習(xí)方法的對比分析,本文選擇 DDPG 用于自適應(yīng)扭矩補償。

Actor 與 critic 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與訓(xùn)練方法如圖3所示。兩者均以序列輸入層開頭,序列長度設(shè)為 20,其余部分由全連接層與長短期記憶(LSTM)層構(gòu)成。Actor 與 critic 的學(xué)習(xí)率分別設(shè)為 0.0001 和 0.001。為確保動作輸出落在預(yù)設(shè)范圍內(nèi),actor 網(wǎng)絡(luò)末端設(shè)置縮放層。Actor 網(wǎng)絡(luò)將狀態(tài)序列映射為動作,并由車輛執(zhí)行,從而觀測到新狀態(tài) 與獎勵 。Critic 網(wǎng)絡(luò)通過為每個動作賦予價值來評估 actor 的表現(xiàn)。訓(xùn)練時,經(jīng)驗首先存入容量為 的回放緩沖區(qū),再隨機采樣小批量經(jīng)驗來更新兩個網(wǎng)絡(luò)參數(shù);小批量大小設(shè)為 64,最大訓(xùn)練回合數(shù)為 1000。

圖片

圖3. 本研究采用的DDPG算法網(wǎng)絡(luò)結(jié)構(gòu)。

Actor 與 critic 的權(quán)重分別按照策略梯度與損失函數(shù)進行更新(參見文獻 [25])。損失函數(shù)采用 L2 正則化以避免過擬合。訓(xùn)練過程中,向動作加入白噪聲以促進對未知動作空間的探索:早期使用高方差噪聲以鼓勵探索未嘗試的扭矩補償策略;隨著訓(xùn)練推進,噪聲方差逐步衰減以更側(cè)重對已驗證動作的利用。噪聲方差更新為:

圖片

其中,是噪聲方差衰減率,為第個回合的噪聲方差,且。



Ⅴ 實驗結(jié)果和分析

A.訓(xùn)練過程

本文在 MATLAB/Simulink 環(huán)境下開發(fā)了強化學(xué)習(xí)增強控制策略與車輛動力學(xué)模型,并使用 RL Toolbox 與 Vehicle Dynamics Blockset 作為支持。為提升訓(xùn)練的便捷性與效率,選取一個車輛模型作為分布式驅(qū)動車輛的被控對象。車輛關(guān)鍵參數(shù)為:質(zhì)量,橫擺轉(zhuǎn)動慣量 ,前軸到質(zhì)心距離,后軸到質(zhì)心距離 , 輪距 , 空氣阻力系數(shù) , 迎風(fēng)面積。每個驅(qū)動單元的最大驅(qū)動扭矩設(shè)為 ,最大制動扭矩設(shè)為。

在訓(xùn)練過程的每個回合中,將驅(qū)動單元的性能變化建模為隨機功率退化。為模擬未知的性能退化(可能影響部分或全部驅(qū)動單元),將每個驅(qū)動單元的扭矩輸出乘以一個相互獨立的隨機值,其范圍為 0.5 到 1。需要注意的是,真實工況下驅(qū)動單元的退化系數(shù)變化較慢。由于單次仿真時長較短,退化系數(shù)在不同訓(xùn)練回合之間變化,從而保證場景多樣性;而在同一個回合內(nèi),某一驅(qū)動單元的退化值保持不變,但不同驅(qū)動單元之間的退化值可以不同。這樣做旨在更真實地模擬現(xiàn)實條件,并為訓(xùn)練過程提供更魯棒的樣本集合。為覆蓋足夠多的駕駛工況/操作動作,本文選取不同的加速與轉(zhuǎn)向操縱來構(gòu)建訓(xùn)練集。

期望縱向速度參考采用不同變化率的定速巡航曲線與加速曲線,并遵循式(6)的方法生成。每個訓(xùn)練回合中,期望加速度  在[0,5] 范圍內(nèi)均勻分布;訓(xùn)練過程中,最大期望縱向速度約束為 。類似地,為提高訓(xùn)練復(fù)雜度,期望轉(zhuǎn)向輸入設(shè)計為恒定轉(zhuǎn)向、斜坡轉(zhuǎn)向與正弦轉(zhuǎn)向三類曲線:

圖片

其中,對所有為初始轉(zhuǎn)角,為轉(zhuǎn)角變化率, 為幅值,為頻率,為相位。參數(shù) 由均勻分布隨機變量生成,其上下界由實際轉(zhuǎn)向執(zhí)行器的物理限制給出。每個訓(xùn)練回合中,將不同的速度曲線與轉(zhuǎn)向曲線隨機組合,以提供足夠的仿真場景。

本文選擇 ADMM 算法作為 critic 與 actor 網(wǎng)絡(luò)的優(yōu)化器。經(jīng)過1000個訓(xùn)練回合后,單回合獎勵與平均獎勵的變化趨勢如圖4所示。平均獎勵在約200個 回合后顯著提升,并從約第300個回合起收斂到穩(wěn)定水平。出現(xiàn)平臺期的原因在于:主要控制輸入主要由分層控制器決定,而強化學(xué)習(xí)智能體僅提供小幅修正;這些修正的有效性將在下一節(jié)中展示。

圖片

圖4. DDPG 強化學(xué)習(xí)智能體訓(xùn)練過程中的獎勵曲線。

B. 性能驗證與結(jié)果分析

如 Mazzilli 等人[5]所指出,車輛運動控制的性能可以通過能夠激發(fā)顯著瞬態(tài)或非線性效應(yīng)的操縱工況來有效評估。典型的評估工況包括正弦掃頻(ISO 7401)以及雙移線(DLC,ISO 3888-1)。其中,正弦轉(zhuǎn)向工況(在加速過程中施加正弦輸入)已經(jīng)被納入訓(xùn)練數(shù)據(jù)集。因此,我們選擇未包含在訓(xùn)練數(shù)據(jù)集中的雙移線工況來驗證訓(xùn)練后強化學(xué)習(xí)智能體的性能與泛化能力。

在 MPC 問題中,車輛的實際側(cè)偏角與橫擺角速度滿足如下約束:

圖片

其中,為參考橫擺角速度序列??紤]到車輛執(zhí)行器能力,控制輸入的約束設(shè)定為:

圖片

在仿真中,我們選取驅(qū)動單元性能退化系數(shù)為, , , 。期望縱向速度設(shè)為20m/s 。圖5對比了強化學(xué)習(xí)增強運動控制器與傳統(tǒng) MPC、PI 控制器(其形式與式(8)中的縱向控制器類似)的跟蹤結(jié)果??梢杂^察到,強化學(xué)習(xí)增強控制器的表現(xiàn)明顯優(yōu)于傳統(tǒng)分層控制器。圖6給出了四種控制算法在雙移線工況下的跟蹤誤差對比。由于雙移線工況不在訓(xùn)練集中,該對比進一步體現(xiàn)了強化學(xué)習(xí)智能體對未訓(xùn)練新工況的泛化處理能力。仿真結(jié)果表明,強化學(xué)習(xí)增強控制器能夠取得更小的跟蹤誤差,從而驗證了其有效性。

圖片

圖5. 雙移線測試中控制器的性能對比。

圖片

圖6. 雙移線測試中的跟蹤誤差對比。

圖7展示了在雙移線工況下:由基于QP的控制分配計算得到的四輪扭矩控制量, 以及由智能體計算得到的扭矩修正量。圖8給出了發(fā)送至四個車輪的最終扭矩指令。圖8中的藍色實線表示強化學(xué)習(xí)增強控制計算得到的結(jié)果,紅色虛線表示由于四個驅(qū)動單元存在不同性能變化而導(dǎo)致的實際輸出扭矩值。由這些圖可以看出,智能體生成的扭矩修正能夠有效補償扭矩控制指令的性能變化影響。

圖片

圖7. 雙移線測試中的扭矩變化。上圖:由控制分配生成的扭矩指令;下圖:由強化學(xué)習(xí)智能體生成的扭矩修正量。

圖片

圖8. 雙移線測試中的跟蹤誤差對比。雙移線測試中各車輪的期望扭矩與實際扭矩曲線:左上至右下依次為左前輪、右前輪、左后輪、右后輪。

為進一步展示所提控制算法在不同性能變化條件下的控制效果,文中隨機選取了五組不同的性能退化系數(shù)(見表I)。并在雙移線工況下對強化學(xué)習(xí)增強控制與傳統(tǒng)分層控制的效果進行比較。表II給出了在這五組退化系數(shù)下,兩種控制算法橫擺角速度跟蹤誤差的均方根值。與傳統(tǒng)分層控制器相比,所提出的強化學(xué)習(xí)增強控制具有更小的誤差,控制性能得到顯著提升。

表Ⅰ 各組驅(qū)動單元的退化系數(shù)設(shè)置

圖片

表Ⅱ 五組仿真中車輛橫擺角速度的均方根跟蹤誤差

圖片

C. 實時部署與硬件在環(huán)實驗

本節(jié)將所提出的強化學(xué)習(xí)增強算法部署在VCU上,以驗證其在嵌入式控制系統(tǒng)中的可行性與有效性。此外,還結(jié)合已部署的VCU與 dSPACE 仿真器開展 硬件在環(huán)實驗。實時部署與硬件在環(huán)實驗的平臺架構(gòu)如圖9所示。

圖片

圖9. 實時部署與硬件在環(huán)實驗的平臺架構(gòu)

所使用的VCU 基于德州儀器的高性能雙核數(shù)字信號處理器 TMS320F28379D。在本文中,使用其中一個 CPU 核來執(zhí)行所提出的算法。MATLAB/Simulink 的 Embedded Coder 支持包被用來將強化學(xué)習(xí)算法轉(zhuǎn)換為可執(zhí)行的 C 代碼。

硬件在環(huán)實驗驗證在由 Carsim RT 軟件與 dSPACE 仿真器構(gòu)成的平臺上進行。Carsim 車輛模型運行在 dSPACE 上,仿真步長為 1ms ; 而本文研究的控制算法部署在VCU 上,控制步長為10ms。VCU 與 dSPACE 仿真器之間通過 CAN 總線通信:仿真器更新車輛狀態(tài),VCU 計算控制指令。為便于后續(xù)分析,使用 CAN 接口卡記錄數(shù)據(jù)。在硬件在環(huán)實驗中,采用72km/h恒速的單移線工況來評估算法性能;同時,退化系數(shù)設(shè)置為與仿真中相同。圖10所示的實驗結(jié)果表明:該算法在真實嵌入式控制單元的實時應(yīng)用中仍能保持優(yōu)秀的控制性能。

圖片

圖10. 硬件在環(huán)實驗中車輛狀態(tài)的變化。(a) 車輛縱向速度;(b) 車輛橫擺角速度 通過調(diào)試工具可以測量并分析所提算法在 DSP 上的計算負載。分層控制部分與強化學(xué)習(xí)智能體部分的資源消耗被獲取并在表III中進行了對比。

表Ⅲ 所提算法的計算資源消耗

圖片

分層控制模塊平均耗時,主要原因是求解基于QP 的控制分配時采用了迭代定點法;其內(nèi)存占用也主要由該方法的計算緩沖區(qū)構(gòu)成。強化學(xué)習(xí)智能體模塊平均耗時 ,主要源于 actor 網(wǎng)絡(luò)的浮點運算,其參數(shù)存儲需要264KB內(nèi)存。所提算法的總計算時間小于 5ms ??紤]到車輛運動控制的典型控制步長為10ms,這樣的計算開銷是可接受的,因此該算法可在當(dāng)前主流 VCU 上實現(xiàn)。對于配備專用神經(jīng)網(wǎng)絡(luò)處理單元的域控制器,運行時間還可進一步降低,從而允許使用層數(shù)更多、神經(jīng)元更多的更復(fù)雜神經(jīng)網(wǎng)絡(luò)來提升控制性能。

Ⅵ 結(jié)論和未來工作

本文通過展示強化學(xué)習(xí)技術(shù)在應(yīng)對性能波動和提升控制能力方面的潛力,推進了分布式驅(qū)動智能車輛的運動控制研究。針對驅(qū)動單元性能變化帶來的運動控制挑戰(zhàn),我們采用強化學(xué)習(xí)技術(shù)予以解決。通過分析驅(qū)動單元的性能波動特性并將其納入車輛動力學(xué)模型,我們構(gòu)建了分層運動控制架構(gòu)作為先驗控制分配方法。將深度確定性策略梯度算法融入該架構(gòu)后,有效消減了驅(qū)動單元性能波動對系統(tǒng)的影響。本框架中強化學(xué)習(xí)控制與先驗控制策略的結(jié)合,實現(xiàn)了車輛穩(wěn)定性與參數(shù)不確定適應(yīng)能力之間的平衡。實驗結(jié)果表明,基于強化學(xué)習(xí)的控制器能有效應(yīng)對多種行駛場景,并在變化工況下顯著提升軌跡跟蹤性能。此外,硬件在環(huán)實驗驗證了該強化學(xué)習(xí)算法具備實時部署能力,且控制性能表現(xiàn)良好。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25