考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運動控制

2026-01-16 12:52:14· 來源：同濟智能汽車研究所

編者按：本文提出了一種面向分布式驅(qū)動智能車輛的強化學(xué)習(xí)增強運動控制框架，旨在解決實際機電系統(tǒng)中因電機控制單元與電機過熱、減速器機械磨損等因素引起的驅(qū)動單元性能差異與扭矩輸出能力衰減問題。文章指出，驅(qū)動單元性能差異往往時變且難以準確識別，單元越多補償越難，因此需要可自動補償?shù)淖赃m應(yīng)方法。為此，作者在基于二次規(guī)劃扭矩分配的分層控制架構(gòu)上，引入深度確定性策略梯度（DDPG）強化學(xué)習(xí)模塊在線計算補償扭矩，并強調(diào)該補償過程不依賴故障辨識。實驗部分在仿真環(huán)境和硬件在環(huán)平臺上進行驗證，并在典型工況下與基線方法對比評估，結(jié)果表明該方法在驅(qū)動單元性能變化條件下能夠提升運動狀態(tài)跟蹤性能，同時滿足車載實時運行需求。

本文譯自：

《Reinforcement Learning-Enhanced Motion Control for Distributed-Drive Intelligent Vehicles With Performance Variation of Driving Units》

文章來源：IEEE/ASME Transactions on Mechatronics, vol. 30, no. 4, pp. 3090–3099.(2025)

作者：Zhibin Shuai, Siyou Tao, Jicheng Chen, Yijie Chen, Jiangtao Gai and Hui Zhang

作者單位：China North Vehicle Research Institute, Beijing, China, School of Transportation Science and Engineering, Beihang University, Beijing, China, School of Reliability and Systems Engineering, Beihang University, Beijing, China

原文鏈接：

https://ieeexplore.ieee.org/document/11018510/

摘要：本文研究針對分布式驅(qū)動智能車輛驅(qū)動單元性能變化的強化學(xué)習(xí)增強型運動控制問題。為應(yīng)對這一挑戰(zhàn)，首先系統(tǒng)分析了驅(qū)動單元性能變化的成因，并將該變化建模為車輛動力學(xué)框架中的未知退化系數(shù)。在此基礎(chǔ)上，將深度確定性策略梯度算法與成熟的控制分配方法相結(jié)合，構(gòu)建了一種分層控制架構(gòu)，以減輕驅(qū)動單元性能波動的影響。通過將基于強化學(xué)習(xí)的控制與既有控制策略相融合，所提出的框架有效兼顧了車輛橫向穩(wěn)定性與對驅(qū)動單元性能變化的適應(yīng)能力。為驗證所提方法，同時開展了數(shù)值仿真與硬件在環(huán)實驗。結(jié)果表明，基于強化學(xué)習(xí)的控制器能夠自適應(yīng)處理多種性能退化場景，并顯著提升跟蹤精度。此外，硬件在環(huán)實驗證實了該強化學(xué)習(xí)算法的實時可實現(xiàn)性，在實際運行條件下取得了令人滿意的控制性能。

關(guān)鍵詞：控制分配，分布式驅(qū)動智能車輛，強化學(xué)習(xí)

Ⅰ 引言

分布式電驅(qū)車輛在推動電動化出行發(fā)展方面具有關(guān)鍵作用，具備諸多顯著優(yōu)勢，例如更強的機動性 [1]–[3]、更高的能量效率 [4] 以及更低的排放。此類車輛能夠在多樣化應(yīng)用場景中提供高性能解決方案，有力推動了向更可持續(xù)交通系統(tǒng)的轉(zhuǎn)型。此外，分布式電驅(qū)動車輛已在交通運輸、物流、軍事及公共服務(wù)等多個工業(yè)領(lǐng)域成功應(yīng)用。

分布式驅(qū)動車輛的運動控制系統(tǒng)通過協(xié)調(diào)各驅(qū)動單元的牽引或制動扭矩來確保車輛行駛安全。一般而言[5]，此類系統(tǒng)可分為無模型控制與基于模型的控制兩類方法。傳統(tǒng)的無模型控制方法（如PID控制器[6]）已應(yīng)用于前后輪主動轉(zhuǎn)向的分散式控制中，但這類方法對參數(shù)變化極為敏感，且需大量調(diào)試工作，因此難以獲得最優(yōu)解。鑒于分布式電驅(qū)動車輛屬于過驅(qū)動機械系統(tǒng)，協(xié)同控制動作至關(guān)重要[7]?？刂品峙浼夹g(shù)通過優(yōu)化期望虛擬控制輸入的分配，計算各驅(qū)動電機的扭矩輸出，從而充分利用系統(tǒng)的過驅(qū)動特性。該技術(shù)通常與高層反饋控制律相結(jié)合，現(xiàn)有研究多采用基于模型的控制器，包括線性二次調(diào)節(jié)器[8]、滑?？刂芠9][10]、模型預(yù)測控制[11][12]及其衍生方法。

傳統(tǒng)控制分配算法通常假設(shè)各驅(qū)動單元性能一致。然而在實際應(yīng)用中，由于制造公差、標(biāo)定誤差及工況波動等因素，驅(qū)動單元間的性能差異不可避免。若忽略這些差異將導(dǎo)致車輛實際響應(yīng)與預(yù)期控制目標(biāo)產(chǎn)生偏差，從而影響閉環(huán)穩(wěn)定性，并可能引發(fā)潛在的可靠性風(fēng)險。

強化學(xué)習(xí)能夠在復(fù)雜不確定的環(huán)境中靈活自適應(yīng)地學(xué)習(xí)最優(yōu)的控制策略，從而有效支撐智能車輛控制設(shè)計。該方法已在多項車輛應(yīng)用中得到成功實踐，包括自適應(yīng)巡航控制系統(tǒng)[13]、變道算法[14][15]、路徑跟蹤控制器[16]、導(dǎo)航系統(tǒng)[17]以及決策框架[18]。當(dāng)前基于強化學(xué)習(xí)的車輛控制應(yīng)用主要聚焦于在日益復(fù)雜的環(huán)境條件下提升行駛安全性。

為應(yīng)對這些挑戰(zhàn)，Hu等人[19]提出了一種基于魯棒控制屏障函數(shù)的強化學(xué)習(xí)架構(gòu)，確保實現(xiàn)無碰撞的模型參考軌跡跟蹤。在此類安全保證框架的基礎(chǔ)上，He 等人 [20] 提出一種受“恐懼神經(jīng)”啟發(fā)的強化學(xué)習(xí)框架，模擬杏仁核防御機制以學(xué)習(xí)風(fēng)險規(guī)避的駕駛策略。針對車輛動力學(xué)存在參數(shù)不確定性的系統(tǒng)，Shi等人[21]提出了一種基于強化學(xué)習(xí)的雙層控制算法，將確定性策略梯度與自適應(yīng)動態(tài)規(guī)劃相結(jié)合，以解決驅(qū)動動力學(xué)不確定條件下的路徑跟蹤難題。文獻[22]提出了一種利用強化學(xué)習(xí)算法求解車輛路徑規(guī)劃問題的端到端框架。

上述大多數(shù)基于強化學(xué)習(xí)的算法主要集中在決策層面。這在一定程度上是因為車輛動力學(xué)控制需要對轉(zhuǎn)向、加速、制動等多個連續(xù)動作進行精確操控，從而形成了高維動作空間。高維動作空間會顯著增加計算復(fù)雜度，給強化學(xué)習(xí)算法帶來挑戰(zhàn)。在分布式驅(qū)動車輛中該問題更為突出，因為其動作空間相較集中驅(qū)動車輛更大。此外，由驅(qū)動單元性能變化引入的不確定性，也使得基于模型的控制方法難以設(shè)計出魯棒且可靠的控制策略。文獻 [23] 提出一種分層控制方法：上層為用于運動控制的 MPC算法，下層引入強化學(xué)習(xí)在兼顧經(jīng)濟性與車輛穩(wěn)定性的前提下進行控制分配。文獻 [24] 進一步在控制分配中考慮了驅(qū)動單元故障。

基于上述討論，本文針對驅(qū)動單元存在性能變化的分布式驅(qū)動智能車輛，研究一種基于強化學(xué)習(xí)的運動控制問題。首先構(gòu)建了一種分層運動控制結(jié)構(gòu)，該結(jié)構(gòu)由上層控制器與下層控制分配算法組成。隨后，采用DDPG算法以緩解驅(qū)動單元性能變化帶來的影響。區(qū)別于已有研究[24]直接將強化學(xué)習(xí)與故障估計結(jié)合進行扭矩分配的方法，本研究利用強化學(xué)習(xí)計算補償扭矩，無需依賴故障識別過程。

本文的主要貢獻概括如下：提出了一種面向驅(qū)動單元性能變化故障的分布式驅(qū)動車輛基于DDPG算法的運動控制新框架。將基于DDPG的算法集成到傳統(tǒng)分層運動控制結(jié)構(gòu)中，可以在不依賴故障識別的情況下提升控制性能。通過將基于強化學(xué)習(xí)的控制器與既有的控制策略相結(jié)合，平衡了車輛穩(wěn)定性與控制器對時變故障的適應(yīng)能力。并通過仿真與硬件在環(huán)實驗對所提出的框架進行了驗證。

本文其余部分組織如下：第Ⅱ節(jié)建立了分布式驅(qū)動車輛動力學(xué)模型和驅(qū)動單元性能退化模型；第Ⅲ節(jié)介紹基于控制分配的分層運動控制架構(gòu)；第Ⅳ節(jié)給出基于DDPG的強化學(xué)習(xí)補償方法；第Ⅴ節(jié)通過仿真與硬件在環(huán)實驗進行驗證；第Ⅵ節(jié)給出本文結(jié)論和未來工作。

Ⅱ 問題構(gòu)建與系統(tǒng)建模

A.面向控制的車輛運動學(xué)模型

在本研究中，主要關(guān)注平面運動的縱向、側(cè)向和橫擺動力學(xué)。地面車輛的縱向動力學(xué)可建模如下：

其中，為車輛縱向速度，為整車質(zhì)量，為全部驅(qū)動單元提供的縱向合力，為空氣密度，為車輛空氣阻力系數(shù)，為車輛迎風(fēng)面積，為滾動阻力。

針對分布式驅(qū)動車輛的橫向與橫擺運動動力學(xué)，本文采用單軌模型，其形式為（見文獻[26]）：

其中，表示車輛質(zhì)心側(cè)偏角，表示橫擺角速度；和分別為前軸與后軸輪胎側(cè)偏剛度；為前兩輪轉(zhuǎn)向角（假設(shè)前兩輪等角轉(zhuǎn)向）；為車輛繞垂直軸的轉(zhuǎn)動慣量；為由各驅(qū)動單元縱向力共同產(chǎn)生的外加橫擺力矩；和分別為質(zhì)心到前軸、后軸的距離。

定義驅(qū)動單元輸出向量，其中表示第個驅(qū)動單元的扭矩輸出，并定義廣義控制輸入向量為。因此，廣義控制輸入可由計算得到，其中

為車輛輪距，為車輪的有效滾動半徑。

B.分布式驅(qū)動單元模型

目前，分布式驅(qū)動車輛中輪邊驅(qū)動與輪轂驅(qū)動單元均被廣泛采用。典型的驅(qū)動單元由永磁同步電機、機械減速器以及電機控制單元構(gòu)成，如圖1所示。

圖1. 分布式驅(qū)動單元的組成。

理想情況下，車輛中的各個驅(qū)動單元應(yīng)具有一致的機電特性。然而在實際機電系統(tǒng)中，諸如永磁同步電機與電機控制單元過熱、以及機械減速器的機械磨損等現(xiàn)象都會引起驅(qū)動單元的性能差異。

永磁同步電機的扭矩控制通常采用磁場定向控制（FOC），從而獲得電機輸出扭矩。機械減速器（通常為定軸齒輪箱或行星齒輪機構(gòu)）以恒定傳動比降低轉(zhuǎn)速并放大電機輸出扭矩。其輸出軸扭矩可表達為：

其中，為機械減速器的機械效率。

在本文中，考慮驅(qū)動單元退化后，第個電機的實際輸出扭矩為：

其中，為第個電機的實際輸出扭矩，為退化系數(shù)，理論上取值范圍為0到1。

需要指出的是，這類性能差異通常具有時變性、不確定性與非線性特征，使其難以定位與檢測；當(dāng)分布式驅(qū)動單元數(shù)量增加時，精確檢測與補償會變得更加困難。因此，有必要開發(fā)一種能夠自動補償不同驅(qū)動單元性能差異的智能自適應(yīng)算法。

Ⅲ 基于控制分配的分層式運動控制

A. 傳統(tǒng)分層控制架構(gòu)

對于分布式驅(qū)動車輛的運動控制而言，縱向速度與車輛橫擺率是最關(guān)鍵的車輛狀態(tài)量，因其在自動駕駛與輔助駕駛場景中會直接影響車輛行駛軌跡。因此，本研究將這兩個狀態(tài)量定義為車輛運動控制的跟蹤目標(biāo)。

由于需要跟蹤的狀態(tài)只有兩個，但車輛上存在多個相互獨立的驅(qū)動單元，分布式驅(qū)動車輛屬于典型的過驅(qū)動系統(tǒng)。因此，本文采用一種包含控制分配的經(jīng)典分層控制架構(gòu)來實現(xiàn)平面運動控制，如圖2中虛線框所示。該分層控制器由參考模型、高層跟蹤控制器以及控制分配模塊構(gòu)成。參考模型首先根據(jù)駕駛員指令或路徑規(guī)劃輸入計算期望縱向速度與期望橫擺角速度。隨后，高層控制器生成用于跟蹤這些期望狀態(tài)的廣義控制輸入。最后，控制分配模塊將這些廣義控制量分配為各個驅(qū)動單元的扭矩指令。需要強調(diào)的是，該傳統(tǒng)框架默認不考慮驅(qū)動單元性能差異，即假設(shè)。

B. 參考模型

車輛縱向速度與橫擺角速度的參考值，可以由自動駕駛模塊的路徑規(guī)劃器直接給出，也可以根據(jù)駕駛員對方向盤與踏板的操縱來計算。期望縱向速度的計算表達式為：

其中，表示車輛初始速度，是由駕駛員踏板決定的期望加速度。

期望橫擺角速度可取為單軌模型在穩(wěn)態(tài)下的橫擺角速度 [27]，它由駕駛員轉(zhuǎn)向輸入、車輛速度以及車輛幾何參數(shù)共同決定：

其中，和是根據(jù)車輛幾何參數(shù)、并采用文獻 [27] 中的方法計算得到的系數(shù)。

C. 上層跟蹤控制器

為跟蹤期望的縱向速度與車輛橫擺角速度，可采用前文所述多種跟蹤控制方法。本研究選取PI控制器作為縱向速度的基礎(chǔ)跟蹤控制器，其表達式如下：

其中，和分別是縱向速度PI控制的比例增益與積分增益。此外，本文采用模型預(yù)測控制器（MPC）作為車輛橫擺角速度控制的基于模型的控制器。MPC 問題定義為：

其中為狀態(tài)向量，為待跟蹤的期望狀態(tài)（期望側(cè)偏角取0）；為控制輸入；表示控制輸入增量；為松弛因子序列，用于避免優(yōu)化問題可能出現(xiàn)不可行。表示在初始條件、映射與給定時，對狀態(tài)的預(yù)測；為預(yù)測時域長度。非線性映射按照式(2)定義。另外，與分別表示相應(yīng)變量的最小值與最大值。

D. 過驅(qū)動系統(tǒng)的控制分配

當(dāng)跟蹤控制器給出廣義控制輸入后，需要一個控制分配模塊將其分配為各個驅(qū)動單元的扭矩指令。在多種控制分配方法中，本文采用基于二次規(guī)劃（QP）的控制分配方法。

為以最小功率實現(xiàn)廣義控制輸入，定義代價函數(shù)如下：

其中，為用于在“分配效果”和“控制輸入大小”之間進行權(quán)衡的加權(quán)因子；和為對角加權(quán)矩陣，構(gòu)造如下：

其中，和為可調(diào)參數(shù)，用于調(diào)節(jié)和的的偏差容忍度；為第個車輪的法向載荷，其計算參考文獻[28]。的設(shè)計目的是盡可能充分利用各車輪的附著裕度。在上述定義基礎(chǔ)上，基于 QP 的控制分配最終可表述為：

其中，為控制器采樣周期；和分別為各驅(qū)動單元扭矩上限與下限；和為驅(qū)動單元扭矩變化率限制；表示輸入增量。本文選擇文獻[29]中的方法求解該 QP 問題，原因是其在計算開銷方面具有優(yōu)勢。

Ⅳ 基于強化學(xué)習(xí)的增強型運動控制設(shè)計

A.強化學(xué)習(xí)增強的運動控制算法

在經(jīng)典的分層運動控制器中，驅(qū)動單元的輸出變化無法被檢測并進行補償，因此跟蹤性能難以得到保證。為解決該問題，引入一個強化學(xué)習(xí)智能體，以增強系統(tǒng)應(yīng)對驅(qū)動單元性能變化的能力。所提出的強化學(xué)習(xí)增強運動控制架構(gòu)如圖2 所示。該智能體被專門設(shè)計為與經(jīng)典分層控制器協(xié)同工作。智能體的任務(wù)是通過觀測分層控制器與車輛狀態(tài)，生成合理的校正扭矩。在觀測到反饋狀態(tài)并計算獎勵后，智能體為每個驅(qū)動單元確定扭矩校正量 , 并將其疊加到由基于QP的控制分配算法求得的扭矩指令上。因此，域控制器發(fā)送給各驅(qū)動單元的最終扭矩指令可表示為：

其中，為第個驅(qū)動單元的最終扭矩指令；為由基于 QP 的控制分配所確定的扭矩指令；為第個驅(qū)動單元的扭矩校正量，由智能體推理得到。

圖2. 分布式驅(qū)動車輛的運動控制架構(gòu)。強化學(xué)習(xí)增強方法在傳統(tǒng)分層控制基礎(chǔ)上進行決策并添加補償。

B.強化學(xué)習(xí)智能體的設(shè)計

從強化學(xué)習(xí)智能體的視角來看，環(huán)境由車輛本體以及經(jīng)典分層式運動控制器共同構(gòu)成。因此，狀態(tài)空間應(yīng)包含兩類信息：其一是與車輛平面運動狀態(tài)相關(guān)的變量，即車輛縱向速度，橫擺角速度，質(zhì)心側(cè)偏角，車輛縱向與橫向加速度，以及前輪轉(zhuǎn)角；其二是與經(jīng)典分層控制器輸出相關(guān)的變量，例如上層控制器的跟蹤誤差，以及由控制分配模塊確定的各驅(qū)動單元扭矩指令。綜上，狀態(tài)空間定義為，其中為縱向速度跟蹤誤差，為橫擺角速度跟蹤誤差。動作空間定義為各驅(qū)動單元的扭矩修正量：。

在智能車輛的平面運動控制中，我們期望車輛運動狀態(tài)能夠跟蹤駕駛員或運動規(guī)劃模塊給定的期望值。因此，在訓(xùn)練過程中，強化學(xué)習(xí)智能體的獎勵函數(shù)設(shè)計為

其中，和用于平衡縱向速度與車輛橫擺角速度的跟蹤誤差。

DDPG 是一種面向連續(xù)動作空間的確定性強化學(xué)習(xí)算法，與分布式驅(qū)動汽車的扭矩補償控制需求高度匹配。DDPG 通過采用 actor–critic 結(jié)構(gòu)、經(jīng)驗回放以及目標(biāo)網(wǎng)絡(luò)軟更新，顯著提升訓(xùn)練穩(wěn)定性與收斂速度。此外，還引入噪聲注入、動作裁剪等策略以增強智能體的探索能力。通過對現(xiàn)有強化學(xué)習(xí)方法的對比分析，本文選擇 DDPG 用于自適應(yīng)扭矩補償。

Actor 與 critic 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與訓(xùn)練方法如圖3所示。兩者均以序列輸入層開頭，序列長度設(shè)為 20，其余部分由全連接層與長短期記憶（LSTM）層構(gòu)成。Actor 與 critic 的學(xué)習(xí)率分別設(shè)為 0.0001 和 0.001。為確保動作輸出落在預(yù)設(shè)范圍內(nèi)，actor 網(wǎng)絡(luò)末端設(shè)置縮放層。Actor 網(wǎng)絡(luò)將狀態(tài)序列映射為動作，并由車輛執(zhí)行，從而觀測到新狀態(tài) 與獎勵。Critic 網(wǎng)絡(luò)通過為每個動作賦予價值來評估 actor 的表現(xiàn)。訓(xùn)練時，經(jīng)驗首先存入容量為的回放緩沖區(qū)，再隨機采樣小批量經(jīng)驗來更新兩個網(wǎng)絡(luò)參數(shù)；小批量大小設(shè)為 64，最大訓(xùn)練回合數(shù)為 1000。

圖3. 本研究采用的DDPG算法網(wǎng)絡(luò)結(jié)構(gòu)。

Actor 與 critic 的權(quán)重分別按照策略梯度與損失函數(shù)進行更新（參見文獻 [25]）。損失函數(shù)采用 L2 正則化以避免過擬合。訓(xùn)練過程中，向動作加入白噪聲以促進對未知動作空間的探索：早期使用高方差噪聲以鼓勵探索未嘗試的扭矩補償策略；隨著訓(xùn)練推進，噪聲方差逐步衰減以更側(cè)重對已驗證動作的利用。噪聲方差更新為：

其中，是噪聲方差衰減率，為第個回合的噪聲方差，且。

Ⅴ 實驗結(jié)果和分析

A.訓(xùn)練過程

本文在 MATLAB/Simulink 環(huán)境下開發(fā)了強化學(xué)習(xí)增強控制策略與車輛動力學(xué)模型，并使用 RL Toolbox 與 Vehicle Dynamics Blockset 作為支持。為提升訓(xùn)練的便捷性與效率，選取一個車輛模型作為分布式驅(qū)動車輛的被控對象。車輛關(guān)鍵參數(shù)為：質(zhì)量，橫擺轉(zhuǎn)動慣量，前軸到質(zhì)心距離，后軸到質(zhì)心距離 , 輪距 , 空氣阻力系數(shù) , 迎風(fēng)面積。每個驅(qū)動單元的最大驅(qū)動扭矩設(shè)為，最大制動扭矩設(shè)為。

在訓(xùn)練過程的每個回合中，將驅(qū)動單元的性能變化建模為隨機功率退化。為模擬未知的性能退化（可能影響部分或全部驅(qū)動單元），將每個驅(qū)動單元的扭矩輸出乘以一個相互獨立的隨機值，其范圍為 0.5 到 1。需要注意的是，真實工況下驅(qū)動單元的退化系數(shù)變化較慢。由于單次仿真時長較短，退化系數(shù)在不同訓(xùn)練回合之間變化，從而保證場景多樣性；而在同一個回合內(nèi)，某一驅(qū)動單元的退化值保持不變，但不同驅(qū)動單元之間的退化值可以不同。這樣做旨在更真實地模擬現(xiàn)實條件，并為訓(xùn)練過程提供更魯棒的樣本集合。為覆蓋足夠多的駕駛工況/操作動作，本文選取不同的加速與轉(zhuǎn)向操縱來構(gòu)建訓(xùn)練集。

期望縱向速度參考采用不同變化率的定速巡航曲線與加速曲線，并遵循式(6)的方法生成。每個訓(xùn)練回合中，期望加速度在[0,5] 范圍內(nèi)均勻分布；訓(xùn)練過程中，最大期望縱向速度約束為。類似地，為提高訓(xùn)練復(fù)雜度，期望轉(zhuǎn)向輸入設(shè)計為恒定轉(zhuǎn)向、斜坡轉(zhuǎn)向與正弦轉(zhuǎn)向三類曲線：

其中，對所有為初始轉(zhuǎn)角，為轉(zhuǎn)角變化率，為幅值，為頻率，為相位。參數(shù) 由均勻分布隨機變量生成，其上下界由實際轉(zhuǎn)向執(zhí)行器的物理限制給出。每個訓(xùn)練回合中，將不同的速度曲線與轉(zhuǎn)向曲線隨機組合，以提供足夠的仿真場景。

本文選擇 ADMM 算法作為 critic 與 actor 網(wǎng)絡(luò)的優(yōu)化器。經(jīng)過1000個訓(xùn)練回合后，單回合獎勵與平均獎勵的變化趨勢如圖4所示。平均獎勵在約200個回合后顯著提升，并從約第300個回合起收斂到穩(wěn)定水平。出現(xiàn)平臺期的原因在于：主要控制輸入主要由分層控制器決定，而強化學(xué)習(xí)智能體僅提供小幅修正；這些修正的有效性將在下一節(jié)中展示。

圖4. DDPG 強化學(xué)習(xí)智能體訓(xùn)練過程中的獎勵曲線。

B. 性能驗證與結(jié)果分析

如 Mazzilli 等人[5]所指出，車輛運動控制的性能可以通過能夠激發(fā)顯著瞬態(tài)或非線性效應(yīng)的操縱工況來有效評估。典型的評估工況包括正弦掃頻（ISO 7401）以及雙移線（DLC，ISO 3888-1）。其中，正弦轉(zhuǎn)向工況（在加速過程中施加正弦輸入）已經(jīng)被納入訓(xùn)練數(shù)據(jù)集。因此，我們選擇未包含在訓(xùn)練數(shù)據(jù)集中的雙移線工況來驗證訓(xùn)練后強化學(xué)習(xí)智能體的性能與泛化能力。

在 MPC 問題中，車輛的實際側(cè)偏角與橫擺角速度滿足如下約束：

其中，為參考橫擺角速度序列?？紤]到車輛執(zhí)行器能力，控制輸入的約束設(shè)定為：

在仿真中，我們選取驅(qū)動單元性能退化系數(shù)為, , , 。期望縱向速度設(shè)為20m/s 。圖5對比了強化學(xué)習(xí)增強運動控制器與傳統(tǒng) MPC、PI 控制器（其形式與式(8)中的縱向控制器類似）的跟蹤結(jié)果?？梢杂^察到，強化學(xué)習(xí)增強控制器的表現(xiàn)明顯優(yōu)于傳統(tǒng)分層控制器。圖6給出了四種控制算法在雙移線工況下的跟蹤誤差對比。由于雙移線工況不在訓(xùn)練集中，該對比進一步體現(xiàn)了強化學(xué)習(xí)智能體對未訓(xùn)練新工況的泛化處理能力。仿真結(jié)果表明，強化學(xué)習(xí)增強控制器能夠取得更小的跟蹤誤差，從而驗證了其有效性。

圖5. 雙移線測試中控制器的性能對比。

圖6. 雙移線測試中的跟蹤誤差對比。

圖7展示了在雙移線工況下：由基于QP的控制分配計算得到的四輪扭矩控制量, 以及由智能體計算得到的扭矩修正量。圖8給出了發(fā)送至四個車輪的最終扭矩指令。圖8中的藍色實線表示強化學(xué)習(xí)增強控制計算得到的結(jié)果，紅色虛線表示由于四個驅(qū)動單元存在不同性能變化而導(dǎo)致的實際輸出扭矩值。由這些圖可以看出，智能體生成的扭矩修正能夠有效補償扭矩控制指令的性能變化影響。

圖7. 雙移線測試中的扭矩變化。上圖：由控制分配生成的扭矩指令；下圖：由強化學(xué)習(xí)智能體生成的扭矩修正量。

圖8. 雙移線測試中的跟蹤誤差對比。雙移線測試中各車輪的期望扭矩與實際扭矩曲線：左上至右下依次為左前輪、右前輪、左后輪、右后輪。

為進一步展示所提控制算法在不同性能變化條件下的控制效果，文中隨機選取了五組不同的性能退化系數(shù)（見表I）。并在雙移線工況下對強化學(xué)習(xí)增強控制與傳統(tǒng)分層控制的效果進行比較。表II給出了在這五組退化系數(shù)下，兩種控制算法橫擺角速度跟蹤誤差的均方根值。與傳統(tǒng)分層控制器相比，所提出的強化學(xué)習(xí)增強控制具有更小的誤差，控制性能得到顯著提升。

表Ⅰ 各組驅(qū)動單元的退化系數(shù)設(shè)置

表Ⅱ 五組仿真中車輛橫擺角速度的均方根跟蹤誤差

C. 實時部署與硬件在環(huán)實驗

本節(jié)將所提出的強化學(xué)習(xí)增強算法部署在VCU上，以驗證其在嵌入式控制系統(tǒng)中的可行性與有效性。此外，還結(jié)合已部署的VCU與 dSPACE 仿真器開展硬件在環(huán)實驗。實時部署與硬件在環(huán)實驗的平臺架構(gòu)如圖9所示。

圖9. 實時部署與硬件在環(huán)實驗的平臺架構(gòu)

所使用的VCU 基于德州儀器的高性能雙核數(shù)字信號處理器 TMS320F28379D。在本文中，使用其中一個 CPU 核來執(zhí)行所提出的算法。MATLAB/Simulink 的 Embedded Coder 支持包被用來將強化學(xué)習(xí)算法轉(zhuǎn)換為可執(zhí)行的 C 代碼。

硬件在環(huán)實驗驗證在由 Carsim RT 軟件與 dSPACE 仿真器構(gòu)成的平臺上進行。Carsim 車輛模型運行在 dSPACE 上，仿真步長為 1ms ; 而本文研究的控制算法部署在VCU 上，控制步長為10ms。VCU 與 dSPACE 仿真器之間通過 CAN 總線通信：仿真器更新車輛狀態(tài)，VCU 計算控制指令。為便于后續(xù)分析，使用 CAN 接口卡記錄數(shù)據(jù)。在硬件在環(huán)實驗中，采用72km/h恒速的單移線工況來評估算法性能；同時，退化系數(shù)設(shè)置為與仿真中相同。圖10所示的實驗結(jié)果表明：該算法在真實嵌入式控制單元的實時應(yīng)用中仍能保持優(yōu)秀的控制性能。

圖10. 硬件在環(huán)實驗中車輛狀態(tài)的變化。(a) 車輛縱向速度；(b) 車輛橫擺角速度通過調(diào)試工具可以測量并分析所提算法在 DSP 上的計算負載。分層控制部分與強化學(xué)習(xí)智能體部分的資源消耗被獲取并在表III中進行了對比。

表Ⅲ 所提算法的計算資源消耗

分層控制模塊平均耗時，主要原因是求解基于QP 的控制分配時采用了迭代定點法；其內(nèi)存占用也主要由該方法的計算緩沖區(qū)構(gòu)成。強化學(xué)習(xí)智能體模塊平均耗時，主要源于 actor 網(wǎng)絡(luò)的浮點運算，其參數(shù)存儲需要264KB內(nèi)存。所提算法的總計算時間小于 5ms ?？紤]到車輛運動控制的典型控制步長為10ms，這樣的計算開銷是可接受的，因此該算法可在當(dāng)前主流 VCU 上實現(xiàn)。對于配備專用神經(jīng)網(wǎng)絡(luò)處理單元的域控制器，運行時間還可進一步降低，從而允許使用層數(shù)更多、神經(jīng)元更多的更復(fù)雜神經(jīng)網(wǎng)絡(luò)來提升控制性能。

Ⅵ 結(jié)論和未來工作

本文通過展示強化學(xué)習(xí)技術(shù)在應(yīng)對性能波動和提升控制能力方面的潛力，推進了分布式驅(qū)動智能車輛的運動控制研究。針對驅(qū)動單元性能變化帶來的運動控制挑戰(zhàn)，我們采用強化學(xué)習(xí)技術(shù)予以解決。通過分析驅(qū)動單元的性能波動特性并將其納入車輛動力學(xué)模型，我們構(gòu)建了分層運動控制架構(gòu)作為先驗控制分配方法。將深度確定性策略梯度算法融入該架構(gòu)后，有效消減了驅(qū)動單元性能波動對系統(tǒng)的影響。本框架中強化學(xué)習(xí)控制與先驗控制策略的結(jié)合，實現(xiàn)了車輛穩(wěn)定性與參數(shù)不確定適應(yīng)能力之間的平衡。實驗結(jié)果表明，基于強化學(xué)習(xí)的控制器能有效應(yīng)對多種行駛場景，并在變化工況下顯著提升軌跡跟蹤性能。此外，硬件在環(huán)實驗驗證了該強化學(xué)習(xí)算法具備實時部署能力，且控制性能表現(xiàn)良好。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：翼卡車聯(lián)網(wǎng)正式獲廣汽俄羅斯市場eSIM定點
上一篇：2027年新車必裝的 “救命系統(tǒng)”：中歐技術(shù)路線全解析

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布
• 全球首個！電動汽車電耗限值強制新規(guī)來了：標(biāo)準更嚴,明年	• 為何高精度傳聲器一旦受損，便只能更換無法維修？

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運動控制

微信公眾號

Ⅲ 基于控制分配的分層式運動控制

Ⅳ 基于強化學(xué)習(xí)的增強型運動控制設(shè)計

Ⅴ 實驗結(jié)果和分析

Ⅵ 結(jié)論和未來工作

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工