在真實(shí)道路上使用切換軟演員-批評(píng)家模型的懸架控制策略

2024-07-04 09:16:19· 來(lái)源：同濟(jì)智能汽車(chē)研究所

編者按：本文介紹了一種創(chuàng)新方法，利用軟演員-評(píng)論家 (SAC) 算法在實(shí)際道路條件下優(yōu)化半主動(dòng)懸架系統(tǒng)的性能。面對(duì)多樣化的路面狀況，包括減速帶和普通路段，本研究提出了一種深度強(qiáng)化學(xué)習(xí)技術(shù)，能適應(yīng)截然不同的獎(jiǎng)勵(lì)環(huán)境，最初在仿真環(huán)境中得到驗(yàn)證。我們開(kāi)發(fā)的切換學(xué)習(xí)系統(tǒng)能夠即時(shí)識(shí)別并區(qū)分兩種道路擾動(dòng)類(lèi)型，從而針對(duì)性地調(diào)整和應(yīng)用SAC模型。通過(guò)對(duì)比，我們的切換SAC算法在處理z-車(chē)身質(zhì)量中心定向加速度和俯仰方面超越了先進(jìn)的傳統(tǒng)懸架系統(tǒng)。實(shí)驗(yàn)結(jié)果證實(shí)，經(jīng)過(guò)訓(xùn)練的SAC模型有效降低了z-方向加速度和俯仰角度，與仿真成果相符，顯著提升了乘車(chē)舒適度和車(chē)輛操控性。這一成就已在真實(shí)世界測(cè)試中得到證實(shí)，即在實(shí)際道路上對(duì)一輛汽車(chē)進(jìn)行SAC訓(xùn)練，其效果超越了傳統(tǒng)控制策略，彰顯了深度強(qiáng)化學(xué)習(xí)在車(chē)輛動(dòng)態(tài)控制系統(tǒng)中的巨大潛力。

本文譯自：

《Suspension Control Strategies Using Switched Soft Actor-Critic Models for Real Roads》

文章來(lái)源：

IEEE Transactions on Industrial Electronics, vol. 70, no. 1, pp. 824-832, Jan. 2023

作者：

Hwanmoo Yong, Joohwan Seo, Jaeyoung Kim, Myounghoe Kim, and Jongeun Choi

作者單位：

HwanmooYong、Myounghoe Kim和Jongeun Choi：延世大學(xué)機(jī)械工程學(xué)院，韓國(guó)首爾；Joohwan Seo：加州大學(xué)伯克利分校機(jī)械工程系，伯克利；JaeyoungKim：現(xiàn)代汽車(chē)集團(tuán)研發(fā)部，韓國(guó)

原文鏈接：

https://ieeexplore.ieee.org/document/9724132

摘要：在本文中，我們提出了在真實(shí)道路上使用軟演員-評(píng)論家（SAC）模型為整車(chē)中半主動(dòng)懸架系統(tǒng)的學(xué)習(xí)和控制策略，其中存在許多具有不同干擾能力的道路剖面（例如，減速帶和一般道路）。因此，提出了一種能夠使深度強(qiáng)化學(xué)習(xí)覆蓋不同領(lǐng)域的技術(shù)，這些領(lǐng)域具有很大不同的獎(jiǎng)勵(lì)函數(shù)。這個(gè)概念最初是在模擬環(huán)境中實(shí)現(xiàn)的。我們提出的開(kāi)關(guān)學(xué)習(xí)系統(tǒng)可以實(shí)時(shí)連續(xù)識(shí)別兩種不同的道路擾動(dòng)曲線，以便可以相應(yīng)地學(xué)習(xí)和應(yīng)用適當(dāng)設(shè)計(jì)的SAC模型。將所提出的開(kāi)關(guān)SAC算法的結(jié)果與先進(jìn)和傳統(tǒng)的基準(zhǔn)懸架系統(tǒng)的結(jié)果進(jìn)行了比較?；诮Y(jié)果，所提算法顯示z-車(chē)身質(zhì)量中心的定向加速度和俯仰。最后，我們還展示了我們?cè)谡鎸?shí)道路上的真實(shí)汽車(chē)中成功實(shí)施的SAC培訓(xùn)系統(tǒng)。經(jīng)過(guò)訓(xùn)練的 SAC 模型優(yōu)于傳統(tǒng)控制器，可降低z-定向加速度和俯仰，與仿真結(jié)果相似，與乘坐舒適性和車(chē)輛機(jī)動(dòng)性高度相關(guān)。

關(guān)鍵詞：深度強(qiáng)化學(xué)習(xí)，整車(chē)懸架系統(tǒng)，半主動(dòng)懸架，軟演員-評(píng)論家

Ⅰ 引言

車(chē)輛懸架系統(tǒng)在確保穩(wěn)定性、駕駛安全性和乘坐舒適性方面發(fā)揮著重要作用。然而，傳統(tǒng)的被動(dòng)懸架通常不能滿足這些性能要求。由于參數(shù)是固定的，因此無(wú)法更改被動(dòng)懸架系統(tǒng)的動(dòng)態(tài)，這限制了性能預(yù)期。被動(dòng)懸架系統(tǒng)的上述缺點(diǎn)可以通過(guò)采用具有可調(diào)動(dòng)態(tài)參數(shù)的受控懸架來(lái)克服[1-2]。主動(dòng)懸架能夠增加和耗散能量，用于各種商用車(chē)，以提高乘坐舒適性和穩(wěn)定性 [3-5]。然而，在車(chē)身和輪胎之間配備了額外的執(zhí)行器，例如液壓執(zhí)行器，導(dǎo)致制造成本增加。與其他類(lèi)型的受控懸架相比，半主動(dòng)懸架具有許多優(yōu)勢(shì)，因此最近引起了人們的極大關(guān)注。半主動(dòng)懸架的主要優(yōu)點(diǎn)之一是它們?cè)诋a(chǎn)品成本和性能之間進(jìn)行了權(quán)衡[6]，[7]。

受控懸架研究的主要重點(diǎn)是開(kāi)發(fā)控制策略和算法，以充分利用半主動(dòng)懸架系統(tǒng)。利用半主動(dòng)懸掛系統(tǒng)的最流行的控制算法是天鉤（SH）框架[8-10]。汽車(chē)工業(yè)中的SH控制在隔振方面以較低的成本提供公平的車(chē)輛性能，即乘坐舒適性，并且易于應(yīng)用。在基本SH控制[11]的基礎(chǔ)上，通過(guò)添加最優(yōu)性和適應(yīng)性[12]等變體，提出了SH控制策略的許多變體。

模型預(yù)測(cè)控制（MPC）是另一種先進(jìn)的控制方案，用于控制整車(chē)的半主動(dòng)懸架系統(tǒng)[13]。使用MPC和額外傳感器（例如攝像頭和激光位置傳感器）的預(yù)覽控制系統(tǒng)可顯著提高乘坐舒適性[14-15]。然而，MPC需要從額外的傳感器獲得完整的狀態(tài)信息，這在實(shí)踐中成本很高[16-17]。在感官測(cè)量有限的情況下，可以使用帶有積分器的卡爾曼濾波來(lái)重建完整狀態(tài)，盡管這可能會(huì)導(dǎo)致?tīng)顟B(tài)估計(jì)不佳[18-19]。

半主動(dòng)懸架系統(tǒng)表現(xiàn)出高度非線性特性，例如滯后，這些特性難以建模。這種非線性會(huì)嚴(yán)重降低不考慮它們的控制設(shè)計(jì)的性能?；谏窠?jīng)網(wǎng)絡(luò)的控制方法在處理非線性問(wèn)題時(shí)具有優(yōu)勢(shì)[20]，當(dāng)訓(xùn)練有充分的先驗(yàn)信息時(shí)。在[21]中，提出了一種基于動(dòng)力學(xué)的安全深度強(qiáng)化學(xué)習(xí)（DRL）算法。DRL算法研究的最新進(jìn)展，如信任區(qū)域策略優(yōu)化[22]、近端策略優(yōu)化（PPO）[23]和軟參與者-批評(píng)者（SAC）[24]，已經(jīng)導(dǎo)致DRL在許多其他控制應(yīng)用中的應(yīng)用[25-26]。特別是，SAC采用了最大熵公式，大大提高了探索性和魯棒性[27]。

然而，在實(shí)際的道路情況下，有許多道路剖面具有各種干擾力。一般道路會(huì)以持續(xù)的干擾擾亂系統(tǒng)，減速帶可以被視為對(duì)系統(tǒng)的脈沖。[1]采用深度確定性策略梯度（DDPG）算法控制單一類(lèi)型道路擾動(dòng)下四分之一車(chē)的半主動(dòng)懸架系統(tǒng)。但是，經(jīng)過(guò)訓(xùn)練的 DRL 模型在遇到減速帶時(shí)預(yù)計(jì)不會(huì)充分表現(xiàn)。這是由于 DRL 模型缺乏對(duì)此類(lèi)脈沖信號(hào)的訓(xùn)練。在這種情況下，將 DRL 應(yīng)用于具有實(shí)際道路擾動(dòng)的懸架系統(tǒng)可能很困難。Doya 等人。[28] 使用強(qiáng)化學(xué)習(xí) （RL）將復(fù)雜任務(wù)分解為多個(gè)域，以解決網(wǎng)格世界問(wèn)題和非線性非平穩(wěn)控制任務(wù)。

本文的貢獻(xiàn)如下。

1）為了解決上述問(wèn)題，我們提出了用于訓(xùn)練和利用SAC模型的切換算法，這些模型在現(xiàn)實(shí)駕駛場(chǎng)景中控制整車(chē)的半主動(dòng)懸架。

2）所提出的脈沖檢測(cè)器可以實(shí)時(shí)識(shí)別擾動(dòng)域，以選擇相應(yīng)的SAC模型。這樣就可以將正確的 SAC 模型應(yīng)用于系統(tǒng)。

3）基準(zhǔn)仿真研究表明，我們的方法在方向加速度、滾動(dòng)和俯仰的均方根（rms）值方面與先進(jìn)和傳統(tǒng)控制器（例如MPC、SH和被動(dòng)懸架）相比是有效的。

4）SAC培訓(xùn)系統(tǒng)在真實(shí)道路剖面上成功實(shí)施。在真實(shí)汽車(chē)中訓(xùn)練的SAC模型顯示出比傳統(tǒng)工業(yè)懸架系統(tǒng)更高的性能，就像在仿真環(huán)境中一樣。

Ⅱ 問(wèn)題定義

A. 道路擾動(dòng)與整車(chē)模型

根據(jù)擾動(dòng)信號(hào)的功率，將道路擾動(dòng)分為2種類(lèi)型：以ISO8608表示的具有穩(wěn)定擾動(dòng)的非脈沖路面和脈沖路面。

1） ISO8608道路剖面圖

具有非脈沖擾動(dòng)的路面的隨機(jī)特征已被公認(rèn)為ISO8608標(biāo)準(zhǔn)。因此，基于[29]創(chuàng)建了ISO8608的道路擾動(dòng)模型。對(duì)于每一集，該算法都會(huì)創(chuàng)建一個(gè) B 級(jí)道路剖面圖。隨后，利用車(chē)輛在合理范圍內(nèi)隨機(jī)選擇的縱向速度，創(chuàng)建每個(gè)輪胎的路況的時(shí)序數(shù)據(jù)。根據(jù) [29] 中 B 類(lèi)道路的速度限制，假設(shè)縱向車(chē)速在范圍內(nèi)。劇集長(zhǎng)度選擇為20 s，采樣時(shí)間為0.01 s。用于在空間域中生成隨機(jī)道路剖面的算法如下[30]：

其中是數(shù)據(jù)點(diǎn)的數(shù)量，是空間采樣頻率，是參考空間頻率，是根據(jù) ISO8608 類(lèi)選擇的，表示隨機(jī)相位，。

2）脈沖路面

脈沖路面與ISO8608路面在系統(tǒng)需要恢復(fù)的瞬態(tài)響應(yīng)方面有所不同。最常用的減速帶是橢球體[31]，或橢球體的一部分。橢球形減速帶作為脈沖路面的典型案例進(jìn)行模擬，具體如下：

其中和分別表示減速帶的高度和寬度。車(chē)輛的縱向速度設(shè)置為（）。為了開(kāi)發(fā)一個(gè)魯棒的DRL模型，分別在（）和（）的范圍內(nèi)隨機(jī)選擇和。

3）整車(chē)模型

我們考慮[19]中的非線性整車(chē)懸架模型。由于頁(yè)數(shù)限制，本文省略了模型方程。在整篇文章中，和分別是重心的z方向位置和速度值。和分別是車(chē)身質(zhì)量中心的滾動(dòng)和俯仰。和分別是圍繞軸和軸的角速度值。和分別是彈簧質(zhì)量在位置處的方向位置和速度值。這里，表示彈簧和懸架的位置，即。和分別是簧下質(zhì)量在位置處的方向位置和速度值。最后,是道路擾動(dòng)。

然后，在MATLAB和Simulink環(huán)境中使用Simscape Multibody Toolbox對(duì)整車(chē)模型進(jìn)行建模[32]。

B. 半主動(dòng)懸架

采用Bingham模型作為半主動(dòng)懸架靜態(tài)模型[33]。Bingham 模型通常表示為。其中是懸架在位置的阻尼力，例如，，是動(dòng)態(tài)屈服力，與施加在半主動(dòng)懸架上的電流有關(guān)，是阻尼常數(shù)，其中?？紤]到 DRL 模型中的動(dòng)作通常由給出，我們讓

因此，動(dòng)作可以直接轉(zhuǎn)換為電流值，確保半主動(dòng)懸架的力滿足耗散條件。

C. 帶半主動(dòng)懸架的測(cè)試車(chē)

我們使用配備半主動(dòng)懸架和控制器局域網(wǎng) （CAN）接口的乘用車(chē)設(shè)置測(cè)試車(chē)。我們?cè)跍y(cè)試賽道上駕駛測(cè)試車(chē)，其路面符合ISO8608標(biāo)準(zhǔn)。測(cè)試電路由兩部分組成：ISO8608標(biāo)準(zhǔn)中等于A級(jí)的軟路和ISO8608標(biāo)準(zhǔn)中介于C級(jí)和D級(jí)之間的崎嶇路面。

Ⅲ 求解方案

在本節(jié)中，我們將介紹用于解決給定問(wèn)題的方法。這些方法包括 DRL 算法、用于訓(xùn)練多個(gè) SAC 模型以解決給定問(wèn)題的切換算法以及硬件實(shí)現(xiàn)。

A. RL算法

通常，標(biāo)準(zhǔn) DRL 算法旨在最大化一系列操作下的預(yù)期獎(jiǎng)勵(lì)總和。標(biāo)準(zhǔn) DRL 算法的目標(biāo)函數(shù)如下：

其中表示給定狀態(tài)下的獎(jiǎng)勵(lì)，操作。表示在給定狀態(tài)下的期望值和基于策略的操作。

為了為所提出的方法選擇合適的DRL算法，我們比較了DRL模型（即SAC、PPO和DDPG算法）在給定問(wèn)題中的訓(xùn)練效率。選擇等式（9）作為獎(jiǎng)勵(lì)函數(shù)。將第II-A節(jié)中描述的ISO8608路面和整車(chē)模型用作仿真環(huán)境。從圖1中可以看出，SAC模型的平均獎(jiǎng)勵(lì)在DRL算法中是最高的。因此，我們采用了SAC作為所提出的方法。

圖1. PPO、SAC 和 DDPG 模型的平均獎(jiǎng)勵(lì)圖。

與其他 DRL 模型相比，SAC 將策略的熵包含在其目標(biāo)函數(shù)中。SAC 的目標(biāo)函數(shù)如下：

其中表示熵項(xiàng)。溫度參數(shù)權(quán)衡獎(jiǎng)勵(lì)項(xiàng)和熵項(xiàng)之間的重要性。最大熵對(duì)象的優(yōu)點(diǎn)是智能體在訓(xùn)練時(shí)會(huì)探索更多，因?yàn)殡S著智能體采取的不同操作數(shù)量的增加，獲得的熵也會(huì)增加。利用軟貝爾曼方程[34]得到最大熵目標(biāo)的最優(yōu)解：

其中，是函數(shù)，用于描述在狀態(tài)下執(zhí)行操作后的預(yù)期獎(jiǎng)勵(lì)總和。是時(shí)間的獎(jiǎng)勵(lì)值，是折扣因子。softmax 函數(shù)定義為。

鑒于 SAC 在訓(xùn)練期間更頻繁地探索，它不太可能落入局部最優(yōu)狀態(tài)。這很重要，因?yàn)槲覀兪褂玫恼?chē)環(huán)境是隨機(jī)干擾的。在訓(xùn)練 SAC 模型時(shí)，我們使用 0.99 作為折扣因子，64 作為批量大小，3e-4作為學(xué)習(xí)率，以及一個(gè) （64， 64）網(wǎng)絡(luò)，在演員和批評(píng)者網(wǎng)絡(luò)中具有整流線性單元 [35] 激活函數(shù)。模型和超參數(shù)基于 [36] 中的開(kāi)源實(shí)現(xiàn)。

B. 切換 DRL 訓(xùn)練-實(shí)現(xiàn)算法

在本文中，我們提出了用于訓(xùn)練和利用可以處理各種領(lǐng)域的多個(gè) SAC 模型的算法。圖2描述了開(kāi)關(guān)SAC算法的基本輪廓。為了確定哪種SAC模型應(yīng)該起作用，使用了脈沖檢測(cè)器（算法1）[見(jiàn)圖2（a）]。如第II-A節(jié)所述，圖2中脈沖路和一般路的SAC模型涉及不同的域。隨后，其中一個(gè) SAC 模型產(chǎn)生的控制信號(hào)被饋送到平臺(tái)。

圖 2.脈沖檢測(cè)器對(duì)道路擾動(dòng)進(jìn)行分類(lèi)，并將信號(hào)發(fā)送到開(kāi)關(guān)（a）。和分別是 SAC 模型為脈沖道路剖面和一般道路剖面生成的控制輸入。

在II-A節(jié)中，我們描述了具有兩種不同類(lèi)型的道路剖面的道路擾動(dòng)模型，可以根據(jù)脈沖信號(hào)的大小進(jìn)行分類(lèi)。開(kāi)發(fā)了一種脈沖檢測(cè)算法，用于在實(shí)時(shí)訓(xùn)練的同時(shí)對(duì)道路剖面類(lèi)型進(jìn)行分類(lèi)。所提出的脈沖檢測(cè)算法檢測(cè)脈沖信號(hào)到達(dá)系統(tǒng)（進(jìn)入）和系統(tǒng)恢復(fù)到原始狀態(tài)（退出）的時(shí)刻。

應(yīng)用不同的移動(dòng)平均過(guò)濾器，并為進(jìn)入和退出情況設(shè)置加速度閾值。利用移動(dòng)平均濾波器和加速度閾值來(lái)調(diào)整檢測(cè)算法的靈敏度。監(jiān)測(cè)質(zhì)心左前點(diǎn)和右前點(diǎn)的加速狀態(tài)（）的平均值（）。算法1總結(jié)了脈沖檢測(cè)器的詳細(xì)算法，變量在表I中列出。

表I.脈沖檢測(cè)器中的變量

我們算法的主要思想是兩種不同的SAC模型處理兩種不同類(lèi)型的路況。SAC車(chē)型根據(jù)路況進(jìn)行切換。然而，具有非平滑瞬態(tài)響應(yīng)的開(kāi)關(guān)控制器會(huì)導(dǎo)致性能下降和機(jī)械損傷，例如疲勞累積[37]。為了提供平滑的瞬態(tài)響應(yīng)，我們采用了停留時(shí)間方法，其靈感來(lái)自[37]中提出的插值函數(shù)，如下所示：

其中，表示 SAC 模型針對(duì)一般路況（ISO8608剖面）生成的控制輸入，表示 SAC 模型對(duì)脈沖路況的控制輸入，表示車(chē)輛離開(kāi)脈沖路況所需的時(shí)間，表示用于處理開(kāi)關(guān)速度的調(diào)諧參數(shù)。例如，如果增加，則切換所需的時(shí)間會(huì)增加，反之亦然。

圖3顯示了仿真過(guò)程中的解釋性加速度響應(yīng)（）和道路擾動(dòng)。隨機(jī)生成的減速帶位于圖 3 中的第 7 秒附近。當(dāng)應(yīng)用所提出的算法時(shí)，觀察到三個(gè)不同的區(qū)域，一個(gè)是一般道路區(qū)域[見(jiàn)圖3（a）和（d）]，一個(gè)脈沖道路區(qū)域[見(jiàn)圖3（b）]，以及一個(gè)瞬態(tài)區(qū)域[見(jiàn)圖3（c）]。在一般道路區(qū)域，可以解決ISO8608道路擾動(dòng)的SAC模型被激活。但是，在脈沖路區(qū)域，用于處理脈沖響應(yīng)的 SAC 模型被激活。這是因?yàn)榧词姑}沖路面已經(jīng)完成，道路擾動(dòng)也轉(zhuǎn)移回ISO8608剖面圖，但與一般路面的響應(yīng)相比，系統(tǒng)的響應(yīng)更高[見(jiàn)圖3（a）]。因此，脈沖路面區(qū)域的 SAC 模型控制系統(tǒng)，直到脈沖檢測(cè)器發(fā)送指示系統(tǒng)已穩(wěn)定下來(lái)的信號(hào)。隨后，在瞬態(tài)區(qū)域，應(yīng)用駐留時(shí)間方法實(shí)現(xiàn)控制器之間的平滑過(guò)渡。當(dāng)脈沖信號(hào)發(fā)生時(shí)[在圖3（a）和（b）之間]，不應(yīng)用停留時(shí)間方法，因?yàn)榇藭r(shí)對(duì)脈沖信號(hào)的即時(shí)響應(yīng)很重要。

圖 3.質(zhì)心處的加速度響應(yīng)（）和其中一個(gè)測(cè)試數(shù)據(jù)集的道路剖面。黑色實(shí)線表示使用SAC的算法的加速度響應(yīng);洋紅色虛線表示道路剖面;黑色虛線表示根據(jù)道路擾動(dòng)和加速響應(yīng)的切換區(qū)域。

SH 控制器用作輔助控制器，而不是同時(shí)訓(xùn)練兩個(gè) DRL 模型。例如，在一般道路區(qū)域訓(xùn)練 DRL 模型時(shí)，選擇 SH 控制器作為脈沖道路的輔助控制器，反之亦然（見(jiàn)圖 4）。這種策略有效地使整個(gè)系統(tǒng)在訓(xùn)練期間更加穩(wěn)定，因?yàn)檩o助控制器減少了隨機(jī)初始化的 SAC 代理可能產(chǎn)生的不需要的響應(yīng)的數(shù)量。

圖 4.（a） SH控制器處理一般道路區(qū)域，SAC模型處理脈沖道路區(qū)域。（b） SH控制器處理脈沖路面區(qū)域，SAC模型處理一般區(qū)域。在瞬態(tài)區(qū)域中，生成或的 SH 控制器和 SAC 模型都使用駐留時(shí)間方法處理道路區(qū)域。

C. 硬件實(shí)現(xiàn)

為了確定第IV-A節(jié)中提出的具有獎(jiǎng)勵(lì)函數(shù)的SAC模型在現(xiàn)實(shí)世界中是否有效，我們?cè)谡鎸?shí)汽車(chē)中實(shí)現(xiàn)了SAC框架。乘用轎車(chē)中安裝了一臺(tái)帶有CAN網(wǎng)關(guān)的筆記本電腦，該轎車(chē)在每個(gè)懸架系統(tǒng)上都配備了半主動(dòng)懸架和加速度計(jì)（見(jiàn)圖5）。CAN網(wǎng)關(guān)從連接到汽車(chē)的傳感器接收加速度數(shù)據(jù)[見(jiàn)圖5（a）和（c）]。使用連接到CAN接口的工業(yè)積分器重建速度數(shù)據(jù)。SAC框架將從CAN接口數(shù)據(jù)流接收的最新數(shù)據(jù)作為觀測(cè)數(shù)據(jù)，并返回動(dòng)作信息。動(dòng)作信息通過(guò)CAN接口傳送到懸架控制器設(shè)備，該控制器設(shè)備改變了半主動(dòng)懸架的電流[見(jiàn)圖5（b）]，從而改變了阻尼力。

圖 5.硬件實(shí)現(xiàn)大綱。加速度計(jì)安裝在每個(gè)懸架系統(tǒng)的頂部和底部，如（a）和（c）所述。RL模型生成的動(dòng)作信號(hào)被轉(zhuǎn)換為當(dāng)前值，并饋送到連接到懸架系統(tǒng)的半主動(dòng)阻尼器中，如（b）所示。

Ⅳ 實(shí)驗(yàn)設(shè)置和結(jié)果

在本節(jié)中，我們將介紹在仿真環(huán)境和真實(shí)汽車(chē)中驗(yàn)證所提出的方法的仿真和實(shí)驗(yàn)。在仿真環(huán)境中，我們使用 SH 控制器分別訓(xùn)練了兩個(gè) SAC 模型，一個(gè)用于一般道路區(qū)域，另一個(gè)用于脈沖道路區(qū)域。隨后，我們使用經(jīng)過(guò)訓(xùn)練的 SAC 模型測(cè)試了一種切換算法。在一輛真實(shí)的汽車(chē)中，我們實(shí)現(xiàn)了所提出的SAC訓(xùn)練方法，并驗(yàn)證了所提出的方法。最后，我們提出了實(shí)驗(yàn)結(jié)果，并將其與MPC、SH控制器和被動(dòng)懸架系統(tǒng)的結(jié)果進(jìn)行了比較。

A. 切換 DRL 訓(xùn)練實(shí)現(xiàn)算法

如第II節(jié)所述，我們使用帶有半主動(dòng)懸架的整車(chē)模型設(shè)置仿真環(huán)境。采用脈沖檢測(cè)器來(lái)切換控制器，用于應(yīng)對(duì)仿真環(huán)境中的不同路面。SAC 模型在訓(xùn)練期間單獨(dú)訓(xùn)練。當(dāng)針對(duì)一般道路區(qū)域訓(xùn)練 SAC 模型時(shí)，SH 控制器處理脈沖道路區(qū)域，反之亦然。在訓(xùn)練階段之后，使用沒(méi)有輔助控制器的經(jīng)過(guò)訓(xùn)練的SAC模型。

圖4描述了利用SH控制器作為輔助控制器的開(kāi)關(guān)算法。在本例中，分別訓(xùn)練了一般道路的 SAC 模型和脈沖道路的 SAC 模型。當(dāng)訓(xùn)練一般道路的SAC模型時(shí)，脈沖檢測(cè)器僅在檢測(cè)到一般道路區(qū)域和瞬態(tài)道路區(qū)域時(shí)激活SAC代理[見(jiàn)圖4（a）、（c）和（d）]。當(dāng) SAC 代理停用時(shí)，SH 控制器控制懸架系統(tǒng)。同樣，當(dāng)訓(xùn)練脈沖道路的SAC模型時(shí)，脈沖檢測(cè)器僅在檢測(cè)到脈沖道路區(qū)域和瞬態(tài)道路區(qū)域時(shí)才激活SAC代理[見(jiàn)圖4（b）和（c）]。當(dāng) SAC 代理停用或檢測(cè)到瞬態(tài)區(qū)域時(shí)，SH 控制器控制懸架系統(tǒng)。圖2給出了未使用SH控制器的開(kāi)關(guān)算法。脈沖檢測(cè)器決定應(yīng)激活哪些 SAC 模型。

在訓(xùn)練SAC模型時(shí)，彈簧質(zhì)量處的速度值以及彈簧和非彈簧質(zhì)量之間的相對(duì)速度值被輸入神經(jīng)網(wǎng)絡(luò)，如下所示：

選擇這些速度值是為了為訓(xùn)練提供足夠的信息，因?yàn)閭鹘y(tǒng)的 SH 控制器使用相同的狀態(tài)。

使用不同的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練了用于一般和脈沖道路剖面的兩個(gè)SAC模型。一般道路上 SAC 模型的獎(jiǎng)勵(lì)函數(shù)由來(lái)自質(zhì)心四個(gè)角的加速度和速度信息組成。一般道路的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下：

在沖擊道路上，SAC 模型的獎(jiǎng)勵(lì)函數(shù)由質(zhì)量中心的顛簸和俯仰加速度信息組成。沖擊路的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下：

在訓(xùn)練階段，當(dāng)最近 100 集（每集由 2000 個(gè)時(shí)間步長(zhǎng)組成）的平均獎(jiǎng)勵(lì)記錄最高值時(shí)，我們保存了模型的權(quán)重。訓(xùn)練完成后，我們選擇了模型的最佳權(quán)重，該權(quán)重記錄了最佳的平均獎(jiǎng)勵(lì)。SAC模型被訓(xùn)練了多達(dá)1 000 000個(gè)時(shí)間步長(zhǎng)（500集）。

將所提出的SAC開(kāi)關(guān)算法在仿真環(huán)境下的均方根結(jié)果與、、SH和被動(dòng)懸架的均方根結(jié)果進(jìn)行了比較，如表II所示。對(duì)于基準(zhǔn)測(cè)試，我們考慮了使用在線優(yōu)化的MPC [38]，這是合適的，因?yàn)樾枰焖俨蓸訒r(shí)間（0.01 s）。所提出的算法和SH中使用了真實(shí)值狀態(tài)。的位置狀態(tài)值是從對(duì)雙重積分加速度的卡爾曼濾波中獲得的，就像在實(shí)際情況下一樣。

表Ⅱ 在仿真環(huán)境中測(cè)量的，和的 RMS 值

圖7（a）–（c）分別給出了，和的功率譜密度（PSD）圖。此外，表II總結(jié)了在沒(méi)有切換算法的情況下訓(xùn)練的SAC模型的測(cè)試結(jié)果。結(jié)果驗(yàn)證了單個(gè)SAC模型很難同時(shí)處理給定的道路擾動(dòng)曲線，例如脈沖和一般道路。

圖 6.位于現(xiàn)代起亞南陽(yáng)技術(shù)研究中心的測(cè)試電路。

圖 7.繪制了（a）（b）和（c）的 PSD 結(jié)果。

B. 硬件實(shí)現(xiàn)

我們?cè)O(shè)置了一輛帶有CAN接口的測(cè)試乘用車(chē)，如第III-C節(jié)所述。在真實(shí)汽車(chē)中進(jìn)行實(shí)驗(yàn)的主要目的是在真實(shí)道路上使用所提出的獎(jiǎng)勵(lì)函數(shù)驗(yàn)證 SAC 模型。測(cè)試車(chē)在韓國(guó)京畿道南陽(yáng)市的現(xiàn)代起亞南陽(yáng)技術(shù)研究中心駕駛測(cè)試電路（見(jiàn)圖6）進(jìn)行了測(cè)試。測(cè)試電路由兩部分組成：軟路，在ISO8608標(biāo)準(zhǔn)中可列為A，崎嶇路面，在ISO8608標(biāo)準(zhǔn)中可列在C和D之間。測(cè)試車(chē)的速度設(shè)置為大約 20 m/s。隨后，以類(lèi)似于仿真環(huán)境中的方式收集模型的權(quán)重。

將實(shí)車(chē)中經(jīng)過(guò)訓(xùn)練的SAC模型的結(jié)果與SH控制器和被動(dòng)懸架系統(tǒng)的結(jié)果進(jìn)行了比較，并在圖8和表IV中給出。

圖 8.硬件實(shí)現(xiàn)結(jié)果的 PSD 圖。

Ⅴ 討論

A. 切換 DRL 訓(xùn)練實(shí)現(xiàn)算法

獎(jiǎng)勵(lì)函數(shù)的主要目標(biāo)之一是減少z方向加速度。表 II 給出了，和的 rms 值。與、、SH和被動(dòng)懸架相比，所提算法的的均方根值顯著降低。請(qǐng)注意，在表 II 中，使用了積分位置值，這導(dǎo)致了較差的性能。此外，MPC的性能下降，因?yàn)槿绻麤](méi)有預(yù)覽傳感器（例如，相機(jī)等），基本的預(yù)測(cè)能力（用于其后退地平線控制）將不復(fù)存在。

此外，和的 rms 值也有所減少。圖7（a）–（c）中的PSD圖顯示，SAC算法抑制了低頻區(qū)域的頻率響應(yīng)。此結(jié)果表明所選的獎(jiǎng)勵(lì)函數(shù)和是合適的。如圖4所示，所提出的SAC開(kāi)關(guān)DRL算法在響應(yīng)方面優(yōu)于SH控制器和無(wú)源懸架系統(tǒng)。

相反，使用或的單個(gè) SAC 模型未能在第 II-A 節(jié)中描述的真實(shí)道路干擾上進(jìn)行訓(xùn)練。這是因?yàn)橐话愕缆泛蜎_動(dòng)道路之間的力量差異。在訓(xùn)練 SAC 模型時(shí)，使用獎(jiǎng)勵(lì)函數(shù)來(lái)衡量其性能。然而，當(dāng)一個(gè)大的脈沖撞擊動(dòng)力學(xué)時(shí)，狀態(tài)變量（例如加速度或顛簸的大?。?huì)迅速增加。因此，無(wú)論智能體在一般道路上是否表現(xiàn)良好，獎(jiǎng)勵(lì)函數(shù)的輸出都會(huì)變成更高的負(fù)數(shù)。

我們還訓(xùn)練了兩個(gè)沒(méi)有切換算法的 SAC 模型：一個(gè)用于僅在一般道路（）上訓(xùn)練的獎(jiǎng)勵(lì)函數(shù) （）的一般道路，另一個(gè)用于僅在沖動(dòng)道路上訓(xùn)練的具有獎(jiǎng)勵(lì)函數(shù) （）的脈沖道路（).采用了用于測(cè)試所提出算法的相同測(cè)試道路。表III中給出的結(jié)果表明，在沒(méi)有切換算法的情況下訓(xùn)練的SAC模型在給定的道路擾動(dòng)曲線上未能優(yōu)于其他控制器。在單一類(lèi)型的道路上訓(xùn)練的 SAC 模型成功地在訓(xùn)練的同一領(lǐng)域表現(xiàn)良好。但是，它們?cè)诨旌嫌蛏鲜×?。這是因?yàn)?SAC 預(yù)計(jì)僅在訓(xùn)練它的域或類(lèi)似域上表現(xiàn)良好。此外，這意味著使用適用于特定路況的單個(gè)獎(jiǎng)勵(lì)函數(shù)訓(xùn)練的單個(gè) SAC 模型不足以處理混合路況。

所提出的切換算法的目的是分離域。因此，可以根據(jù)SAC模型的動(dòng)作以及它們從適當(dāng)環(huán)境中接收到的響應(yīng)來(lái)訓(xùn)練SAC模型。隨后，在處理具有不同條件的多個(gè)域時(shí)，可以使用多個(gè) SAC 模型。

注1：由于我們將SAC模型的動(dòng)作映射到耗散區(qū)域，因此無(wú)論動(dòng)作如何，整個(gè)（開(kāi)關(guān)）系統(tǒng)都是穩(wěn)定的[39]，[40]。通常，使用通用DRL算法的控制系統(tǒng)的穩(wěn)定性可以通過(guò)[41]和[42]中建議的方法進(jìn)行研究。

B. 硬件實(shí)現(xiàn)

表IV中列出了質(zhì)心處方向加速度的均方根值。結(jié)果表明，SAC智能體使用所提出的獎(jiǎng)勵(lì)函數(shù)（）降低了重心的方向加速度這與乘坐舒適性高度相關(guān)。然而，與其他基準(zhǔn)控制策略相比，記錄了真實(shí)汽車(chē)中質(zhì)心滾動(dòng)的最大均方根值。這可能是因?yàn)橥饬νㄟ^(guò)連接到懸架系統(tǒng)的臂直接影響車(chē)身。懸架不太可能將這些力的影響降到最低。

圖 8 中的 PSD 表明，SAC 代理降低了低頻的功率，這表明區(qū)域低于 5 Hz，而高頻區(qū)域的功率由于水床效應(yīng)而更高。但是，的總均方根值會(huì)隨著 PSD 中的第一個(gè)峰值顯著降低而降低。該峰值包含響應(yīng)信號(hào)的大部分功率。

據(jù)我們所知，這是第一次在真實(shí)汽車(chē)中實(shí)施用于懸架控制的 DRL 模型。實(shí)車(chē)實(shí)驗(yàn)結(jié)果表明，所實(shí)現(xiàn)的SAC模型使用與仿真相同的獎(jiǎng)勵(lì)函數(shù)（），在仿真環(huán)境中的性能符合預(yù)期。這也意味著模擬中的知識(shí)實(shí)際上可以轉(zhuǎn)移到現(xiàn)實(shí)世界中。

然而，本文未驗(yàn)證脈沖路面的SAC模型和所提出的切換算法，因?yàn)檫@些方法的訓(xùn)練需要一個(gè)包括一般路面和脈沖路面的測(cè)試電路，如第II-A節(jié)所述。我們期望在未來(lái)用真實(shí)汽車(chē)訓(xùn)練脈沖路面的SAC模型，并驗(yàn)證所提出的切換算法。此外，我們還將從 SH 控制器收集非策略數(shù)據(jù)，以便進(jìn)行更有效的培訓(xùn)。真實(shí)汽車(chē)中可能存在的另一個(gè)問(wèn)題是執(zhí)行器死區(qū)[43]。在未來(lái)與真實(shí)汽車(chē)相關(guān)的研究中，我們將進(jìn)一步探索 DRL 如何控制帶有死區(qū)的執(zhí)行器。

Ⅵ 結(jié)論

在本文中，我們提出了切換算法，以在感官測(cè)量有限的真實(shí)道路上使用 SAC 模型來(lái)控制半主動(dòng)懸架系統(tǒng)。SAC模型使用不同的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練，以涵蓋兩個(gè)干擾域：一般道路（ISO8608標(biāo)準(zhǔn)）和減速帶。該概念首先在仿真中實(shí)現(xiàn)，結(jié)果表明所提出的算法能夠在現(xiàn)實(shí)駕駛場(chǎng)景下控制懸架系統(tǒng)。與先進(jìn)和傳統(tǒng)的工業(yè)基準(zhǔn)懸架控制器相比，結(jié)果表明，所提出的切換算法降低了方向加速度和車(chē)身質(zhì)量中心的俯仰。最后，我們成功地在一輛真實(shí)的汽車(chē)上實(shí)施了SAC培訓(xùn)系統(tǒng)。在硬件實(shí)驗(yàn)中，我們發(fā)現(xiàn)經(jīng)過(guò)訓(xùn)練的SAC模型在真實(shí)汽車(chē)中優(yōu)于傳統(tǒng)的工業(yè)懸架控制策略。但是，由于合作公司的日程安排有限，在實(shí)車(chē)中實(shí)施的SAC訓(xùn)練系統(tǒng)僅在一般路面上進(jìn)行訓(xùn)練，因此我們將來(lái)將訓(xùn)練具有不同路面的實(shí)車(chē)。我們?cè)诜抡鏈y(cè)試和實(shí)車(chē)測(cè)試中的結(jié)果表明，基于從仿真環(huán)境中獲得的知識(shí)，DRL可以應(yīng)用于現(xiàn)實(shí)世界。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：動(dòng)力電池揭秘|電性能全面解析
上一篇：智能網(wǎng)聯(lián)汽車(chē)“車(chē)路云一體化”應(yīng)用試點(diǎn)城市名單公布

點(diǎn)贊 1 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車(chē)輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車(chē)→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車(chē)輛避撞專(zhuān)利公布	• 全球首個(gè)！電動(dòng)汽車(chē)電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

在真實(shí)道路上使用切換軟演員-批評(píng)家模型的懸架控制策略

微信公眾號(hào)

編輯推薦

最新資訊

“汽車(chē)爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車(chē)備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車(chē)前照燈配光性能的工