日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

在真實(shí)道路上使用切換軟演員-批評(píng)家模型的懸架控制策略

2024-07-04 09:16:19·  來(lái)源:同濟(jì)智能汽車(chē)研究所  
 

編者按:本文介紹了一種創(chuàng)新方法,利用軟演員-評(píng)論家 (SAC) 算法在實(shí)際道路條件下優(yōu)化半主動(dòng)懸架系統(tǒng)的性能。面對(duì)多樣化的路面狀況,包括減速帶和普通路段,本研究提出了一種深度強(qiáng)化學(xué)習(xí)技術(shù),能適應(yīng)截然不同的獎(jiǎng)勵(lì)環(huán)境,最初在仿真環(huán)境中得到驗(yàn)證。我們開(kāi)發(fā)的切換學(xué)習(xí)系統(tǒng)能夠即時(shí)識(shí)別并區(qū)分兩種道路擾動(dòng)類(lèi)型,從而針對(duì)性地調(diào)整和應(yīng)用SAC模型。通過(guò)對(duì)比,我們的切換SAC算法在處理z-車(chē)身質(zhì)量中心定向加速度和俯仰方面超越了先進(jìn)的傳統(tǒng)懸架系統(tǒng)。實(shí)驗(yàn)結(jié)果證實(shí),經(jīng)過(guò)訓(xùn)練的SAC模型有效降低了z-方向加速度和俯仰角度,與仿真成果相符,顯著提升了乘車(chē)舒適度和車(chē)輛操控性。這一成就已在真實(shí)世界測(cè)試中得到證實(shí),即在實(shí)際道路上對(duì)一輛汽車(chē)進(jìn)行SAC訓(xùn)練,其效果超越了傳統(tǒng)控制策略,彰顯了深度強(qiáng)化學(xué)習(xí)在車(chē)輛動(dòng)態(tài)控制系統(tǒng)中的巨大潛力。

本文譯自:

《Suspension Control Strategies Using Switched Soft Actor-Critic Models for Real Roads》


文章來(lái)源:

IEEE Transactions on Industrial Electronics, vol. 70, no. 1, pp. 824-832, Jan. 2023


作者:

Hwanmoo Yong, Joohwan Seo, Jaeyoung Kim, Myounghoe Kim, and Jongeun Choi


作者單位:

HwanmooYong、Myounghoe Kim和Jongeun Choi:延世大學(xué)機(jī)械工程學(xué)院,韓國(guó)首爾;Joohwan Seo:加州大學(xué)伯克利分校機(jī)械工程系,伯克利;JaeyoungKim:現(xiàn)代汽車(chē)集團(tuán)研發(fā)部,韓國(guó)


原文鏈接:

https://ieeexplore.ieee.org/document/9724132


摘要:在本文中,我們提出了在真實(shí)道路上使用軟演員-評(píng)論家 (SAC)模型為整車(chē)中半主動(dòng)懸架系統(tǒng)的學(xué)習(xí)和控制策略,其中存在許多具有不同干擾能力的道路剖面(例如,減速帶和一般道路)。因此,提出了一種能夠使深度強(qiáng)化學(xué)習(xí)覆蓋不同領(lǐng)域的技術(shù),這些領(lǐng)域具有很大不同的獎(jiǎng)勵(lì)函數(shù)。這個(gè)概念最初是在模擬環(huán)境中實(shí)現(xiàn)的。我們提出的開(kāi)關(guān)學(xué)習(xí)系統(tǒng)可以實(shí)時(shí)連續(xù)識(shí)別兩種不同的道路擾動(dòng)曲線,以便可以相應(yīng)地學(xué)習(xí)和應(yīng)用適當(dāng)設(shè)計(jì)的SAC模型。將所提出的開(kāi)關(guān)SAC算法的結(jié)果與先進(jìn)和傳統(tǒng)的基準(zhǔn)懸架系統(tǒng)的結(jié)果進(jìn)行了比較?;诮Y(jié)果,所提算法顯示z-車(chē)身質(zhì)量中心的定向加速度和俯仰。最后,我們還展示了我們?cè)谡鎸?shí)道路上的真實(shí)汽車(chē)中成功實(shí)施的SAC培訓(xùn)系統(tǒng)。經(jīng)過(guò)訓(xùn)練的 SAC 模型優(yōu)于傳統(tǒng)控制器,可降低z-定向加速度和俯仰,與仿真結(jié)果相似,與乘坐舒適性和車(chē)輛機(jī)動(dòng)性高度相關(guān)。


關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí),整車(chē)懸架系統(tǒng),半主動(dòng)懸架,軟演員-評(píng)論家


Ⅰ 引言


車(chē)輛懸架系統(tǒng)在確保穩(wěn)定性、駕駛安全性和乘坐舒適性方面發(fā)揮著重要作用。然而,傳統(tǒng)的被動(dòng)懸架通常不能滿足這些性能要求。由于參數(shù)是固定的,因此無(wú)法更改被動(dòng)懸架系統(tǒng)的動(dòng)態(tài),這限制了性能預(yù)期。被動(dòng)懸架系統(tǒng)的上述缺點(diǎn)可以通過(guò)采用具有可調(diào)動(dòng)態(tài)參數(shù)的受控懸架來(lái)克服[1-2]。主動(dòng)懸架能夠增加和耗散能量,用于各種商用車(chē),以提高乘坐舒適性和穩(wěn)定性 [3-5]。然而,在車(chē)身和輪胎之間配備了額外的執(zhí)行器,例如液壓執(zhí)行器,導(dǎo)致制造成本增加。與其他類(lèi)型的受控懸架相比,半主動(dòng)懸架具有許多優(yōu)勢(shì),因此最近引起了人們的極大關(guān)注。半主動(dòng)懸架的主要優(yōu)點(diǎn)之一是它們?cè)诋a(chǎn)品成本和性能之間進(jìn)行了權(quán)衡[6],[7]。


受控懸架研究的主要重點(diǎn)是開(kāi)發(fā)控制策略和算法,以充分利用半主動(dòng)懸架系統(tǒng)。利用半主動(dòng)懸掛系統(tǒng)的最流行的控制算法是天鉤(SH)框架[8-10]。汽車(chē)工業(yè)中的SH控制在隔振方面以較低的成本提供公平的車(chē)輛性能,即乘坐舒適性,并且易于應(yīng)用。在基本SH控制[11]的基礎(chǔ)上,通過(guò)添加最優(yōu)性和適應(yīng)性[12]等變體,提出了SH控制策略的許多變體。


模型預(yù)測(cè)控制(MPC)是另一種先進(jìn)的控制方案,用于控制整車(chē)的半主動(dòng)懸架系統(tǒng)[13]。使用MPC和額外傳感器(例如攝像頭和激光位置傳感器)的預(yù)覽控制系統(tǒng)可顯著提高乘坐舒適性[14-15]。然而,MPC需要從額外的傳感器獲得完整的狀態(tài)信息,這在實(shí)踐中成本很高[16-17]。在感官測(cè)量有限的情況下,可以使用帶有積分器的卡爾曼濾波來(lái)重建完整狀態(tài),盡管這可能會(huì)導(dǎo)致?tīng)顟B(tài)估計(jì)不佳[18-19]。


半主動(dòng)懸架系統(tǒng)表現(xiàn)出高度非線性特性,例如滯后,這些特性難以建模。這種非線性會(huì)嚴(yán)重降低不考慮它們的控制設(shè)計(jì)的性能?;谏窠?jīng)網(wǎng)絡(luò)的控制方法在處理非線性問(wèn)題時(shí)具有優(yōu)勢(shì)[20],當(dāng)訓(xùn)練有充分的先驗(yàn)信息時(shí)。在[21]中,提出了一種基于動(dòng)力學(xué)的安全深度強(qiáng)化學(xué)習(xí)(DRL)算法。DRL算法研究的最新進(jìn)展,如信任區(qū)域策略優(yōu)化[22]、近端策略優(yōu)化(PPO)[23]和軟參與者-批評(píng)者(SAC)[24],已經(jīng)導(dǎo)致DRL在許多其他控制應(yīng)用中的應(yīng)用[25-26]。特別是,SAC采用了最大熵公式,大大提高了探索性和魯棒性[27]。


然而,在實(shí)際的道路情況下,有許多道路剖面具有各種干擾力。一般道路會(huì)以持續(xù)的干擾擾亂系統(tǒng),減速帶可以被視為對(duì)系統(tǒng)的脈沖。[1]采用深度確定性策略梯度(DDPG)算法控制單一類(lèi)型道路擾動(dòng)下四分之一車(chē)的半主動(dòng)懸架系統(tǒng)。但是,經(jīng)過(guò)訓(xùn)練的 DRL 模型在遇到減速帶時(shí)預(yù)計(jì)不會(huì)充分表現(xiàn)。這是由于 DRL 模型缺乏對(duì)此類(lèi)脈沖信號(hào)的訓(xùn)練。在這種情況下,將 DRL 應(yīng)用于具有實(shí)際道路擾動(dòng)的懸架系統(tǒng)可能很困難。Doya 等人。[28] 使用強(qiáng)化學(xué)習(xí) (RL) 將復(fù)雜任務(wù)分解為多個(gè)域,以解決網(wǎng)格世界問(wèn)題和非線性非平穩(wěn)控制任務(wù)。


本文的貢獻(xiàn)如下。


1)為了解決上述問(wèn)題,我們提出了用于訓(xùn)練和利用SAC模型的切換算法,這些模型在現(xiàn)實(shí)駕駛場(chǎng)景中控制整車(chē)的半主動(dòng)懸架。


2)所提出的脈沖檢測(cè)器可以實(shí)時(shí)識(shí)別擾動(dòng)域,以選擇相應(yīng)的SAC模型。這樣就可以將正確的 SAC 模型應(yīng)用于系統(tǒng)。


3)基準(zhǔn)仿真研究表明,我們的方法在方向加速度、滾動(dòng)和俯仰的均方根(rms)值方面與先進(jìn)和傳統(tǒng)控制器(例如MPC、SH和被動(dòng)懸架)相比是有效的。


4)SAC培訓(xùn)系統(tǒng)在真實(shí)道路剖面上成功實(shí)施。在真實(shí)汽車(chē)中訓(xùn)練的SAC模型顯示出比傳統(tǒng)工業(yè)懸架系統(tǒng)更高的性能,就像在仿真環(huán)境中一樣。


Ⅱ 問(wèn)題定義


A. 道路擾動(dòng)與整車(chē)模型


根據(jù)擾動(dòng)信號(hào)的功率,將道路擾動(dòng)分為2種類(lèi)型:以ISO8608表示的具有穩(wěn)定擾動(dòng)的非脈沖路面和脈沖路面。


1) ISO8608道路剖面圖


具有非脈沖擾動(dòng)的路面的隨機(jī)特征已被公認(rèn)為ISO8608標(biāo)準(zhǔn)。因此,基于[29]創(chuàng)建了ISO8608的道路擾動(dòng)模型。對(duì)于每一集,該算法都會(huì)創(chuàng)建一個(gè) B 級(jí)道路剖面圖。隨后,利用車(chē)輛在合理范圍內(nèi)隨機(jī)選擇的縱向速度,創(chuàng)建每個(gè)輪胎的路況的時(shí)序數(shù)據(jù)。根據(jù) [29] 中 B 類(lèi)道路的速度限制,假設(shè)縱向車(chē)速在  范圍內(nèi)。劇集長(zhǎng)度選擇為20 s,采樣時(shí)間為0.01 s。用于在空間域中生成隨機(jī)道路剖面的算法如下[30]:


圖片


其中 是數(shù)據(jù)點(diǎn)的數(shù)量,是空間采樣頻率,是參考空間頻率,是根據(jù) ISO8608 類(lèi)選擇的,表示隨機(jī)相位,。


2) 脈沖路面


脈沖路面與ISO8608路面在系統(tǒng)需要恢復(fù)的瞬態(tài)響應(yīng)方面有所不同。最常用的減速帶是橢球體[31],或橢球體的一部分。橢球形減速帶作為脈沖路面的典型案例進(jìn)行模擬,具體如下:


圖片


其中和分別表示減速帶的高度和寬度。車(chē)輛的縱向速度設(shè)置為()。為了開(kāi)發(fā)一個(gè)魯棒的DRL模型,分別在()和()的范圍內(nèi)隨機(jī)選擇和。


3)整車(chē)模型


我們考慮[19]中的非線性整車(chē)懸架模型。由于頁(yè)數(shù)限制,本文省略了模型方程。在整篇文章中, 和分別是重心的z方向位置和速度值。和分別是車(chē)身質(zhì)量中心的滾動(dòng)和俯仰。和分別是圍繞軸和軸的角速度值。 和分別是彈簧質(zhì)量在位置處的方向位置和速度值。這里,表示彈簧和懸架的位置,即。和分別是簧下質(zhì)量在位置處的方向位置和速度值。最后,是道路擾動(dòng)。


然后,在MATLAB和Simulink環(huán)境中使用Simscape Multibody Toolbox對(duì)整車(chē)模型進(jìn)行建模[32]。


B. 半主動(dòng)懸架


采用Bingham模型作為半主動(dòng)懸架靜態(tài)模型[33]。Bingham 模型通常表示為。其中是懸架在位置的阻尼力,例如,,是動(dòng)態(tài)屈服力,與施加在半主動(dòng)懸架上的電流有關(guān),是阻尼常數(shù),其中??紤]到 DRL 模型中的動(dòng)作通常由 給出,我們讓


圖片


因此,動(dòng)作可以直接轉(zhuǎn)換為電流值,確保半主動(dòng)懸架的力滿足耗散條件。


C. 帶半主動(dòng)懸架的測(cè)試車(chē)


我們使用配備半主動(dòng)懸架和控制器局域網(wǎng) (CAN) 接口的乘用車(chē)設(shè)置測(cè)試車(chē)。我們?cè)跍y(cè)試賽道上駕駛測(cè)試車(chē),其路面符合ISO8608標(biāo)準(zhǔn)。測(cè)試電路由兩部分組成:ISO8608標(biāo)準(zhǔn)中等于A級(jí)的軟路和ISO8608標(biāo)準(zhǔn)中介于C級(jí)和D級(jí)之間的崎嶇路面。


Ⅲ 求解方案


在本節(jié)中,我們將介紹用于解決給定問(wèn)題的方法。這些方法包括 DRL 算法、用于訓(xùn)練多個(gè) SAC 模型以解決給定問(wèn)題的切換算法以及硬件實(shí)現(xiàn)。


A. RL算法


通常,標(biāo)準(zhǔn) DRL 算法旨在最大化一系列操作下的預(yù)期獎(jiǎng)勵(lì)總和。標(biāo)準(zhǔn) DRL 算法的目標(biāo)函數(shù)如下:


圖片


其中表示給定狀態(tài)下的獎(jiǎng)勵(lì),操作。表示在給定狀態(tài)下的期望值和基于策略的操作。


為了為所提出的方法選擇合適的DRL算法,我們比較了DRL模型(即SAC、PPO和DDPG算法)在給定問(wèn)題中的訓(xùn)練效率。選擇等式(9)作為獎(jiǎng)勵(lì)函數(shù)。將第II-A節(jié)中描述的ISO8608路面和整車(chē)模型用作仿真環(huán)境。從圖1中可以看出,SAC模型的平均獎(jiǎng)勵(lì)在DRL算法中是最高的。因此,我們采用了SAC作為所提出的方法。


圖片

圖1. PPO、SAC 和 DDPG 模型的平均獎(jiǎng)勵(lì)圖。


與其他 DRL 模型相比,SAC 將策略的熵包含在其目標(biāo)函數(shù)中。SAC 的目標(biāo)函數(shù)如下:


圖片


其中表示熵項(xiàng)。溫度參數(shù)權(quán)衡獎(jiǎng)勵(lì)項(xiàng)和熵項(xiàng)之間的重要性。最大熵對(duì)象的優(yōu)點(diǎn)是智能體在訓(xùn)練時(shí)會(huì)探索更多,因?yàn)殡S著智能體采取的不同操作數(shù)量的增加,獲得的熵也會(huì)增加。利用軟貝爾曼方程[34]得到最大熵目標(biāo)的最優(yōu)解:


圖片


其中,是  函數(shù),用于描述在狀態(tài)下執(zhí)行操作后的預(yù)期獎(jiǎng)勵(lì)總和。是時(shí)間的獎(jiǎng)勵(lì)值,是折扣因子。softmax 函數(shù)定義為。


鑒于 SAC 在訓(xùn)練期間更頻繁地探索,它不太可能落入局部最優(yōu)狀態(tài)。這很重要,因?yàn)槲覀兪褂玫恼?chē)環(huán)境是隨機(jī)干擾的。在訓(xùn)練 SAC 模型時(shí),我們使用 0.99 作為折扣因子,64 作為批量大小,3e-4作為學(xué)習(xí)率,以及一個(gè) (64, 64) 網(wǎng)絡(luò),在演員和批評(píng)者網(wǎng)絡(luò)中具有整流線性單元 [35] 激活函數(shù)。模型和超參數(shù)基于 [36] 中的開(kāi)源實(shí)現(xiàn)。


B. 切換 DRL 訓(xùn)練-實(shí)現(xiàn)算法


在本文中,我們提出了用于訓(xùn)練和利用可以處理各種領(lǐng)域的多個(gè) SAC 模型的算法。圖2描述了開(kāi)關(guān)SAC算法的基本輪廓。為了確定哪種SAC模型應(yīng)該起作用,使用了脈沖檢測(cè)器(算法1)[見(jiàn)圖2(a)]。如第II-A節(jié)所述,圖2中脈沖路和一般路的SAC模型涉及不同的域。隨后,其中一個(gè) SAC 模型產(chǎn)生的控制信號(hào)被饋送到平臺(tái)。


圖片


圖 2.脈沖檢測(cè)器對(duì)道路擾動(dòng)進(jìn)行分類(lèi),并將信號(hào)發(fā)送到開(kāi)關(guān)(a)。和分別是 SAC 模型為脈沖道路剖面和一般道路剖面生成的控制輸入。


在II-A節(jié)中,我們描述了具有兩種不同類(lèi)型的道路剖面的道路擾動(dòng)模型,可以根據(jù)脈沖信號(hào)的大小進(jìn)行分類(lèi)。開(kāi)發(fā)了一種脈沖檢測(cè)算法,用于在實(shí)時(shí)訓(xùn)練的同時(shí)對(duì)道路剖面類(lèi)型進(jìn)行分類(lèi)。所提出的脈沖檢測(cè)算法檢測(cè)脈沖信號(hào)到達(dá)系統(tǒng)(進(jìn)入)和系統(tǒng)恢復(fù)到原始狀態(tài)(退出)的時(shí)刻。


應(yīng)用不同的移動(dòng)平均過(guò)濾器,并為進(jìn)入和退出情況設(shè)置加速度閾值。利用移動(dòng)平均濾波器和加速度閾值來(lái)調(diào)整檢測(cè)算法的靈敏度。監(jiān)測(cè)質(zhì)心左前點(diǎn)和右前點(diǎn)的加速狀態(tài)()的平均值()。算法1總結(jié)了脈沖檢測(cè)器的詳細(xì)算法,變量在表I中列出。


表I.脈沖檢測(cè)器中的變量


圖片



我們算法的主要思想是兩種不同的SAC模型處理兩種不同類(lèi)型的路況。SAC車(chē)型根據(jù)路況進(jìn)行切換。然而,具有非平滑瞬態(tài)響應(yīng)的開(kāi)關(guān)控制器會(huì)導(dǎo)致性能下降和機(jī)械損傷,例如疲勞累積[37]。為了提供平滑的瞬態(tài)響應(yīng),我們采用了停留時(shí)間方法,其靈感來(lái)自[37]中提出的插值函數(shù),如下所示:


圖片


其中,表示 SAC 模型針對(duì)一般路況(ISO8608剖面)生成的控制輸入,表示 SAC 模型對(duì)脈沖路況的控制輸入,表示車(chē)輛離開(kāi)脈沖路況所需的時(shí)間,表示用于處理開(kāi)關(guān)速度的調(diào)諧參數(shù)。例如,如果增加,則切換所需的時(shí)間會(huì)增加,反之亦然。


圖3顯示了仿真過(guò)程中的解釋性加速度響應(yīng)()和道路擾動(dòng)。隨機(jī)生成的減速帶位于圖 3 中的第 7 秒附近。當(dāng)應(yīng)用所提出的算法時(shí),觀察到三個(gè)不同的區(qū)域,一個(gè)是一般道路區(qū)域[見(jiàn)圖3(a)和(d)],一個(gè)脈沖道路區(qū)域[見(jiàn)圖3(b)],以及一個(gè)瞬態(tài)區(qū)域[見(jiàn)圖3(c)]。在一般道路區(qū)域,可以解決ISO8608道路擾動(dòng)的SAC模型被激活。但是,在脈沖路區(qū)域,用于處理脈沖響應(yīng)的 SAC 模型被激活。這是因?yàn)榧词姑}沖路面已經(jīng)完成,道路擾動(dòng)也轉(zhuǎn)移回ISO8608剖面圖,但與一般路面的響應(yīng)相比,系統(tǒng)的響應(yīng)更高[見(jiàn)圖3(a)]。因此,脈沖路面區(qū)域的 SAC 模型控制系統(tǒng),直到脈沖檢測(cè)器發(fā)送指示系統(tǒng)已穩(wěn)定下來(lái)的信號(hào)。隨后,在瞬態(tài)區(qū)域,應(yīng)用駐留時(shí)間方法實(shí)現(xiàn)控制器之間的平滑過(guò)渡。當(dāng)脈沖信號(hào)發(fā)生時(shí)[在圖3(a)和(b)之間],不應(yīng)用停留時(shí)間方法,因?yàn)榇藭r(shí)對(duì)脈沖信號(hào)的即時(shí)響應(yīng)很重要。


圖 3.質(zhì)心處的加速度響應(yīng)()和其中一個(gè)測(cè)試數(shù)據(jù)集的道路剖面。黑色實(shí)線表示使用SAC的算法的加速度響應(yīng);洋紅色虛線表示道路剖面;黑色虛線表示根據(jù)道路擾動(dòng)和加速響應(yīng)的切換區(qū)域。


SH 控制器用作輔助控制器,而不是同時(shí)訓(xùn)練兩個(gè) DRL 模型。例如,在一般道路區(qū)域訓(xùn)練 DRL 模型時(shí),選擇 SH 控制器作為脈沖道路的輔助控制器,反之亦然(見(jiàn)圖 4)。這種策略有效地使整個(gè)系統(tǒng)在訓(xùn)練期間更加穩(wěn)定,因?yàn)檩o助控制器減少了隨機(jī)初始化的 SAC 代理可能產(chǎn)生的不需要的響應(yīng)的數(shù)量。


圖片

圖 4.(a) SH控制器處理一般道路區(qū)域,SAC模型處理脈沖道路區(qū)域。(b) SH控制器處理脈沖路面區(qū)域,SAC模型處理一般區(qū)域。在瞬態(tài)區(qū)域中,生成或的 SH 控制器和 SAC 模型都使用駐留時(shí)間方法處理道路區(qū)域。


C. 硬件實(shí)現(xiàn)


為了確定第IV-A節(jié)中提出的具有獎(jiǎng)勵(lì)函數(shù)的SAC模型在現(xiàn)實(shí)世界中是否有效,我們?cè)谡鎸?shí)汽車(chē)中實(shí)現(xiàn)了SAC框架。乘用轎車(chē)中安裝了一臺(tái)帶有CAN網(wǎng)關(guān)的筆記本電腦,該轎車(chē)在每個(gè)懸架系統(tǒng)上都配備了半主動(dòng)懸架和加速度計(jì)(見(jiàn)圖5)。CAN網(wǎng)關(guān)從連接到汽車(chē)的傳感器接收加速度數(shù)據(jù)[見(jiàn)圖5(a)和(c)]。使用連接到CAN接口的工業(yè)積分器重建速度數(shù)據(jù)。SAC框架將從CAN接口數(shù)據(jù)流接收的最新數(shù)據(jù)作為觀測(cè)數(shù)據(jù),并返回動(dòng)作信息。動(dòng)作信息通過(guò)CAN接口傳送到懸架控制器設(shè)備,該控制器設(shè)備改變了半主動(dòng)懸架的電流[見(jiàn)圖5(b)],從而改變了阻尼力。


圖片

圖 5.硬件實(shí)現(xiàn)大綱。加速度計(jì)安裝在每個(gè)懸架系統(tǒng)的頂部和底部,如(a)和(c)所述。RL模型生成的動(dòng)作信號(hào)被轉(zhuǎn)換為當(dāng)前值,并饋送到連接到懸架系統(tǒng)的半主動(dòng)阻尼器中,如(b)所示。


Ⅳ 實(shí)驗(yàn)設(shè)置和結(jié)果


在本節(jié)中,我們將介紹在仿真環(huán)境和真實(shí)汽車(chē)中驗(yàn)證所提出的方法的仿真和實(shí)驗(yàn)。在仿真環(huán)境中,我們使用 SH 控制器分別訓(xùn)練了兩個(gè) SAC 模型,一個(gè)用于一般道路區(qū)域,另一個(gè)用于脈沖道路區(qū)域。隨后,我們使用經(jīng)過(guò)訓(xùn)練的 SAC 模型測(cè)試了一種切換算法。在一輛真實(shí)的汽車(chē)中,我們實(shí)現(xiàn)了所提出的SAC訓(xùn)練方法,并驗(yàn)證了所提出的方法。最后,我們提出了實(shí)驗(yàn)結(jié)果,并將其與MPC、SH控制器和被動(dòng)懸架系統(tǒng)的結(jié)果進(jìn)行了比較。


A. 切換 DRL 訓(xùn)練實(shí)現(xiàn)算法


如第II節(jié)所述,我們使用帶有半主動(dòng)懸架的整車(chē)模型設(shè)置仿真環(huán)境。采用脈沖檢測(cè)器來(lái)切換控制器,用于應(yīng)對(duì)仿真環(huán)境中的不同路面。SAC 模型在訓(xùn)練期間單獨(dú)訓(xùn)練。當(dāng)針對(duì)一般道路區(qū)域訓(xùn)練 SAC 模型時(shí),SH 控制器處理脈沖道路區(qū)域,反之亦然。在訓(xùn)練階段之后,使用沒(méi)有輔助控制器的經(jīng)過(guò)訓(xùn)練的SAC模型。


圖4描述了利用SH控制器作為輔助控制器的開(kāi)關(guān)算法。在本例中,分別訓(xùn)練了一般道路的 SAC 模型和脈沖道路的 SAC 模型。當(dāng)訓(xùn)練一般道路的SAC模型時(shí),脈沖檢測(cè)器僅在檢測(cè)到一般道路區(qū)域和瞬態(tài)道路區(qū)域時(shí)激活SAC代理[見(jiàn)圖4(a)、(c)和(d)]。當(dāng) SAC 代理停用時(shí),SH 控制器控制懸架系統(tǒng)。同樣,當(dāng)訓(xùn)練脈沖道路的SAC模型時(shí),脈沖檢測(cè)器僅在檢測(cè)到脈沖道路區(qū)域和瞬態(tài)道路區(qū)域時(shí)才激活SAC代理[見(jiàn)圖4(b)和(c)]。當(dāng) SAC 代理停用或檢測(cè)到瞬態(tài)區(qū)域時(shí),SH 控制器控制懸架系統(tǒng)。圖2給出了未使用SH控制器的開(kāi)關(guān)算法。脈沖檢測(cè)器決定應(yīng)激活哪些 SAC 模型。


在訓(xùn)練SAC模型時(shí),彈簧質(zhì)量處的速度值以及彈簧和非彈簧質(zhì)量之間的相對(duì)速度值被輸入神經(jīng)網(wǎng)絡(luò),如下所示:


圖片


選擇這些速度值是為了為訓(xùn)練提供足夠的信息,因?yàn)閭鹘y(tǒng)的 SH 控制器使用相同的狀態(tài)。


使用不同的獎(jiǎng)勵(lì)函數(shù)訓(xùn)練了用于一般和脈沖道路剖面的兩個(gè)SAC模型。一般道路上 SAC 模型的獎(jiǎng)勵(lì)函數(shù)由來(lái)自質(zhì)心四個(gè)角的加速度和速度信息組成。一般道路的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:


圖片


在沖擊道路上,SAC 模型的獎(jiǎng)勵(lì)函數(shù)由質(zhì)量中心的顛簸和俯仰加速度信息組成。沖擊路的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:


圖片


在訓(xùn)練階段,當(dāng)最近 100 集(每集由 2000 個(gè)時(shí)間步長(zhǎng)組成)的平均獎(jiǎng)勵(lì)記錄最高值時(shí),我們保存了模型的權(quán)重。訓(xùn)練完成后,我們選擇了模型的最佳權(quán)重,該權(quán)重記錄了最佳的平均獎(jiǎng)勵(lì)。SAC模型被訓(xùn)練了多達(dá)1 000 000個(gè)時(shí)間步長(zhǎng)(500集)。


將所提出的SAC開(kāi)關(guān)算法在仿真環(huán)境下的均方根結(jié)果與、、SH和被動(dòng)懸架的均方根結(jié)果進(jìn)行了比較,如表II所示。對(duì)于基準(zhǔn)測(cè)試,我們考慮了使用在線優(yōu)化的MPC [38],這是合適的,因?yàn)樾枰焖俨蓸訒r(shí)間(0.01 s)。所提出的算法和SH中使用了真實(shí)值狀態(tài)。的位置狀態(tài)值是從對(duì)雙重積分加速度的卡爾曼濾波中獲得的,就像在實(shí)際情況下一樣。


表Ⅱ 在仿真環(huán)境中測(cè)量的,和的 RMS 值


圖片


圖7(a)–(c)分別給出了,和的功率譜密度(PSD)圖。此外,表II總結(jié)了在沒(méi)有切換算法的情況下訓(xùn)練的SAC模型的測(cè)試結(jié)果。結(jié)果驗(yàn)證了單個(gè)SAC模型很難同時(shí)處理給定的道路擾動(dòng)曲線,例如脈沖和一般道路。


圖片

圖 6.位于現(xiàn)代起亞南陽(yáng)技術(shù)研究中心的測(cè)試電路。


圖片


圖 7.繪制了 (a) (b)和 (c)的 PSD 結(jié)果。


B. 硬件實(shí)現(xiàn)


我們?cè)O(shè)置了一輛帶有CAN接口的測(cè)試乘用車(chē),如第III-C節(jié)所述。在真實(shí)汽車(chē)中進(jìn)行實(shí)驗(yàn)的主要目的是在真實(shí)道路上使用所提出的獎(jiǎng)勵(lì)函數(shù)驗(yàn)證 SAC 模型。測(cè)試車(chē)在韓國(guó)京畿道南陽(yáng)市的現(xiàn)代起亞南陽(yáng)技術(shù)研究中心駕駛測(cè)試電路(見(jiàn)圖6)進(jìn)行了測(cè)試。測(cè)試電路由兩部分組成:軟路,在ISO8608標(biāo)準(zhǔn)中可列為A,崎嶇路面,在ISO8608標(biāo)準(zhǔn)中可列在C和D之間。測(cè)試車(chē)的速度設(shè)置為大約 20 m/s。隨后,以類(lèi)似于仿真環(huán)境中的方式收集模型的權(quán)重。


將實(shí)車(chē)中經(jīng)過(guò)訓(xùn)練的SAC模型的結(jié)果與SH控制器和被動(dòng)懸架系統(tǒng)的結(jié)果進(jìn)行了比較,并在圖8和表IV中給出。




圖片

圖 8.硬件實(shí)現(xiàn)結(jié)果的 PSD 圖。


Ⅴ 討論


A. 切換 DRL 訓(xùn)練實(shí)現(xiàn)算法


獎(jiǎng)勵(lì)函數(shù)的主要目標(biāo)之一是減少z方向加速度。表 II 給出了,和的 rms 值。與、、SH和被動(dòng)懸架相比,所提算法的的均方根值顯著降低。請(qǐng)注意,在表 II 中,使用了積分位置值,這導(dǎo)致了較差的性能。此外,MPC的性能下降,因?yàn)槿绻麤](méi)有預(yù)覽傳感器(例如,相機(jī)等),基本的預(yù)測(cè)能力(用于其后退地平線控制)將不復(fù)存在。


此外,和的 rms 值也有所減少。圖7(a)–(c)中的PSD圖顯示,SAC算法抑制了低頻區(qū)域的頻率響應(yīng)。此結(jié)果表明所選的獎(jiǎng)勵(lì)函數(shù)和 是合適的。如圖4所示,所提出的SAC開(kāi)關(guān)DRL算法在響應(yīng)方面優(yōu)于SH控制器和無(wú)源懸架系統(tǒng)。


相反,使用或的單個(gè) SAC 模型未能在第 II-A 節(jié)中描述的真實(shí)道路干擾上進(jìn)行訓(xùn)練。這是因?yàn)橐话愕缆泛蜎_動(dòng)道路之間的力量差異。在訓(xùn)練 SAC 模型時(shí),使用獎(jiǎng)勵(lì)函數(shù)來(lái)衡量其性能。然而,當(dāng)一個(gè)大的脈沖撞擊動(dòng)力學(xué)時(shí),狀態(tài)變量(例如加速度或顛簸的大?。?huì)迅速增加。因此,無(wú)論智能體在一般道路上是否表現(xiàn)良好,獎(jiǎng)勵(lì)函數(shù)的輸出都會(huì)變成更高的負(fù)數(shù)。


我們還訓(xùn)練了兩個(gè)沒(méi)有切換算法的 SAC 模型:一個(gè)用于僅在一般道路 () 上訓(xùn)練的獎(jiǎng)勵(lì)函數(shù) () 的一般道路,另一個(gè)用于僅在沖動(dòng)道路上訓(xùn)練的具有獎(jiǎng)勵(lì)函數(shù) () 的脈沖道路 ().采用了用于測(cè)試所提出算法的相同測(cè)試道路。表III中給出的結(jié)果表明,在沒(méi)有切換算法的情況下訓(xùn)練的SAC模型在給定的道路擾動(dòng)曲線上未能優(yōu)于其他控制器。在單一類(lèi)型的道路上訓(xùn)練的 SAC 模型成功地在訓(xùn)練的同一領(lǐng)域表現(xiàn)良好。但是,它們?cè)诨旌嫌蛏鲜×?。這是因?yàn)?SAC 預(yù)計(jì)僅在訓(xùn)練它的域或類(lèi)似域上表現(xiàn)良好。此外,這意味著使用適用于特定路況的單個(gè)獎(jiǎng)勵(lì)函數(shù)訓(xùn)練的單個(gè) SAC 模型不足以處理混合路況。


所提出的切換算法的目的是分離域。因此,可以根據(jù)SAC模型的動(dòng)作以及它們從適當(dāng)環(huán)境中接收到的響應(yīng)來(lái)訓(xùn)練SAC模型。隨后,在處理具有不同條件的多個(gè)域時(shí),可以使用多個(gè) SAC 模型。


注1:由于我們將SAC模型的動(dòng)作映射到耗散區(qū)域,因此無(wú)論動(dòng)作如何,整個(gè)(開(kāi)關(guān))系統(tǒng)都是穩(wěn)定的[39],[40]。通常,使用通用DRL算法的控制系統(tǒng)的穩(wěn)定性可以通過(guò)[41]和[42]中建議的方法進(jìn)行研究。


B. 硬件實(shí)現(xiàn)


表IV中列出了質(zhì)心處方向加速度的均方根值。結(jié)果表明,SAC智能體使用所提出的獎(jiǎng)勵(lì)函數(shù)()降低了重心的方向加速度這與乘坐舒適性高度相關(guān)。然而,與其他基準(zhǔn)控制策略相比,記錄了真實(shí)汽車(chē)中質(zhì)心滾動(dòng)的最大均方根值。這可能是因?yàn)橥饬νㄟ^(guò)連接到懸架系統(tǒng)的臂直接影響車(chē)身。懸架不太可能將這些力的影響降到最低。


圖 8 中的 PSD 表明,SAC 代理降低了低頻的功率,這表明區(qū)域低于 5 Hz,而高頻區(qū)域的功率由于水床效應(yīng)而更高。但是,的總均方根值會(huì)隨著 PSD 中的第一個(gè)峰值顯著降低而降低。該峰值包含響應(yīng)信號(hào)的大部分功率。


據(jù)我們所知,這是第一次在真實(shí)汽車(chē)中實(shí)施用于懸架控制的 DRL 模型。實(shí)車(chē)實(shí)驗(yàn)結(jié)果表明,所實(shí)現(xiàn)的SAC模型使用與仿真相同的獎(jiǎng)勵(lì)函數(shù)(),在仿真環(huán)境中的性能符合預(yù)期。這也意味著模擬中的知識(shí)實(shí)際上可以轉(zhuǎn)移到現(xiàn)實(shí)世界中。


然而,本文未驗(yàn)證脈沖路面的SAC模型和所提出的切換算法,因?yàn)檫@些方法的訓(xùn)練需要一個(gè)包括一般路面和脈沖路面的測(cè)試電路,如第II-A節(jié)所述。我們期望在未來(lái)用真實(shí)汽車(chē)訓(xùn)練脈沖路面的SAC模型,并驗(yàn)證所提出的切換算法。此外,我們還將從 SH 控制器收集非策略數(shù)據(jù),以便進(jìn)行更有效的培訓(xùn)。真實(shí)汽車(chē)中可能存在的另一個(gè)問(wèn)題是執(zhí)行器死區(qū)[43]。在未來(lái)與真實(shí)汽車(chē)相關(guān)的研究中,我們將進(jìn)一步探索 DRL 如何控制帶有死區(qū)的執(zhí)行器。


Ⅵ 結(jié)論


在本文中,我們提出了切換算法,以在感官測(cè)量有限的真實(shí)道路上使用 SAC 模型來(lái)控制半主動(dòng)懸架系統(tǒng)。SAC模型使用不同的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,以涵蓋兩個(gè)干擾域:一般道路(ISO8608標(biāo)準(zhǔn))和減速帶。該概念首先在仿真中實(shí)現(xiàn),結(jié)果表明所提出的算法能夠在現(xiàn)實(shí)駕駛場(chǎng)景下控制懸架系統(tǒng)。與先進(jìn)和傳統(tǒng)的工業(yè)基準(zhǔn)懸架控制器相比,結(jié)果表明,所提出的切換算法降低了方向加速度和車(chē)身質(zhì)量中心的俯仰。最后,我們成功地在一輛真實(shí)的汽車(chē)上實(shí)施了SAC培訓(xùn)系統(tǒng)。在硬件實(shí)驗(yàn)中,我們發(fā)現(xiàn)經(jīng)過(guò)訓(xùn)練的SAC模型在真實(shí)汽車(chē)中優(yōu)于傳統(tǒng)的工業(yè)懸架控制策略。但是,由于合作公司的日程安排有限,在實(shí)車(chē)中實(shí)施的SAC訓(xùn)練系統(tǒng)僅在一般路面上進(jìn)行訓(xùn)練,因此我們將來(lái)將訓(xùn)練具有不同路面的實(shí)車(chē)。我們?cè)诜抡鏈y(cè)試和實(shí)車(chē)測(cè)試中的結(jié)果表明,基于從仿真環(huán)境中獲得的知識(shí),DRL可以應(yīng)用于現(xiàn)實(shí)世界。


參考文獻(xiàn)


圖片

圖片

圖片

圖片

圖片



分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25