日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

人工智能技術(shù)在智能駕駛控制中的應用

2022-08-09 10:37:21·  來源:智能汽車設計  作者:潘峰  
 
1 引言智能駕駛汽車是一個集環(huán)境感知、規(guī)劃決策、多等級輔助駕駛等功能于一體的綜合系統(tǒng),是各國重點發(fā)展的智能交通系統(tǒng)中一個重要組成部分,也是世界車輛工程智

1 引言


智能駕駛汽車是一個集環(huán)境感知、規(guī)劃決策、多等級輔助駕駛等功能于一體的綜合系統(tǒng),是各國重點發(fā)展的智能交通系統(tǒng)中一個重要組成部分,也是世界車輛工程智能化領(lǐng)域研究的熱點和汽車工業(yè)增長的新動力。智能駕駛汽車的控制技術(shù)是整個自動駕駛系統(tǒng)中的關(guān)鍵環(huán)節(jié),也是國內(nèi)外廣大學者重點研究的領(lǐng)域。在智能駕駛系統(tǒng)的分層結(jié)構(gòu)中,控制層的功能是將來自決策系統(tǒng)的產(chǎn)生的路徑規(guī)劃轉(zhuǎn)化為各執(zhí)行機構(gòu)動作,并控制各執(zhí)行機構(gòu)完成相應的動作,以此實現(xiàn)對路徑的準確跟蹤和速度的合理控制。傳統(tǒng)的智能駕駛橫/ 縱向控制的方法大多需要精確的數(shù)學解析模型,并對受控系統(tǒng)進行精確的數(shù)值求解,然而精度較高的模型一般也比較復雜,參數(shù)較多。復雜的模型也造成了較高的計算代價,使得求解困難,往往難以保證實時性。近年來,隨著人工智能的迅速發(fā)展,研究人員開始基于人工智能的方法開發(fā)智能汽車決策和控制算法,開辟了一條不同于汽車工程專家的研究思路。


人工智能通常是只通過計算機技術(shù)來呈現(xiàn)人類智能,涵蓋了計算機、仿生學、心理學、統(tǒng)計學等多門學科。目前,越來越多的基于人工智能的方法被應用到智能駕駛系統(tǒng)中來。李德毅院士認為基于自學習的“駕駛腦”是中國智能車實現(xiàn)對國外彎道超車的關(guān)鍵所在。2019 年,專業(yè)研發(fā)自動駕駛的公司W(wǎng)aymo 收購了專門研究模仿學習在自動駕駛中應用的Latent Logic 公司,這意味著Waymo 將在機器學習在智能駕駛中的應用領(lǐng)域展開更加深入的研究和開發(fā)。目前,國內(nèi)的各大IT 也紛紛開展與傳統(tǒng)汽車廠家的合作,共通開發(fā)智能汽車。百度公司自2014 年啟動“百度自動駕駛汽車”研發(fā)計劃以來,已經(jīng)推出了Apollo自動駕駛系統(tǒng), 并于2016 年取得了加州的自動駕駛牌照。百度還將自動駕駛汽車結(jié)合百度大腦,通過人工智能技術(shù)進一步推動智能駕駛汽車的進步。


傳統(tǒng)控制器利用由固定參數(shù)組成的先驗模型。當機器人用于復雜環(huán)境,如真實環(huán)境中的智能駕駛時,傳統(tǒng)控制器無法預見系統(tǒng)必須應對的所有可能情況,而引入人工智能技術(shù)后,學習型控制器會利用訓練信息來逐步學習并完善其模型。同時人工智能還可以和傳統(tǒng)控制方法想結(jié)合,如學習模型預測控制(model predictive control,MPC)的代價函數(shù),使人們更好地預測車輛的干擾和行為。由于智能駕駛控制問題具有高維度,狀態(tài)和動作空間連續(xù),非線性等特點。在自動駕駛中,人工智能領(lǐng)域中的深度學習的引入賦予了智能車輛較強的感知能力,但是缺乏一定的決策控制能力;然而深度學習和強化學習的結(jié)合起來的深度強化學習(deep reinforcement learning, DRL)則可以形成優(yōu)勢互補,為復雜系統(tǒng)的決策控制問題提供了解決思路。DRL 將深度學習的感知能力和強化學習的決策能力相結(jié)合,可以直接根據(jù)輸入的圖像(或雷達數(shù)據(jù))進行控制,是一種更接近人類思維方式的人工智能方法。人工智能方

法的引入使得智能駕駛控制問題得到了更多的解決方案。


2 傳統(tǒng)智能駕駛控制技術(shù)現(xiàn)狀


2.1 智能駕駛系統(tǒng)架構(gòu)


智能駕駛車輛系統(tǒng)架構(gòu)可分為分層架構(gòu)和端到端架構(gòu)兩種。大部分智能駕駛系統(tǒng)采用分層架構(gòu),即整個系統(tǒng)劃分為感知層,決策層(含運動規(guī)劃),控制層和車輛線控層四個層次,如圖 1 所示。端到端架構(gòu)則通過深度學習等人工智能方法,直接將圖像等傳感器數(shù)據(jù)映射為控制器輸出,如圖2 所示。


圖片


2.2 傳統(tǒng)智能駕駛控制方法


大部分智能駕駛系統(tǒng)采用分層架構(gòu),其中控制系統(tǒng)作為智能車輛的底層,也是最重要的一個環(huán)節(jié),一直是智能駕駛技術(shù)研究的重點領(lǐng)域之一。智能駕駛的控制技術(shù)主要包括橫向控制和縱向控制。橫向控制指的是車輛通過執(zhí)行合適的轉(zhuǎn)向運動引導車輛沿一個全局的幾何路徑行駛。路徑跟蹤控制器的目標就是最小化車輛和路徑之間的橫向距離,最小化車輛方向和路徑方向的偏差,約束轉(zhuǎn)向輸入來平滑運動以維持穩(wěn)定性??v向控制則是根據(jù)道路形狀,在滿足車輛動力學和運動學約束以及安全車距的前提下,計算出期望的速度和加速度,并控制油門和制動系統(tǒng)加以實現(xiàn)。


2.2.1 傳統(tǒng)縱向控制方法


縱向控制系統(tǒng)主要控制的對象是速度和加速度,執(zhí)行機構(gòu)為油門和制動系統(tǒng)。智能駕駛車輛的縱向控制系統(tǒng)本質(zhì)上就是一個自適應巡航系統(tǒng)(adaptive cruise control,ACC),其作用是保持安全車距和合理的車速。


傳統(tǒng)的縱向控制器只是簡單的速度控制,方法大多采用PID 或改進的PI 控制。如斯坦福大學在2005 年參加DARPA 的參賽車輛——Stanley 就是使用的簡單PI 控制。傳統(tǒng)的PID 方法雖然可以達到較高的速度控制精度,但是往往都存在超調(diào)、執(zhí)行延遲等問題,而且PID 方法需要根據(jù)不同的工況和駕駛風格對參數(shù)進行調(diào)校,往往存在某些工況下表現(xiàn)良好,在另一些工況下卻性能下降的現(xiàn)象。


為了增強ACC 系統(tǒng)對復雜環(huán)境的適應性,現(xiàn)有的ACC 系統(tǒng)大多采用分工況控制。分工況控制是根據(jù)不同的車輛跟隨場景進行細分,在不同的場景下設計相應的控制算法。如分為距離控制模式和速度控制模式,工況的切換邏輯是基于車間距與相對速度的變化設計,最早由美國密歇根大學的Fancher 等人提出,并被廣泛采用。韓國首爾國立大學Moon 等人采集了數(shù)百名駕駛者的跟車數(shù)據(jù)并對其進行分析,根據(jù)加速度的取值將跟隨工況劃分為急減速、普通和舒適三個工況,并基于碰撞時間和警報指標將ACC 工作區(qū)域分為安全、危險、高速警報和低速警報。北京理工大學裴曉飛等將車輛縱向運動狀態(tài)劃分為八種工況和六種控制模式,由系統(tǒng)根據(jù)實際路況切換控制模式。清華大學的張德兆等人將控制模式進一步細分,提出了接近前車和超車兩種額外的控制模式,以及基于零期望加速度切換策略。


2.2.2 傳統(tǒng)的橫向控制方法


橫向控制又稱為路徑跟蹤控制,其目標就是最小化車輛和路徑之間的橫向偏差,最小化車輛方向和路徑方向的角度偏差,保證車輛跟蹤精度的同時,提高轉(zhuǎn)向運動的平滑和穩(wěn)定。學者們對駕駛員的駕駛行為進行分析,并建立駕駛員橫向控制的建模來完成實現(xiàn)對道路的跟隨控制。從80 年代早期到本世紀初期,最有影響力的研究是MacAdam和郭孔輝院士 等提出的最優(yōu)預瞄控制理論。


傳統(tǒng)的橫向控制器設計主要可分為基于經(jīng)典控制理論方法和基于幾何的方法兩類。其中基于經(jīng)典控制理論的方法又可以分為基于車輛模型和基于誤差反饋的兩大類。


基于車輛模型的方法本質(zhì)上是利用車輛動力學和運動學方程并在各種約束條件下使用優(yōu)化方法求解橫向控制的最優(yōu)解。在此類方法中,MPC 是運用較為廣

泛的。除此之外,Huang S J 等人還提出了基于模糊控制的停車路徑跟蹤方法。線性二次型調(diào)節(jié)器(linearquadratic regulator,LQR)也是此類中經(jīng)常被使用的方法。Levinson 等參加DARPA 比賽的車輛就使用了LQR 方法,該方法利用底層反饋信息求解最佳轉(zhuǎn)向角實現(xiàn)車輛的橫向控制。孫正平等提出了Ribbon 模型,解決了預瞄距離、車輛速度相對于方向控制耦合度高的問題。王家恩等使用車輛狀態(tài)信息以及車路相對位置來生成期望的擺角速度。百度的Apollo 項目中的路徑跟蹤控制方法則綜合使用了LQR 和MPC 兩種方法。


基于誤差反饋的方法大多基于PID 框架。此類方法的創(chuàng)新點大多集中于如何進行參數(shù)的整定和自適應上。趙盼等提出了一種自適應PID 方法實現(xiàn)車輛的橫向控制。Chatzikomis 等使用基于橫向誤差和方向誤差進行PD 控制,其控制器的比例系數(shù)能夠根據(jù)車速進行動態(tài)調(diào)整以協(xié)調(diào)側(cè)向和縱向控制的耦合關(guān)系。Saurav T 等使用了神經(jīng)網(wǎng)絡來優(yōu)化PID 的增益,使其在不同的速度下能夠自適應。高振海等通過簡化的車輛動力學模型,對模型參數(shù)進行辨識,實現(xiàn)對PID 控制器的參數(shù)整定。陳煥明等引入了遺傳算法實現(xiàn)PID 控制器的參數(shù)優(yōu)化。丁海濤等使用了預瞄——跟隨模型,根據(jù)加速度反饋實現(xiàn)車輛的橫縱向

控制。


基于幾何方法的控制器是目前智能駕駛橫向控制領(lǐng)域較為流行的方法。該類控制器通過車輛和預設路徑之間的幾何關(guān)系來計算理想的控制量。在這類控制器中,PurePursuit 和 Stanley 方法是應用較早,使用最廣泛的兩種。


Wallace R 等于1985 年首先提出了純跟蹤的基本原理并將其應用在無人駕駛車輛的橫向控制中,該方法利用車輛與道路中線的橫向偏差來計算前輪的轉(zhuǎn)角。Amidi O等在Wallace 的方法的基礎(chǔ)上提出了正式的純跟蹤理論并討論了這種方法的應用。隨后Coulter R C 詳細描述了純跟蹤的應用細節(jié)并將其應用到室內(nèi)外的機器人的橫向控制中。RanKin A L 等將PID 方法和純跟蹤方法結(jié)合設計了一個控制器,并通過仿真和真實道路測試證明了該方法的有效性。Morales J 等利用純跟蹤方法對人、墻壁、走廊等進行跟蹤,并應用于室內(nèi)導航環(huán)境。段建明等使用了純跟蹤方法控制無人駕駛車輛以實現(xiàn)對GPS 軌跡的準確跟蹤。名古屋大學的Autoware 項目中也使用了純跟蹤方法。


Stanley 方法是基于幾何模型的另一種廣泛應用的方法。該方法使用了2006 年DARPA 的斯坦福大學的冠軍車輛命名。該方法綜合考慮了方向誤差和橫向偏差,并基于車輛前軸的中心和預設軌跡上的最近點來計算誤差。Snider 等使用了Stanley 方法取得了很好的實驗效果,然而該方法要求預設軌跡足夠平滑,且該方法的魯棒性相對于純跟蹤差一些。


3 基于AI 的智能駕駛控制方法


3.1 學習型控制器


與具有固定參數(shù)的控制器不同,學習控制器利用訓練信息隨著時間的推移學習其模型。隨著每批收集的訓練數(shù)據(jù),真實系統(tǒng)模型的近似值變得更加準確。


在先前很多工作中已經(jīng)引入了簡單的函數(shù)逼近器用于訓練學習型控制器,例如高斯過程建?;蛑С窒蛄炕貧w等。人工智能中的機器學習技術(shù)也通常用于學習動力學模型,從而改進迭代學習控制和模型預測控制中的先驗系統(tǒng)模型。


迭代學習控制是一種控制以重復模式工作的系統(tǒng)的方法,如智能控制的路徑跟蹤,并成功應用于越野地形導航,自動泊車和轉(zhuǎn)向動力學建模等。


模型預測控制一般通過解決優(yōu)化問題來計算控制動作,能夠處理具有狀態(tài)和輸入約束的復雜非線性系統(tǒng)。Lefvre等人使用機器學習與MPC 結(jié)合使用來學習駕駛模型,而Drews 等人則在使用機器學習技術(shù)學習極限駕駛下的賽車的駕駛動力學,Brunner 等人則使用MPC 結(jié)合人工智能用于提高路徑跟蹤精度。這些方法使人們能夠更好地預測車輛的干擾和行為,從而將最佳舒適度和安全性約束應用于控制輸入。


學習控制器的主要優(yōu)點是,它們將傳統(tǒng)的基于模型的控制理論與學習算法完美地結(jié)合在一起。這使得仍然可以使用已建立的方法進行控制器設計和穩(wěn)定性分析,以及在系統(tǒng)識別和預測級別應用強大的學習組件。


3.2 端到端的智能駕駛控制


和傳統(tǒng)的智能駕駛系統(tǒng)的分層架構(gòu)不同,端到端的智能駕駛控制通過將原始圖像等傳感器輸入直接映射到底層的控制命令,取消了感知層和決策規(guī)劃層,如圖 2 所示。圖中的控制模型大多由深度神經(jīng)網(wǎng)絡構(gòu)成,根據(jù)其訓練方法不同,大致可以分為基于監(jiān)督式學習的模仿學習方法和基于強化學習的方法,這一類方法大多使用深度神經(jīng)網(wǎng)絡,而且研究趨勢逐漸由單一的圖像傳感器的映射向多傳感器數(shù)據(jù)融合的方向發(fā)展。Sallab 使用了深度強化學習DQN和DDAC 方法基于TORCS 模擬器實現(xiàn)了車道保持任務。Bojarski 使用深度學習技術(shù)來實現(xiàn)端到端的無人駕駛,即直接將感知層的圖像映射到執(zhí)行機構(gòu)的動。Zhou, Y.和Tuzel 則使用了深度學習技術(shù)實現(xiàn)了從3D 點云到控制命令的端到端控制[58]。Eraqi H M 等使用了C_LSTM 方法結(jié)合機器視覺訓練無人駕駛橫向控制模型。Chi L 等使用了真實的圖像數(shù)據(jù)并通過深度神經(jīng)網(wǎng)絡訓練車輛的橫向控制模型。BJ Lee 等使用了監(jiān)督式學習和強化學習的方法訓練模型完成了車輛跟馳和換道任務。Yi Xiao 等人使用深度RGB 數(shù)據(jù)并整合了多種傳感器信息作為神經(jīng)網(wǎng)絡輸入,基于CARLA 模擬器解決智能駕駛的控制任務。Haris 等人也使用RGB 圖像和Lidar 數(shù)據(jù)融合的方法實現(xiàn)了端到端的智能駕駛控制,并基于CARLA 模擬器進行了仿真。


3.3 強化學習


機器學習作為人工智能的一個重要分支,可分為監(jiān)督式學習、非監(jiān)督式學習和強化學習三大類。近年來深度學習的引入大大推動了監(jiān)督式學習在智能駕駛感知領(lǐng)域的應用,使得監(jiān)督式學習被廣泛應用于行人識別,交通標志識別等感知問題。除了目標識別,深度學習也大量使用在駕駛場景理解,駕駛場景語義分割,車輛定位等方面。同時基于模仿學習的端到端智能駕駛控制主要也是基于監(jiān)督式學習方法。


機器學習的另一個主要類型是強化學習。和監(jiān)督式學習主要應用于無人駕駛的感知層不同,強化學習更多使用在決策和控制層。國際上最早將深度強化學習

應用在車輛控制領(lǐng)域為Lange 等人與2012 年使用深度擬合Q 學習的方法在微型賽車模擬器下進行訓練并取得了良好的效果,其控制水平甚至超出了人類玩家。然而該方法仍停留在模擬器仿真階段,其實時性難以達到實際應用的要求,而且只能應用于離散的低維動作空間。2016年,Sallab AE 等人使用深度強化學習方法在開源賽車模擬器(TORCS)上實現(xiàn)了車道保持控制,并對比了離散空間的DQN 方法和連續(xù)動作空間的DDAC 方法,證明了DDAC 方法能夠得到很好的控制效果和平滑的運行軌跡。由于引入了深度學習方法,Sallab 提出了端到端深度強化學習的思想。歸功于深度神經(jīng)網(wǎng)絡強大的特征提取能力,再結(jié)合強化學習的方法對智能體加以訓練,可以直接將原始的圖像映射為執(zhí)行器的輸出,而且在魯棒性上超過了簡單的監(jiān)督式學習型的端到端控制。深度強化學習也逐漸代替了傳統(tǒng)的強化學習方法。2017 年,Hynmin Chae等人使用DQN 算法訓練智能體學習處理行人橫穿馬路的場景,實現(xiàn)了車輛的自主制動控制。Zong XiaoPeng等人使用DDPG 算法對智能體的加速度和轉(zhuǎn)向控制進行訓練以實現(xiàn)自主避障,并在TORCS 環(huán)境中進行了測試。Shalevshwartz 等人使用強化學習結(jié)合LSTM 算法在游戲環(huán)境中解決自動駕駛的縱向控制以及匯入環(huán)島的控制問題。吉林大學的楊順使用深度學習結(jié)合DDPG 算法提出了基于視覺場景理解的深度強化學習控制方法。隨著強化學習在自動駕駛中的應用研究逐漸升溫,為了提高強化學習的訓練效率,微軟與2018 年提出了分布式云端深度強化學習的框架,大大縮減了訓練的時間。參考人類學習的過程,卡內(nèi)基梅隆大學的Xiaodan Liang 等人將模仿學習和強化學習相結(jié)合,提出了可控模仿強化學習(CIRL)的方法,并在CARLA 模擬器中取得了良好的控制效果。這種方法先通過模仿學習對控制網(wǎng)絡的權(quán)重進行初始化,然后通過DDPG 方法進行強化訓練。這樣不但可以解決DDPG 的參數(shù)脆性問題,而且比單獨的模仿學習能夠更好適應復雜環(huán)境。北京聯(lián)合大學的韓向敏使用DDPG 算法實現(xiàn)了自動駕駛的縱向自動控制,而且使智能車輛可以在自學習過程中完成自適應巡航并不斷改進,結(jié)果達到了人類駕駛員的控制水平。北京聯(lián)合大學的智能駕駛團隊對駕駛數(shù)據(jù)進行分析得到人類駕駛員的特征并設計強化學習的獎勵函數(shù)實現(xiàn)無人駕駛的縱向控制,使得智能體在縱向控制方面更加符合人類駕駛習慣。


3.4 多智能體強化學習


多智能體強化學習(MARL) 是專注于實現(xiàn)具有多個智能體的自主、自學習系統(tǒng)的領(lǐng)域,是強化學習算法在多智能體系統(tǒng)上的延伸,已經(jīng)成為人工智能學習研究的一大熱點,在智能駕駛控制中具有豐富的研究成果。Chu 等人通過將交通網(wǎng)格動態(tài)劃分為更小的區(qū)域,并在每個區(qū)域部署一個本地代理來減少行動空間。他們將多智能體強化學習應用于用于中大型交通燈控制。Li等人利用深度

Q-learning (DQL) 來控制交通燈,并提出部署深層堆疊自編碼器(SAE) 神經(jīng)網(wǎng)絡來減少表格Q 學習方法帶來的巨大狀態(tài)空間。Zhou 等人提出了一種基于邊緣的分散強化學習方法,用于車內(nèi)交通燈控制。DRLE 利用車聯(lián)網(wǎng)的普遍性,加速交通數(shù)據(jù)的收集和解釋,以更好地控制交通燈和緩解擁堵。文獻采用多目標強化學習框架解決車輛超車問題,根據(jù)每個目標的重要性構(gòu)造一個融合函數(shù),最終得出一個整體的一致的行動決策。Jing Wu等人提出了一種基于多智能體的深度強化學習(DRL) 方法,允許智能體對非結(jié)構(gòu)化輸入數(shù)據(jù)做出動態(tài)決策,旨在解決車聯(lián)網(wǎng)中邊緣節(jié)點的資源分配問題( 如通信資源、計算資源、頻譜資源等的分配)。Tong Wang 等人提出了一種新的基于協(xié)作群的多智能體強化學習框架-ATSC (CGBMATSC),基于協(xié)作車輛的基礎(chǔ)設施系統(tǒng)(CVIS) 實現(xiàn)對大規(guī)模路網(wǎng)的有效控制。C. Choe 等人 提出一種基于協(xié)同強化學習(RL) 的智能信道接入算法,該算法中車輛以完全分布式的協(xié)調(diào)信道接入。Kui K 等人提出了一種基于分布式多智能體強化學習的高速公路交通流時空控制方法。Monireh Abdoos 等人利用博弈和強化學習開發(fā)用于多個交叉口的交通信號控制器,提出了一種雙模式智能體系結(jié)構(gòu),通過獨立和協(xié)作的過程有效地控制交通擁塞問題。Mohamed A.Khamis 等人開發(fā)了一個多智能體多目標強化學習(RL) 交通信號控制框架,在空間和時間維度上連續(xù)模擬駕駛員的加減速行為。類似地,Balaji P G 等人提出一種基于分布式多智能體強化學習的交通信號控制方法,用于優(yōu)化城市主干道網(wǎng)絡的綠色配時,以減少車輛的總行駛時間和延誤。Jiachen Yang 等人 提出了基于software defined Internet of things(SD-IoT)采集的數(shù)據(jù),在全球范圍內(nèi)對交通燈和車輛進行控制,來提高城市交通控制的性能,該方法具有較好的競爭性能和穩(wěn)定性。針對隨機到達和不完全觀察環(huán)境而對智能體產(chǎn)生噪聲的自動公交車隊控制問題,Sung-Jung Wang 等人提出了一種結(jié)合高級策略梯度算法的多智能體強化學習方法。


4 AI 方法在智能駕駛控制中的挑戰(zhàn)


智能駕駛實驗具有極大的危險性,所以當前的基于人工智能方法訓練的模型大多使用視頻游戲模擬引擎進行訓練和仿真,如TORCS、GAT5 和CARLA 等。然而真實環(huán)境和虛擬環(huán)境之間存在較大的差異,往往只能采用數(shù)據(jù)集驗證或離線數(shù)據(jù)回放等方式來驗證模型的穩(wěn)定性和魯棒性,而基于模擬器的訓練往往因為存在建模誤差而導致將訓練好的模型遷移到真實環(huán)境中的時候可靠性不佳。生成對抗網(wǎng)絡的出現(xiàn)提供了解決這一問題的一個思路。美國弗吉尼亞理工大學電氣與計算機工程系的Aidin Ferdowsi 和Walid Saad 教授, 以及瑞典愛立信研究院和美國羅格斯大學的兩位教授, 針對自動駕駛汽車系統(tǒng)中的" 安全性" 問

題, 提出了一種新型對抗深度強化學習框架, 以解決智能駕駛汽車的安全性問題。


深度強化學習作為智能駕駛控制中較為常見的一種人工智能方法也存在較多的挑戰(zhàn)。


首先雖然強化學習在智能駕駛控制領(lǐng)域多智能體強化學習也是強化學習目前發(fā)展的一個方向。在真實的交通環(huán)境中,交通的參與者并非只有一個,駕駛者的決策和控制往往是多個交通參與者互相博弈的結(jié)果。強化學習是基于馬爾科夫決策過程的理論,然而,很多強化學習算法只是對馬爾科夫過程的近似。在自動駕駛應用中,狀態(tài)的轉(zhuǎn)換并不一定只依賴于智能體采取的動作,也包括環(huán)境中其它參與者采取的動作。多智能體強化學習正是為了解決這一問題,如minimax-Q learning,Nash-Qlearning等方法。不可否認的是,在多智能體環(huán)境中的訓練比單智能體更加復雜。


深度強化學習方法的另一挑戰(zhàn)就是強化學習中獎勵函數(shù)設計的問題。獎勵函數(shù)的作用就是引導智能體不斷優(yōu)化其策略以獲得期待的未來累積的獎勵最大化。大部分強化學習的范例中的獎勵函數(shù)通常是由系統(tǒng)設計人員手動編碼。對于某些強化學習問題,通??梢哉业揭恍┟黠@的獎勵函數(shù),比如游戲中的得分,財務問題中的利潤等等。但是對于某些實際應用中的強化學習問題,其獎勵函數(shù)不但是未知的,而且需要權(quán)衡很多不同方面的需求。如果獎勵函數(shù)設置不合理,則智能體就有可能收斂到錯誤的方向或者學到的是次優(yōu)的策略。在智能駕駛應用中,獎勵函數(shù)的設定不但要考慮到安全性和舒適性,還需要考慮如何讓智能體更加符合人類駕駛員的駕駛習慣。然而,人類駕駛的控制行為比較復雜,在駕駛過程中需要權(quán)衡多方面的需求和約束,所以難以手動指定一個合理的獎勵函數(shù)來引導智能體訓練。而一個不合理的獎勵函數(shù)會造成訓練好的模型收斂到局部最小值甚至會出現(xiàn)糟糕的表現(xiàn)。北京聯(lián)合大學的智能駕駛團隊對駕駛數(shù)據(jù)進行分析得到人類駕駛員的特征并設計強化學習的獎勵函數(shù)實現(xiàn)無人駕駛的縱向控制,使得智能體在縱向控制方面更加符合人類駕駛習慣。模仿學習和反向強化學習對于真實獎勵函數(shù)的獲取以及如何讓智能體的表現(xiàn)更加接近人類表現(xiàn)提供了一個有效的解決方案并成為無人駕駛中的另一個研究熱點。


5 結(jié)論


智能駕駛技術(shù)是世界車輛工程領(lǐng)域研究的熱點和汽車工業(yè)增長的新動力,也是目前各國重點發(fā)展的智能交通系統(tǒng)中一個重要的組成部分。智能駕駛車輛的控制系統(tǒng)作為車輛行為層的關(guān)鍵環(huán)節(jié)對于車輛行駛的安全性和舒適性至關(guān)重要。傳統(tǒng)的控制方法大多基于精確的數(shù)學模型或者基于規(guī)則設計。真實交通環(huán)境中復雜多變的交通場景使得難以設計精確的數(shù)學模型,而規(guī)則的數(shù)目也會隨著交通場景復雜程度呈指數(shù)增長。大量基于人工智能方法的出現(xiàn)使得設計以數(shù)據(jù)驅(qū)動或與環(huán)境交互進行自主學習的控制系統(tǒng)成為可能,經(jīng)過充分訓練的學習型控制器也能夠更好的應對復雜工況。我們對人工智能方法在只能駕駛控制領(lǐng)域的應用進行了充分調(diào)研和實驗,并在本團隊研發(fā)的“京龍”和“聯(lián)合彩虹”無人駕駛智能車和仿真系統(tǒng)上進行了測試和比賽,取得了較好的效果和成績。人工智能技術(shù)目前已經(jīng)成為智能駕駛控制中的熱門研究領(lǐng)域并展示了光明的應用前景。然而,各種人工智能方法在自動駕駛中的應用仍然面臨諸多的挑戰(zhàn),也是未來這一領(lǐng)域進一步的研究方向,包括在真實交通環(huán)境中的部署和測試問題,在多個交通參與者環(huán)境下的多智能體強化學習問題以及針對人類駕駛員特性的獎勵函數(shù)的塑造問題。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25