日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

一種基于注意力機制的無人機自主導航分層強化學習算法

2024-05-22 20:55:53·  來源:同濟智能汽車研究所  
 

本文提出了HTARADrQ算法,該算法通過平均估計函數(shù)、循環(huán)機制、時間關注和分層框架,使無人機能夠更好地在連續(xù)動作空間中進行動作。通過仿真和實際測試,驗證了算法的可行性和有效性。

本文譯自:

《A Hierarchical Reinforcement Learning Algorithm based on Attention Mechanism for UAV Autonomous Navigation》


文章來源:

IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS


作者:

Zun Liu , Yuanqiang Cao, Jianyong Chen , and Jianqiang Li


作者單位:

中國大數(shù)據(jù)系統(tǒng)計算技術國家工程實驗室


原文鏈接:

https://ieeexplore.ieee.org/document/9990583


摘要:無人駕駛飛行器(uav)越來越多地應用于許多具有挑戰(zhàn)性和多樣化的應用中。同時,無人機的自主導航和避障能力也變得越來越重要。本文旨在通過引入注意機制和層次機制,填補深度強化學習理論與實際應用之間的空白,解決深度強化學習在實際應用中遇到的一些嚴重問題。更具體地說,為了提高DRL的魯棒性,我們使用平均估計函數(shù)代替正態(tài)值估計函數(shù)。然后,我們設計了一個循環(huán)網(wǎng)絡和一個時間注意機制來提高算法的性能。第三,我們提出了一個分層框架,以提高其在長期任務中的表現(xiàn)。利用仿真環(huán)境和實際環(huán)境對無人機自主導航方法進行了評價。結果表明,基于DRL的導航方法在不同的環(huán)境下都具有良好的性能,優(yōu)于原始DrQ算法。


關鍵詞:無人機,自主導航,深度強化學習,分層強化學習


1 引言


近年來,無人機以其機動性好、成本低等優(yōu)點,在民用和軍用領域得到了廣泛的應用。其中,結合計算機視覺的無人機已先后應用于視頻監(jiān)控[1]、智能交通[2]、[3]、災后搜救[4]、情報采集[5]、[6]等場景。然而,上述場景對常規(guī)操作任務(如起飛、導航、目標探測和環(huán)境交互,特別是避障)施加了一些限制。結合人工智能技術,利用無人機有限的傳感器收集到的信息,提高自主導航能力是非常必要的。


傳統(tǒng)技術曾在無人機自主導航中發(fā)揮重要作用,從非學習到基于學習。感知和回避是最普遍的非學習型技巧之一。這些技術可以避免碰撞,并通過將車輛轉向相反的方向來進行導航。Odelga等[7]設計了集成慣性和光流距離測量的傳感器,其中使用卡爾曼濾波估計無人機線速度。為了避免碰撞,他們還使用RGB-D攝像機為操作員提供視覺輸入,以及構建以機器人為中心的概率障礙模型的數(shù)據(jù)。對于無人機導航,Wang等[8]提出了一種非線性信號校正觀測器(NSCO)方法來估計無人機的位置和飛行速度。Tiemann等[9]為了使無人機能夠在沒有無線定位的地方獨立飛行,開發(fā)了一種將超寬帶定位與單目SLAM增強融合的技術。Kim等[10]提出了一種獨特的全源導航濾波器,稱為壓縮偽SLAM。它可以以一種計算效率高的方式順利地組合所有可用的信息。


為了降低避障算法對環(huán)境的依賴性,增強其適用性,許多研究者開始結合強化學習(RL)來處理自主導航問題。已經做了一些工作,并取得了良好的效果。Imanberdiyev等[11]提出了一種基于模型的DRL算法TEXPLORE,用于無人機在無阻礙網(wǎng)格地圖中導航,作為一種增強的控制方法。Wang等[12] 開發(fā)了一種非專家輔助(LwH)的DRL方法。該方法采用具有稀疏獎勵的馬爾可夫決策過程(MDP)來框架大規(guī)模復雜環(huán)境下自主無人機導航的挑戰(zhàn)。He等[13]提出了一種基于rl的方法來解決無人機自主導航問題。該方法與仿生單目視覺感知方法相結合。與基于SLAM和光流的導航方法相比,該方法的計算效率更高。Tong等[14]提出了一種分布式DRL架構。該體系結構將無人機導航問題劃分為兩個子任務。每個子任務通過基于長短期記憶(LSTM)技術的DRL網(wǎng)絡與數(shù)據(jù)交互,并開發(fā)了一個損失函數(shù)來整合兩個子任務。為了在動態(tài)和多障礙物環(huán)境下成功進行導航,Zhang等[15]開發(fā)了一種基于drl的方法,并取得了良好的性能。此外,Xin等[16]提出了一種基于經驗回放的DRL方法來進行自主導航。[3]提出了一種新的基于深度Q學習的空氣輔助車輛緩存方案,以響應車輛用戶的駕駛安全相關請求。[17]為無人機設計了一種導航策略,以提高數(shù)據(jù)新鮮度和與物聯(lián)網(wǎng)(IoT)設備的連通性。[2]采用具有時間關注的遞歸神經網(wǎng)絡來解決無人機的導航問題。在沒有碰撞的情況下覆蓋的距離方面,與之前的工作相比,它提供了更好的結果。為了實現(xiàn)無人機的自主性,Chansuparp等[18]采用了簡化點云數(shù)據(jù)和增強后向獎勵函數(shù)的TD3算法


分層強化學習 (HRL)是一種針對大規(guī)模問題的重要計算方法。它可以進行不同程度的時間抽象,大大降低了維數(shù)和訓練難度。Rafati等[19]提出了一種高效而通用的子目標發(fā)現(xiàn)方法。該方法基于無模型HRL框架。采用無監(jiān)督學習方法,可以自動學習子目標來解決大規(guī)模強化學習問題。Florensa等[20]使用隨機神經網(wǎng)絡(SNNs)提供了一個廣泛的框架,SNNs是一種由計算圖中的隨機單元組成的神經網(wǎng)絡。該框架可以為一系列具有稀疏獎勵的任務訓練策略。


對于真實環(huán)境中的強化學習,強化學習在真實環(huán)境中的應用面臨的主要挑戰(zhàn)之一是由于過多的動作狀態(tài)對導致的“維度詛咒”,這使得它難以收斂或學習有效的策略。例如,在無人機的自主避障中,直接輸入照片和傳感器信息會導致算法缺乏通用性和魯棒性,阻礙了算法在實踐中的應用。


以往的無人機自主導航研究經常遇到訓練不穩(wěn)定、收斂速度慢、狀態(tài)空間過大等問題。為了解決這些問題,我們引入了關注和分層機制,并提出了一個無人機自主導航和避障的DRL框架。導航和避障問題被描述為MDP,并以一種新穎的在線DRL算法解決。本研究的重點是填補強化學習中虛擬環(huán)境與真實環(huán)境之間的空白。算法的設計思想和訓練過程的隨機性保證了模型的輸入盡可能豐富。它可以覆蓋無人機在真實飛行過程中獲取的深度圖。它還可以進行動作和子策略的選擇,從而保證無人機在真實環(huán)境中的有效性。該算法基于DrQ[21],包括均值估計函數(shù)、時間注意機制、分層框架和遞歸。本文的主要貢獻有:


1) 我們提出了分層時間注意循環(huán)平均DrQ (HTARADrQ)。HTARADrQ可以學習在不同的時間抽象層次上操作。它可以大大降低狀態(tài)-動作對的維數(shù)和訓練難度。


2) 提出的時間注意循環(huán)平均DrQ (TARADrQ)包括估計函數(shù)、時間注意機制和循環(huán)。在訓練中表現(xiàn)出更強的穩(wěn)定性。它還展示了在處理較長的輸入序列和探索時間依賴性方面的更強能力。


3) 通過仿真和實際測試,驗證了該算法的可行性和有效性。

本文的其余部分組織如下:第二節(jié)介紹了基于學習的無人機導航的相關工作。第三節(jié)介紹了我們提出的算法。第四節(jié)進行了基準測試和分析。第五節(jié)展示了我們提出的HTARADrQ算法在現(xiàn)實世界中的測試結果。最后,第六節(jié)是本文的結論。


2 相關工作


A. 基于學習的無人機導航


障礙物檢測和避障任務得益于自主導航。在文獻中,單目障礙物檢測方法要么基于使用傳統(tǒng)機器學習的場景檢測,要么基于使用深度學習的計算機視覺。Smolyansky等人[22]開發(fā)了一種微型飛行器(MAV)系統(tǒng),可以在森林等非結構化室外環(huán)境中自動跟蹤路徑。該系統(tǒng)采用了一種名為TrailNet的深度神經網(wǎng)絡(DNN)。它可以估計視覺方向和MAV相對于軌跡中心的橫向偏移量。Korris等[23]提供了一種基于CNN的自監(jiān)督室內無人機導航技術。這種方法通過使用回歸CNN來解決實時避障問題。數(shù)據(jù)來自機載單目攝像機。Loquercio等[24]開發(fā)了一種基于CNN的名為DroNet的網(wǎng)絡,可以讓無人機安全地通過城市街道。DroNet是一個八層剩余網(wǎng)絡,有兩個輸出。其中一個輸出是操縱角度,允許無人機在避開障礙物的同時保持導航。另一個輸出是碰撞的可能性,使無人機能夠識別危險情況并迅速做出反應。Kaufmann等[25]研究了一些動態(tài)情況下自主無人機競速的問題。他們還提出了一種將控制系統(tǒng)和CNN與尖端路徑規(guī)劃相結合的方法。這種方法完全依賴于不需要任何顯式的環(huán)境映射。Lee等人[26]提供了一種新的方法,通過單個相機在種植森林中自主導航微型無人機。由于單目視覺缺乏深度信息,他們提出了一種名為Faster Region-based Convolutional Neural Network (Faster R-CNN)的深度學習模型來識別樹干。


最近,研究人員試圖利用深度學習算法為無人機尋找一種穩(wěn)定的控制方法。Hii等[27]提出了一種基于DRL的無人機投遞優(yōu)化系統(tǒng)。根據(jù)該研究,無人機交付是無人機在避開各種障礙物的情況下到達某個位置的路徑,它還采用了多種DRL算法來幫助無人機實現(xiàn)目標。Shin等人[28]使用各種強化學習算法(如無監(jiān)督學習、監(jiān)督學習和強化學習)對無人機進行了實驗研究。Hodge等人[29]開發(fā)了一種通用導航算法,通過無人機機載傳感器的數(shù)據(jù)引導無人機到達問題地點。為了構建通用的自適應導航系統(tǒng),本研究采用了一種結合增量課程學習和LSTM的近端策略優(yōu)化DRL算法。Li等[30]提出了一種獨特的DRL框架來幫助復雜情況下的自主導航。該框架考慮了時間抽象和策略效率。它采用效率正則化的方法動態(tài)地選擇動作決策的頻率。Chikhaoui等[31]為基于DRL的無人機導航提供了自主框架。該框架以PPO算法為基礎,考慮了無人機的能量限制。


B. 分層強化學習


HRL是一種探索高級對象空間以解決稀疏獎勵或長期挑戰(zhàn)的方法。由于子目標、備選方案、技能和宏觀動作的概念是相互關聯(lián)的,因此,HRL技術的模塊化結構總體上促進了遷移和多任務學習。分層規(guī)劃是一個眾所周知的人工智能話題。Kulkarni等[32]開發(fā)了在不同時間尺度上運行的分層DQN (h-DQN)。它可以分層組織目標驅動和內在激勵DRL模塊。h-DQN結合了頂層和底層的行動價值功能。前者獲得內在子目標或選擇的技巧,后者學習原始行動的策略以實現(xiàn)每個子目標的目標。Vezhnevets等[33]開發(fā)了HRL的封建網(wǎng)絡(FuNs)。它包含一個管理模塊和一個工作模塊。管理模塊為長周期設置抽象操作和子目標,工作模塊在每個時間步選擇原子動作來實現(xiàn)管理器的子目標。Bacon等[34]發(fā)展了option-criticism體系結構,建立了option的策略梯度定理。該方法通過從策略到option逐步學習option內策略和終止條件。它還集成了option發(fā)現(xiàn)和option學習。Harutyunyan等人[35]通過option-criticism的棱鏡考察了短期option的靈活性和長期option的效率之間存在的困境。與非策略學習算法類似,將行為與終止狀態(tài)解耦,將option學習轉化為多步策略學習。


智能體有能力在沒有人類干預的情況下探索他們的環(huán)境并獲得重要的能力。Eysenbach等[36]開發(fā)了一種稱為DIAYN的算法。這是一種在沒有獎勵功能的情況下獲得有價值技能的策略。DIAYN在決策過程中采用最小熵原則,對信息理論目標進行優(yōu)化以獲取知識。Li等人[37]開發(fā)了一種具有無偏隱依賴基線的新型分層策略梯度,稱為分層近端策略優(yōu)化(hierarchical Proximal policyOptimization, HiPPO)。HiPPO是一種同時有效訓練所有層次的機制。他們還設計了一種訓練時間抽象的方法,以增加獲得的能力對環(huán)境變化的適應能力。為了促進探索和分層技能獲取,Chuck等人[38]創(chuàng)建了一種被稱為假設提議和評估(HyPE)的方法,并在軟件中實現(xiàn)。HyPE的樣本效率來源于對現(xiàn)實世界和模擬環(huán)境中行為的隱含假設。Zhang等[39]介紹了一種稱為HIDIO的分層強化學習方法。該技術用于以自我監(jiān)督的方式學習任務不可知選項。這些選項可以同時用于解決稀疏獎勵問題。在這項工作中,我們將分層框架與DRL算法相結合,以提高算法在長期任務上的性能


C. DrQ算法


為了優(yōu)化最大熵策略和基于能量的策略,Haarnoja等[40]設計了一種軟Q學習算法。在軟Q學習中,將最優(yōu)策略指定為玻爾茲曼分布,并采用變分方法構建采樣網(wǎng)絡。它可以從理想策略描述的分布中近似出樣本。為了提高遷移能力,可以通過軟Q學習來增強勘探,并輔助基于能量的隨機策略來實現(xiàn)組合性。第二年,Haarnoja等人[41]基于[40]中的最大能量強化學習框架,開發(fā)了一種名為soft actor-critic (SAC)的算法。行為人試圖最大化預測熵和獎勵。SAC是一種連接確定性策略梯度和隨機策略優(yōu)化的非策略方法。利用截斷的雙Q技術和目標函數(shù)中的熵正則化,SAC訓練策略優(yōu)化熵和預期回報之間的權衡,同時仍保持合理的熵水平。從本質上講,熵是衡量策略隨機化程度的指標。這個過程類似于開發(fā)和探索之間的權衡。此外,它有可能防止學習策略收斂到次優(yōu)的局部最優(yōu)。DrQ[21]在圖片輸入上使用數(shù)據(jù)增強來提供更可靠的輸出。有兩種方法來正則化DrQ中的值函數(shù)。它可以提供一種自然的方式來使用MDP結構,通過一種直接的無模型DRL學習方法。在我們的工作中,我們提出了基于DrQ的無人機自主導航方法。仿真結果表明,與其他最先進的方法相比,該方法有明顯的改進。


3 無人機自主導航


在本節(jié)中,提出了一種基于DRL的響應式框架,用于無人機在未知環(huán)境下的自主導航。該框架不依賴SLAM,而是利用當前可用的傳感器數(shù)據(jù)對無人機進行導航。此外,我們的框架不需要大量的機載優(yōu)化,這對于計算資源有限的小型無人機來說是有利的。系統(tǒng)框架如圖1所示。


圖片

圖1 基于DRL的無人機自主導航系統(tǒng)


A. 問題表述


無人機在陌生環(huán)境下的自主導航將面臨順序決策的挑戰(zhàn)。根據(jù)合適的獎勵函數(shù)的定義,這個問題可以描述為一個MDP。其中表示下一狀態(tài),當前狀態(tài)為。本文將無人機自主導航的挑戰(zhàn)用MDP來表述。MDP可以用元組<>來定義。這個元組由一組狀態(tài)、一組動作、一個獎勵函數(shù)、一個轉移函數(shù)和一個折扣因子組成。有許多方法可以用來求解具有有限狀態(tài)和動作空間的MDP,例如動態(tài)規(guī)劃。另一方面,轉移概率和獎勵函數(shù)在大多數(shù)MDP中是無法獲得的。RL算法的目的是識別一個將狀態(tài)映射到動作的最佳策略。假設無人機從地心坐標系的三維點出發(fā),飛向的目標點。時刻的狀態(tài)由一些原始深度圖片以及無人機的各種狀態(tài)特征組成,其表達式為:,。無人機狀態(tài)特征可以定義為:,,,其中表示無人機當前位置與目標位置之間的歐氏距離,表示無人機的偏航角,表示無人機的前向夾角和目標位置。無人機的偏航角速度由策略網(wǎng)絡產生的動作表示。


B. HTARADrQ


原有的DrQ方法存在訓練過程不穩(wěn)定、對時間序列數(shù)據(jù)處理能力不足、對長期任務性能不佳等問題。這些問題導致DrQ在無人機自主導航任務中表現(xiàn)不佳。為了提高算法在無人機自主導航任務中的性能,我們提出了分層時間注意力遞歸平均DrQ (HTARADrQ)。HTARADrQ將DrQ與平均估計函數(shù)、時間注意力和分層框架相結合。平均估計函數(shù)使訓練過程更加穩(wěn)定。采用時間注意機制的算法可以更好地處理時間序列數(shù)據(jù)。分層框架可以將長期任務劃分為子任務層次結構。高級策略可以識別出最佳子任務,并通過學習將其作為高級行動。子任務本身可能更容易學習,從而進一步提高算法的性能。改進的細節(jié)如下所述。


1. 平均估計函數(shù): DrQ采用軟策略迭代優(yōu)化agent與環(huán)境交互獲得的獎勵。軟政策迭代的目的是在政策審查和政策改進之間交替進行,但它只能在最大熵范式中發(fā)揮作用。DrQ代理的網(wǎng)絡由三部分組成:演員網(wǎng)絡、評論家網(wǎng)絡和目標評論家網(wǎng)絡。行動者網(wǎng)絡可以根據(jù)代理人的當前狀態(tài)預測代理人的行為。狀態(tài)-作用對的值由估計。與相同,可用來估計狀態(tài)-作用對的目標值。軟Q學習和Q學習一樣,有Q值高估的問題。在我們的工作中,我們通過平均估計策略來緩解軟Q學習的高估。這樣可以使訓練過程更加穩(wěn)定,提高性能。平均估計函數(shù)如下式所示:



其中為損失函數(shù),為期望值算子,為存儲過往經驗的重播緩沖區(qū),為無人機在時刻的狀態(tài),為無人機在t時刻的動作,為Q值函數(shù),為折現(xiàn)因子,為獎勵函數(shù),為值函數(shù),為溫度因子,為先前學習到的動作狀態(tài)估計的個數(shù)。此外,如圖2所示,我們將CNN模塊的最后一個全連接層替換為global average pooling(GAP)。與全連接層相比,優(yōu)勢在于GAP沒有需要優(yōu)化的參數(shù),可以避免這一層的過擬合。此外,GAP對空間信息進行了總結,對輸入的空間變換具有更強的魯棒性。


圖片

圖2 TARADrQ的Actor架構


2. 時間注意:在無人機的自主導航任務中,由于傳感器的部分可觀測性導致的感知信息不完整和附帶噪聲非常普遍。因此,無人機無法收集足夠的環(huán)境信息來發(fā)展適當?shù)膶Ш叫袨?。為了處理這個問題,引入了遞歸的概念,以便更好地評估環(huán)境的潛在狀態(tài)。我們在DrQ中提出了一種遞歸機制來改善無人機的自主導航,并在CNN模塊的輸出中增加了一個額外的遞歸神經網(wǎng)絡(RNN)。RNN模塊分析網(wǎng)絡中包含的時間信息,而不是單一的歷史數(shù)據(jù)集作為輸入。此外,由于RNN提供的跨時間的連通性,可以集成和研究更長的歷史數(shù)據(jù)序列,使生成的策略更可信。更具體地說,我們使用LSTM單元作為RNN架構的基礎,并將其與DrQ算法相結合,該算法被稱為平均DrQ (ADrQ)。


此外,為了識別先驗狀態(tài)下最重要的幀,我們提出了時間注意循環(huán)平均DrQ (TARADrQ)。TARADrQ可以在LSTM細胞層的輸出上納入時間注意力,如圖2所示。時間注意機制為LSTM單元的輸出提供標量權重。這些權重是在不同的時間步長學習的。如公式4所示,Wi為每個LSTM單元輸出的權重,為LSTM單元隱藏向量,和為可學習參數(shù),激活函數(shù)為ReLU,然后是softmax函數(shù)。根據(jù)這個概念,每個習得的權重依賴于前一個時間步長的信息和當前狀態(tài)信息,如公式4所示。在下一步中,我們計算組合上下文向量,如圖5所示,上下文向量是LSTM單元輸出在個時間步長的加權和。在計算動作之前,與無人機狀態(tài)數(shù)據(jù)連接,并通過actor網(wǎng)絡的三個完全連接層發(fā)送。學習到的權重是LSTM輸出的相關性。因此,優(yōu)化過程的目標是最大化導航成功率的可能性。為了學習適當?shù)男袨?,?yōu)化過程可以學習選擇哪些狀態(tài)相對更重要。這是因為當注意力計算動作輸出時,時間注意力可以顯式地考慮來自前T幀的LSTM輸出特征。與原來的DrQ和ADrQ相比,TARADrQ在處理時間序列數(shù)據(jù)和時間關系的能力上有了很多改進。


圖片


3. 分層框架: 自主導航任務是一項長期任務,HRL可以將一項困難的任務分解成更容易的子任務來執(zhí)行。它使用了通過強化學習學到的規(guī)則層次結構。在分層結構中,最高級別的策略通常選擇主任務的子任務作為當前操作。該策略被訓練成按順序完成子任務,然后產生激勵獎勵并發(fā)送給該策略。通過與該子任務相關的內部獎勵,較低級別的策略可以學習完成同一級別的子任務。最低級別的策略響應于識別最基本的活動,這些活動被稱為原始操作?,F(xiàn)在我們提出HTARADrQ,如圖3所示,它由一個主策略ψ和M個子策略組成。在每個時間步,主策略將根據(jù)當前狀態(tài)st預測一個主操作,如公式6所示。子策略的索引是從0到。然后,算法根據(jù)主動作選擇子策略。所選擇的子策略將根據(jù)當前狀態(tài)分N步預測無人機的控制動作。對于當前狀態(tài),agent可以學習從個子策略中選擇一個,并應用該子策略來預測動作。


圖片

圖片

圖3 分層結構框架


C. 獎勵函數(shù)


公式7和公式8分別是子策略和主策略的獎勵函數(shù)。是無人機前一位置與目標位置之間的歐氏距離。是當前位置與目標位置之間的歐氏距離。如果無人機崩潰或超時,子策略將獲得負獎勵-1,以降低模型在該狀態(tài)下選擇操作的概率。當無人機到達目標點時,子策略將獲得1的正獎勵,以增加模型在該狀態(tài)下選擇動作的概率。在其他情況下,無人機將獲得獎勵。當無人機接近終點時,獎勵為正。否則,獎勵是消極的。式8是總體政策的獎勵函數(shù)。是總體政策的回報。是子策略在第i步的獎勵。


圖片



D. 分層時間注意遞歸平均DrQ


在本節(jié)中,我們將描述HTARADrQ算法的訓練過程。首先,我們需要初始化所需的參數(shù),包括主策略,子策略,主緩沖區(qū)和子緩沖區(qū)。主策略網(wǎng)絡由網(wǎng)絡和目標網(wǎng)絡組成。子策略網(wǎng)絡由行動者網(wǎng)絡、批評家網(wǎng)絡和目標批評家網(wǎng)絡組成。然后,在執(zhí)行任務之前將重置環(huán)境。在任務期間,如果當前步驟少于種子步驟,主策略和子策略將隨機選擇一個操作。否則,它們將根據(jù)當前狀態(tài)預測動作。子策略由主動作選擇,分步執(zhí)行。在每個子步驟中,代理將執(zhí)行子操作并更新子策略。當任務完成或終止時,主策略將被更新。完整的算法組織為算法1。


圖片


4 仿真結果及討論


在本部分中,我們在仿真環(huán)境中測試了HTARADrQ算法,以評估其自主導航和避障能力。根據(jù)環(huán)境的實際狀態(tài)分配大量參數(shù),訓練agent在100,000個環(huán)境中學習策略步驟。為了提供一個比較點,SAC[41]、DrQ[21]、ADrQ和TARADrQ算法都是針對無人機自主導航任務進行訓練的。在無人機仿真環(huán)境Airsim中對該方法進行了驗證。


A. 訓練環(huán)境與設置


為了驗證HTARADrQ在無人機導航任務中的性能,我們首先進行了仿真實驗。我們構建了三個環(huán)境,如圖4所示。環(huán)境A是一個精心設計的場景,帶有難度和一般障礙。環(huán)境B是室內走廊環(huán)境,白色的建筑和周圍的墻壁是障礙物。環(huán)境C是核電站的模擬環(huán)境,被認為是下一個現(xiàn)實世界的應用。將歸一化范圍[0,1]應用于所有感官輸入。主策略網(wǎng)絡和子策略網(wǎng)絡的權值初始化均為均勻分布。


圖片

圖4 實驗環(huán)境


在訓練時,無人機的飛行速度保持在1.0 m/s。為了增加隨機性,在訓練過程中隨機初始化每集的起始點和結束點。該算法的輸入包含無人機的深度圖像和狀態(tài)。深度圖像大小為144×256。所有輸入數(shù)據(jù)歸一化為[0,1]。算法的輸出為[- 60,60]范圍內的偏航角速度。在訓練過程中,前1000步的動作選擇由隨機化算法進行。HTARADrQ的每個子策略模型將在與環(huán)境交互后進行訓練。每一集結束后,總體政策模型將被訓練30次。對于每5000次交互,訓練模型將用40集進行測試。每個測試集的起始點和結束點也是隨機初始化的。當測試過程完成后,培訓過程將繼續(xù)。當交互次數(shù)達到10萬次時,訓練階段結束。表1總結了所有的hyper-parameters。將參數(shù)設置如表1所示,可以穩(wěn)定模型訓練,加快收斂速度。


表1 參數(shù)設置

圖片


B. 培訓結果及分析


首先,我們評估了最終的HTARADrQ模型在這三種環(huán)境下的性能,并將其與SAC、DrQ、ADrQ和TARADrQ進行了比較。它們的參數(shù)設置和訓練過程是相同的。圖5描述了他們在訓練期間的平均劇集回報。使用三個隨機種子來訓練五種算法中的每一種。在每5000步中,每個算法將執(zhí)行一次評估rollout。實線代表三種種子的平均值,陰影區(qū)代表三種種子的變異。實線曲線顯示HTARADrQ在無人機自主導航任務上優(yōu)于其他無人機,包括學習速度和整體性能。陰影區(qū)域表示HTARADrQ在訓練過程中比其他的更穩(wěn)定。根據(jù)HTRADrQ,平均估計函數(shù)降低了錯誤Q值的可能性和參數(shù)傳遞過程的方差。通過用GAP代替全連接層來減小模型的參數(shù)。循環(huán)機制使DrQ能夠處理時間序列數(shù)據(jù)并從中提取時間序列信息。時間注意機制可以決定每個輸入幀的重要性。它會導致更準確的預測。分層框架將長期學習任務分解為多個子問題或子任務層次。高級策略通過選擇最佳子任務作為高級操作來執(zhí)行任務。在子任務的序列上,任務分解可以有效地縮短原任務的視界。學習子任務更容易。因此,與其他算法相比,HTARADrQ在訓練過程中更加穩(wěn)定,收斂速度更快。


圖片

圖片

圖片


圖5 訓練期間的平均情節(jié)獎勵曲線。(a)為各算法在環(huán)境a中的訓練結果;(b)為各算法在環(huán)境b中的訓練結果;(c)為各算法在環(huán)境c中的訓練結果


其次,我們比較了HTARADrQ與SAC、DrQ、ADrQ和TARADrQ的避碰性能。結果見表2。我們發(fā)現(xiàn),如果加入平均估計函數(shù)、時間關注和層次框架,平均碰撞步長會增加。換句話說,agent的避障能力得到了提高。采用平均估計函數(shù)和全局平均池化操作使算法的訓練過程更加穩(wěn)定。這可以在一定程度上提高智能體的避障能力。由于具有周期性和暫時性的注意機制,智能體能夠從其周圍環(huán)境中處理和提取更豐富、更重要的信息。因此,智能體可以避開障礙物,提高預測的準確性。分層框架有利于子任務的學習。它允許智能體獲得更有效的避障策略。


表2 碰撞情況下每個模型的平均飛行步數(shù)


圖片


為了檢驗SAC、DrQ、ADrQ、TARADrQ和HTARADrQ之間的性能差異,我們在每個環(huán)境中測試了這些模型。在每個環(huán)境中,我們測試了100輪,其中每個測試的起點和終點是隨機生成的。圖6顯示了導航任務的平均成功率、平均碰撞率和平均超時率。圖中的藍條表示平均成功率。圖中的橙色條表示平均碰撞率。圖中的綠色條表示平均超時率??梢钥闯?,自主導航模型結合注意機制和層次機制可以學習到更好的導航策略。因此,與SAC、DrQ、ADrQ和TARADrQ相比,HTARADrQ可以更好地學習自主導航策略,并且具有更高的成功率和更低的碰撞率。


圖片

圖片

圖片

圖6 測試結果。(a)為各算法在環(huán)境a中的測試結果。(b)為各算法在環(huán)境b中的測試結果。(c)為各算法在環(huán)境c下的測試結果


C. 注意機制


為了驗證時間注意機制的有效性,本節(jié)使用訓練好的模型進行模擬環(huán)境B中的各種實驗,如直飛實驗、轉彎實驗、避障實驗等。圖7為該導航模型在直飛實驗中的預測結果。第一行是環(huán)境的俯視圖,綠點表示無人機的位置。第二行是環(huán)境的RGB圖像。第三行是環(huán)境的深度圖像。第四行是每幀深度圖像對應的注意權值。從圖中可以看出,從第一幀到第四幀,注意力權重不斷增加。注意模塊認為第四幀的深度圖像比其他三幀更重要,因此給予第四幀最大的權重。然后,基于四幀深度圖像的注意權值,導航模型的預測值為0.15?/s。在這個偏航角速度下,無人機可以向前飛行。上述實驗結果表明,該導航模型學習到了較好的直航策略。


圖片

圖7 導航模型在直飛試驗中的預測結果


圖8為轉彎試驗中導航模型的預測結果。從圖中可以看出,第一幀和第四幀的注意權重大于第二幀和第三幀。注意模塊認為第四框架提供的信息是最重要的,但是第一框架提供的信息也應該被考慮。在第一張深度圖像中,幾乎一半的區(qū)域是黑色的。它表明無人機此時非常接近左墻。因此,注意力模塊給予第一幀更大的權重。然后,基于四幀深度圖像的注意權值,導航模型的預測值為-37.23?/s。實驗結果表明,該導航模型學習了較好的轉向策略。


圖片

圖8 導航模型在轉彎試驗中的預測結果


圖9為避障實驗中導航模型的預測結果。從圖中可以看出,從第一幀到第四幀的注意權重差異不是很大。這意味著注意模塊認為這四個框架提供的信息都是重要的。然后,基于四幀深度圖像的關注權重,導航模型的預測值為59.68?/s。在這個偏航角速度下,無人機將向右轉以避開左邊的墻壁,以防止碰撞事件。實驗結果表明,該導航模型學習了較好的避障策略。


圖片

圖9 避障實驗中導航模型的預測結果


D. 消融實驗


為了說明分級機制對性能的影響,以及分級機制與其他改進方法相結合的效果,我們在本節(jié)進行了消融實驗。實驗結果見表3。從表中可以看出,每個模型的平均成功率加入分層機制后,環(huán)境改善了2% ~ 4%。與只加入層次機制的算法相比,加入層次機制等方法后,模型的平均成功率提高了2% ~ 8%。當算法中加入四種改進方法時,模型的平均成功率最高。可見,分層機制可以在一定程度上提高性能。同時,層次機制可以與循環(huán)機制、注意機制、平均值函數(shù)相結合,相互促進,進一步提高模型性能。


表3 各模型在各環(huán)境下導航任務的平均成功率結果


圖片


5 真實世界飛行測試


在本節(jié)中,進行了一些真實世界的測試,以驗證我們訓練的無人機自主導航模型的性能,以及一般的實際結果。


A. 飛行平臺


無人機飛行平臺基于大疆F550搭建,如圖10所示,配備CUAV V5自動駕駛儀。我們設計并為Manifold 2C車載計算機配備了深度傳感器,并集成了SLAM算法進行定位和導航。形成了一個組裝方便、結構清晰、具有自主飛行能力、可根據(jù)不同實驗任務進行異化的多功能實驗平臺。開發(fā)了基于QGroundControl的地面站平臺,實現(xiàn)了航路規(guī)劃和無人機狀態(tài)實時監(jiān)控。


圖片

圖10 飛行平臺。(a)為我司自組裝無人機。(b)為導航系統(tǒng)框架。(c)為地面站平臺。(d)為SLAM系統(tǒng)的測試結果


B. 在真實世界中的評估


首先,在辦公環(huán)境中進行了模擬實驗。辦公環(huán)境平面圖如圖11所示,其中陰影區(qū)域代表障礙物,粗線代表周圍的墻壁。本實驗的起始和結束位置也顯示在圖中。圖11中有數(shù)字標記的位置與圖12中的位置相對應。在飛行過程中持續(xù)采集環(huán)境深度圖像和無人機狀態(tài)信息。將采集到的環(huán)境深度圖像和無人機狀態(tài)信息輸入到導航模型中,由導航模型預測無人機的偏航角速度。


圖片圖11 測試環(huán)境的俯視圖

圖片

圖12 導航模型預測結果


實驗中使用的模型是經過訓練的HTARADrQ模型。模型預測結果如圖12所示。第一列是無人機的位置號,第二列是原始環(huán)境圖像,第三列是環(huán)境的深度圖像,第四列是導航模型的預測偏航率。負偏航角速度表示向左偏航,而正的意思是向右偏航。從圖中可以看出,第一到第三個位置的預測偏航率在[?10,10]之間,因為無人機在這些位置不需要進行大的偏轉角,只需要向前移動。在第四個和第五個位置,可以看到無人機在這些位置應該向左轉彎,并且偏航角速度的預測值都是大負值。第六次偏航率預測介于[?10,10]之間,因為在這個位置,無人機應該向前飛行。在第7和第8個位置,無人機應該在這些位置向左偏轉。此時預測值為較大的負值,使無人機向左轉,避免碰撞。在第9個位置,可以看到左邊有障礙物,此時預測的偏航率為正,這樣無人機可以稍微偏轉到右邊,避開障礙物。在最后一個位置,可以看到結束位置在前方不遠,無人機只需要向前飛行。此時,偏航角速度的預測值在[?10,10]之間


6 結論與未來工作

本文研究了無人機在陌生環(huán)境下的自主導航問題,并采用DRL方法解決了這一問題。我們提出了HTARADrQ算法,該算法通過平均估計函數(shù)、循環(huán)機制、時間關注和分層框架,使無人機能夠更好地在連續(xù)動作空間中進行動作。通過實時仿真驗證了該方法的有效性,其中無人機試圖在不與任何障礙物發(fā)生碰撞的情況下實現(xiàn)目標。我們的測試結果證明了本文所描述的技術可用于無人機自主導航,并且優(yōu)于原有的DrQ算法。對于今后的工作,可以構建更加逼真的仿真環(huán)境,縮小仿真環(huán)境與真實環(huán)境之間的差距。在計算獎勵時,也可以考慮飛行過程中的能量消耗。考慮飛行過程中的速度和角速度,可以進一步提高算法在復雜環(huán)境和路徑下的導航性能。


參考文獻


圖片

圖片

圖片

圖片

圖片



分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25