日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

EVORA:面向風(fēng)險(xiǎn)感知越野自主系統(tǒng)的深度證據(jù)可通行性學(xué)習(xí)

2025-06-05 09:53:00·  來(lái)源:同濟(jì)智能汽車(chē)研究所  
 

編者按:隨著無(wú)人系統(tǒng)在復(fù)雜野外環(huán)境中的應(yīng)用日益廣泛,地形可通行性評(píng)估成為提升自主導(dǎo)航能力的關(guān)鍵環(huán)節(jié)。本文由麻省理工學(xué)院與美國(guó)陸軍研究實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)撰寫(xiě),聚焦于風(fēng)險(xiǎn)感知越野導(dǎo)航中的不確定性建模問(wèn)題,提出了一種基于深度證據(jù)學(xué)習(xí)的端到端方法——EVORA。該方法聯(lián)合建模 Aleatoric 與 Epistemic 不確定性,通過(guò)Dirichlet分布與標(biāo)準(zhǔn)化流的結(jié)合,實(shí)現(xiàn)對(duì)牽引力分布的精確建模與未知地形的魯棒識(shí)別,為部署于未知或高風(fēng)險(xiǎn)區(qū)域的自主機(jī)器人提供了堅(jiān)實(shí)的數(shù)據(jù)驅(qū)動(dòng)支撐。論文提出的 UEMD2 損失函數(shù)在保持準(zhǔn)確率的同時(shí),有效提升了對(duì)分布外地形的檢測(cè)能力,具有較高的理論價(jià)值與應(yīng)用潛力,值得從事智能駕駛、野外探測(cè)、風(fēng)險(xiǎn)規(guī)避導(dǎo)航等方向的科研人員深入研讀。

本文譯自:

《EVORA: Deep Evidential Traversability Learning for Risk-Aware Off-Road Autonomy》

文章來(lái)源:


IEEE Transactions on Robotics, vol. 40, pp. 3756-3777, 2024.


作者:

蔡小毅1,Siddharth Ancha1,Lakshay Sharma1,Philip R. Osteen1,Bernadette Bucher2,Stephen Phillips2,王久光2,Michael Everett1,Nicholas Roy1,Jonathan P. How1

作者單位:

1 麻省理工學(xué)院(Massachusetts Institute of Technology),2 美國(guó)陸軍研究實(shí)驗(yàn)室(U.S. Army Research Laboratory)

原文鏈接:

https://ieeexplore.ieee.org/document/10606099


摘要:穿越具有良好牽引力的地形對(duì)于實(shí)現(xiàn)快速越野導(dǎo)航至關(guān)重要。現(xiàn)有方法并非基于地形特征手動(dòng)設(shè)計(jì)成本,而是通過(guò)自監(jiān)督直接從數(shù)據(jù)中學(xué)習(xí)地形屬性,從而自動(dòng)懲罰穿越不良地形的軌跡。然而,如何正確量化和降低學(xué)習(xí)模型中不確定性帶來(lái)的風(fēng)險(xiǎn)仍存在挑戰(zhàn)。為此,我們提出了證據(jù)越野自主性 (EVORA),這是一個(gè)統(tǒng)一的框架,用于學(xué)習(xí)不確定性感知的牽引力模型并規(guī)劃風(fēng)險(xiǎn)感知的軌跡。對(duì)于不確定性量化,我們通過(guò)學(xué)習(xí)離散牽引力分布和牽引力預(yù)測(cè)器潛在特征的概率密度,有效地對(duì)偶然不確定性和認(rèn)知不確定性進(jìn)行建模。利用證據(jù)深度學(xué)習(xí),我們用網(wǎng)絡(luò)輸出參數(shù)化狄利克雷分布,并提出一種新穎的不確定性感知平方土方距離損失函數(shù),該函數(shù)具有閉式表達(dá)式,可提高學(xué)習(xí)精度和導(dǎo)航性能。對(duì)于風(fēng)險(xiǎn)感知導(dǎo)航,所提出的規(guī)劃器會(huì)模擬具有最壞情況預(yù)期牽引力的狀態(tài)軌跡,以處理隨機(jī)不確定性,并懲罰穿越具有高認(rèn)知不確定性地形的軌跡。我們的方法已在模擬環(huán)境以及輪式和四足機(jī)器人上得到廣泛驗(yàn)證,與假設(shè)無(wú)滑移、假設(shè)預(yù)期牽引力或針對(duì)最壞情況預(yù)期成本進(jìn)行優(yōu)化的方法相比,其導(dǎo)航性能有所提升。

關(guān)鍵詞:自主機(jī)器人,自監(jiān)督學(xué)習(xí),不確定性量化,越野導(dǎo)航


Ⅰ 引言


本文的其余部分組織如下。

自主機(jī)器人正日益部署于礦區(qū)、森林、沙漠等惡劣的非鋪裝環(huán)境中,這些環(huán)境既需要對(duì)幾何結(jié)構(gòu)進(jìn)行理解,也需要對(duì)語(yǔ)義信息進(jìn)行解析,以便識(shí)別非幾何危險(xiǎn)(例如淤泥坑、光滑表面)和幾何“非危險(xiǎn)”區(qū)域(例如高草和灌木),從而實(shí)現(xiàn)可靠的導(dǎo)航。為此,近期的方法通?;诘匦蔚恼Z(yǔ)義分類(lèi)手動(dòng)分配導(dǎo)航代價(jià),這一過(guò)程不僅需要大量專家知識(shí)來(lái)標(biāo)注數(shù)據(jù),還需訓(xùn)練出足夠精確且語(yǔ)義類(lèi)別豐富的分類(lèi)器,以獲得期望的風(fēng)險(xiǎn)感知行為。另一種思路是利用自監(jiān)督學(xué)習(xí)直接從導(dǎo)航數(shù)據(jù)中學(xué)習(xí)可行性模型,以便在路徑規(guī)劃時(shí)自動(dòng)對(duì)不利地形分配更高的代價(jià)。然而,由于真實(shí)環(huán)境下自監(jiān)督的數(shù)據(jù)采集既緩慢又昂貴,僅僅增加數(shù)據(jù)量并不足以提升性能,除非我們能夠?qū)λ鶎W(xué)模型中的不確定性進(jìn)行量化并據(jù)此進(jìn)行風(fēng)險(xiǎn)緩解。在越野導(dǎo)航情境中,不確定性主要以兩種形式出現(xiàn),如圖 1 所示。

圖片

圖 1. EVORA 在學(xué)習(xí)地形牽引模型時(shí),同時(shí)捕捉兩類(lèi)不確定性,其中牽引力定義為實(shí)際速度與指令速度之比。(a) 內(nèi)稟不確定性(Aleatoric uncertainty)是由于觀測(cè)不完全而產(chǎn)生的固有且不可消除的不確定性。例如,外觀相似的地形由于機(jī)器人與植被之間的復(fù)雜相互作用,可能具有不同的牽引力值。(b) 模型不確定性(Epistemic uncertainty)是由于訓(xùn)練環(huán)境與測(cè)試環(huán)境分布轉(zhuǎn)移帶來(lái)的模型不確定性,這會(huì)在測(cè)試時(shí)限制學(xué)習(xí)模型的可靠性。

內(nèi)稟不確定性(Aleatoric uncertainty)是指因觀測(cè)不完整而產(chǎn)生的固有且不可消除的不確定性。例如,兩塊外觀相同的地形對(duì)車(chē)載傳感器而言可能無(wú)法區(qū)分,但卻會(huì)導(dǎo)致車(chē)輛表現(xiàn)出截然不同的行為——此類(lèi)不確定性通過(guò)增加數(shù)據(jù)量也無(wú)法降低。模型不確定性(Epistemic uncertainty)則源自測(cè)試時(shí)遇到的超出分布(OOD)輸入,這些輸入在訓(xùn)練數(shù)據(jù)中缺乏代表性。由于在危險(xiǎn)環(huán)境中(如碰撞或懸崖邊緣墜落)采集 OOD 數(shù)據(jù)往往不切實(shí)際,訓(xùn)練數(shù)據(jù)集與機(jī)器人在實(shí)際場(chǎng)景中所遭遇環(huán)境之間可能存在巨大差距。目前,越野導(dǎo)航領(lǐng)域的大部分研究要么專注于通過(guò)學(xué)習(xí)系統(tǒng)參數(shù)的分布而非點(diǎn)估計(jì)來(lái)處理內(nèi)稟不確定性 [10], [11],要么專注于識(shí)別 OOD 地形以應(yīng)對(duì)模型不確定性 [12], [13], [14], [15],但很少有工作同時(shí)量化這兩類(lèi)不確定性并在規(guī)劃階段緩解由此帶來(lái)的風(fēng)險(xiǎn)。

為了實(shí)現(xiàn)快速且可靠的越野導(dǎo)航,本文同時(shí)關(guān)注上游的不確定性感知可行性學(xué)習(xí)問(wèn)題和下游的風(fēng)險(xiǎn)感知導(dǎo)航問(wèn)題。鑒于二者相互依賴,我們提出了EVORA(Evidential Off-Road Autonomy)管線,將前述的不確定性感知可行性模型與風(fēng)險(xiǎn)感知規(guī)劃器緊密結(jié)合(見(jiàn)圖 2)。為了規(guī)劃快速軌跡,我們使用地形牽引力來(lái)刻畫(huà)可行性,其中牽引力定義為實(shí)際速度與指令速度之比(例如,導(dǎo)致車(chē)輪打滑并降低速度的濕滑地面對(duì)應(yīng)低牽引力)。此外,我們通過(guò)學(xué)習(xí)經(jīng)驗(yàn)牽引力分布(捕捉內(nèi)稟不確定性)和牽引力預(yù)測(cè)器潛在特征的概率密度(捕捉模型不確定性),高效地量化了兩類(lèi)不確定性。鑒于真實(shí)牽引力分布可能呈多模態(tài)(如圖 1(a)所示,外觀相似的植被可能對(duì)應(yīng)不同牽引值),我們對(duì)離散化的牽引值學(xué)習(xí)類(lèi)別分布以刻畫(huà)多模態(tài)性。借助文獻(xiàn) [16] 提出的證據(jù)深度學(xué)習(xí)方法,我們將神經(jīng)網(wǎng)絡(luò)輸出參數(shù)化為Dirichlet分布(類(lèi)別分布的共軛先驗(yàn)),并提出了一種基于平方Earth Mover’s Distance(EMD)的新型不確定性感知損失。該損失具有閉式解,可高效計(jì)算,并較傳統(tǒng)的基于交叉熵的損失更準(zhǔn)確地捕捉離散牽引值之間的關(guān)系。為應(yīng)對(duì)內(nèi)稟不確定性,我們?cè)O(shè)計(jì)了一個(gè)風(fēng)險(xiǎn)感知規(guī)劃器,該規(guī)劃器在前向仿真時(shí)使用最壞情形下的期望牽引力,實(shí)驗(yàn)證明其性能優(yōu)于或匹配于其他方法:包括基于名義牽引力的方法 [11]、基于期望牽引力的方法 [21],以及直接優(yōu)化最壞情形期望代價(jià)的方法 [22] 。為降低模型不確定性帶來(lái)的風(fēng)險(xiǎn),本文在牽引預(yù)測(cè)器潛在特征的概率密度上設(shè)定置信度閾值,以識(shí)別超出訓(xùn)練分布(OOD)的地形,并通過(guò)輔助規(guī)劃代價(jià)主動(dòng)避開(kāi)這些風(fēng)險(xiǎn)區(qū)域。該方法在仿真環(huán)境以及輪式和四足機(jī)器人硬件平臺(tái)上均進(jìn)行了詳盡驗(yàn)證,結(jié)果表明其具有可行性并顯著提升了導(dǎo)航性能。

圖片

圖 2. 所提出的考慮不確定性的可行性學(xué)習(xí)與風(fēng)險(xiǎn)感知導(dǎo)航方法概覽。 (a) 數(shù)據(jù)采集階段:我們驅(qū)動(dòng)機(jī)器人通過(guò)感興趣的地形,記錄牽引力值、機(jī)器人位姿,并構(gòu)建語(yǔ)義高程地圖。隨后,離線生成訓(xùn)練數(shù)據(jù)集——提取地形的語(yǔ)義與高程特征,并沿機(jī)器人所過(guò)路徑估計(jì)經(jīng)驗(yàn)牽引力分布。 (b) 不確定性建模:利用證據(jù)深度學(xué)習(xí)(Evidential Deep Learning)[16],對(duì)離散化后的牽引力值學(xué)習(xí)類(lèi)別分布,以刻畫(huà)固有不確定性(Aleatoric Uncertainty);同時(shí),通過(guò)歸一化流網(wǎng)絡(luò)(Normalizing Flow Network)[17]對(duì)牽引力預(yù)測(cè)器潛在特征的密度進(jìn)行建模,以估計(jì)認(rèn)知不確定性(Epistemic Uncertainty)。整個(gè)網(wǎng)絡(luò)采用以網(wǎng)絡(luò)輸出參數(shù)化的狄利克雷分布所定義的考慮不確定性的損失函數(shù)進(jìn)行訓(xùn)練。 (c) 風(fēng)險(xiǎn)感知導(dǎo)航:對(duì)于固有不確定性,我們提出了一種基于牽引力分布左尾條件在險(xiǎn)價(jià)值(Left-Tail CVaR)的風(fēng)險(xiǎn)感知規(guī)劃器,結(jié)合基于采樣的模型預(yù)測(cè)控制(MPC)方法[18]對(duì)機(jī)器人狀態(tài)進(jìn)行前向模擬;對(duì)于認(rèn)知不確定性,則通過(guò)對(duì)牽引力預(yù)測(cè)器潛在特征密度設(shè)定閾值,識(shí)別并在輔助規(guī)劃代價(jià)中懲罰,以規(guī)避預(yù)測(cè)不可靠的OOD(分布外)地形。

A. 相關(guān)工作

1)可通行性分析(Traversability Analysis):地形是否適合導(dǎo)航可以通過(guò)多種方式進(jìn)行評(píng)估,例如基于本體感測(cè)(proprioceptive)測(cè)量[23][24]、幾何特征[1][2][25],以及幾何與語(yǔ)義特征的結(jié)合[3][4][26](詳見(jiàn)綜述文獻(xiàn)[27])。由于難以基于地形特征手工設(shè)計(jì)規(guī)劃代價(jià),自監(jiān)督學(xué)習(xí)正越來(lái)越多地被用于學(xué)習(xí)與任務(wù)相關(guān)的可通行性表示。例如,Li 等人[28]提出了一種在密集植被下學(xué)習(xí)支撐面的方法,用于腿式機(jī)器人的行走;Gasparino 等人[21]建立了一種地形牽引力模型,用于表示機(jī)器人在執(zhí)行期望速度指令時(shí)的跟蹤能力。然而,這些方法并未考慮由于真實(shí)世界數(shù)據(jù)的噪聲性和稀缺性所帶來(lái)的非確定性(uncertainty),即Aleatoric 不確定性和Epistemic 不確定性。為捕捉 Aleatoric 不確定性,Ewen 等人[10]與 Cai 等人[11]利用高斯混合模型或分類(lèi)分布學(xué)習(xí)了多模態(tài)地形屬性。為捕捉 Epistemic 不確定性,F(xiàn)rey 等人[12]與 Schmid 等人[13]評(píng)估了訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在重構(gòu)過(guò)去 traversed 地形方面的能力,Seo 等人[29]則訓(xùn)練了一個(gè)用于識(shí)別陌生地形的二分類(lèi)器。相比之下,Endo 等人[15]與 Lee 等人[14]使用高斯過(guò)程(Gaussian Process, GP)回歸來(lái)量化 Epistemic 不確定性,但他們假設(shè)噪聲方差在全局是恒定的,即采用同方差(homoscedastic)噪聲模型。Murphy 等人[30]雖然采用了異方差(heteroscedastic)GP,可處理輸入依賴的噪聲,但其預(yù)測(cè)分布在解析上不可求解,因此需依賴近似方法。

與之相對(duì),我們的工作在學(xué)習(xí)牽引力模型的同時(shí),顯式地量化了 Aleatoric 與 Epistemic 不確定性。該模型預(yù)測(cè)的是實(shí)際速度與命令速度之間的比值。雖然我們也像 Gasparino 等人[21]那樣學(xué)習(xí)牽引力模型,但我們的方法是具備不確定性感知能力的,并可用于實(shí)現(xiàn)風(fēng)險(xiǎn)感知的導(dǎo)航(risk-aware navigation)。相比之下,F(xiàn)rey 等人[12]雖在規(guī)劃目標(biāo)中使用了實(shí)際速度與指令速度的差異,但在進(jìn)行狀態(tài)預(yù)測(cè)時(shí)假設(shè)無(wú)打滑(no slip)。而我們的牽引力模型可以用于在最差期望牽引力條件下模擬狀態(tài)演化(state rollouts),實(shí)驗(yàn)結(jié)果表明,這一策略在性能上優(yōu)于那些假設(shè)名義牽引力的傳統(tǒng)方法。

2)不確定性量化與 OOD 檢測(cè)(Uncertainty Quantification and OOD Detection):不確定性量化在機(jī)器學(xué)習(xí)領(lǐng)域已有廣泛研究(詳見(jiàn)綜述文獻(xiàn)[31]),其中包括一些有效技術(shù),如 Bayesian Dropout[32]、模型集成(Model Ensembles)[33] 和證據(jù)方法(Evidential Methods)[34]。在越野導(dǎo)航的相關(guān)研究中,模型集成方法被廣泛采用[35][36][37],因?yàn)樗鼈兺ǔ?yōu)于基于 Bayesian Dropout 的方法[38]。相比之下,證據(jù)方法更適合實(shí)際部署場(chǎng)景,因?yàn)樗鼈儍H需單次網(wǎng)絡(luò)前向計(jì)算,不會(huì)帶來(lái)過(guò)高的計(jì)算或內(nèi)存開(kāi)銷(xiāo)。因此,我們采用了 Charpentier 等人[16]提出的證據(jù)方法,通過(guò)神經(jīng)網(wǎng)絡(luò)輸出直接參數(shù)化目標(biāo)分布的共軛先驗(yàn)分布,從而同時(shí)量化 Aleatoric 和 Epistemic 不確定性。此外,我們提出了一種基于 Hou 等人[19]提出的平方形式的地球移動(dòng)距離(Squared Earth Mover’s Distance, EMD)的不確定性感知損失函數(shù),能夠更好地捕捉離散牽引力值之間的關(guān)系,從而提升牽引力預(yù)測(cè)的精度,進(jìn)而提高后續(xù)風(fēng)險(xiǎn)感知規(guī)劃器的導(dǎo)航性能。 在部署訓(xùn)練好的牽引力模型時(shí),我們通過(guò)估計(jì)得到的 Epistemic 不確定性顯式識(shí)別 OOD(Out-of-Distribution)地形,這屬于通用 OOD 檢測(cè)問(wèn)題的一種實(shí)例(綜述見(jiàn)[39])。例如,Seo 等人[40]采用的基于重構(gòu)的方法,以及 Ancha 等人[41]采用的基于密度的方法,均在越野導(dǎo)航中展示了識(shí)別危險(xiǎn)地形的良好效果。與 Ancha 等人[41]類(lèi)似,我們的方法是一種基于密度的方式,通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)分布下的標(biāo)準(zhǔn)化概率密度顯式建模。作為替代,Liu 等人[42]與 Grathwohl 等人[43]提出的基于能量的方法(Energy-based Approaches)無(wú)需顯式密度歸一化,類(lèi)似的思想也被 Castaneda 等人[44]用于避免進(jìn)入 OOD 狀態(tài)。不同于只關(guān)注 OOD 檢測(cè)與規(guī)避的方法,本研究同時(shí)量化并緩解 Aleatoric 與 Epistemic 不確定性帶來(lái)的風(fēng)險(xiǎn)。雖然在測(cè)試階段應(yīng)盡量規(guī)避高 Epistemic 不確定性的 OOD 地形,但分布內(nèi)的地形(in-distribution terrain)仍可能由于復(fù)雜的車(chē)-地交互導(dǎo)致預(yù)測(cè)牽引力具有較高的 Aleatoric 不確定性。因此,需要獨(dú)立處理由 Aleatoric 不確定性引起的風(fēng)險(xiǎn),使機(jī)器人能夠在低牽引力風(fēng)險(xiǎn)與節(jié)省時(shí)間之間進(jìn)行權(quán)衡,以提升整體導(dǎo)航性能。

3)風(fēng)險(xiǎn)感知規(guī)劃(Risk-Aware Planning):在地形通行性存在不確定性的情況下,通行風(fēng)險(xiǎn)可通過(guò)代價(jià)地圖(costmaps)來(lái)表示。例如,F(xiàn)an 等人[45]和 Triest 等人[35]使用代價(jià)地圖,其中引入條件風(fēng)險(xiǎn)值(Conditional Value at Risk, CVaR)來(lái)衡量遇到最壞情形期望失敗的代價(jià)。CVaR 滿足一組對(duì)理性風(fēng)險(xiǎn)評(píng)估非常關(guān)鍵的公理?xiàng)l件[46]。除代價(jià)地圖外,導(dǎo)航性能也可以基于期望未來(lái)狀態(tài)(Gibson 等人[47])或期望牽引力值(Gasparino 等人[21])來(lái)評(píng)估。然而,這些方法依賴于名義系統(tǒng)行為或期望系統(tǒng)行為,在車(chē)輛與地形之間存在顯著噪聲(即 Aleatoric 不確定性較高)時(shí),往往難以準(zhǔn)確反映真實(shí)性能。作為替代方案,Wang 等人[22]提出直接優(yōu)化規(guī)劃目標(biāo)的 CVaR,其方法是通過(guò)對(duì)不確定參數(shù)采樣,并在每條控制序列上進(jìn)行評(píng)估來(lái)估計(jì) CVaR,但這種方法計(jì)算開(kāi)銷(xiāo)很大。與我們的方法類(lèi)似,Lee 等人[36]近期的工作使用概率集成方法(probabilistic ensembles)[48]同時(shí)量化 Aleatoric 和 Epistemic 不確定性,并通過(guò)對(duì)這兩類(lèi)不確定性加權(quán)懲罰,實(shí)現(xiàn)風(fēng)險(xiǎn)感知的軌跡規(guī)劃。但他們的方法仍依賴于期望系統(tǒng)行為。

與其類(lèi)似,我們也通過(guò)輔助懲罰項(xiàng)來(lái)處理 Epistemic 不確定性,但在處理 Aleatoric 不確定性時(shí),我們采用最壞情況下的期望系統(tǒng)參數(shù)進(jìn)行前向仿真,以評(píng)估風(fēng)險(xiǎn)。這種方式相比 Wang 等人[22]提出的采樣方法在計(jì)算上更加高效;相比 Lee 等人[36]與 Gasparino 等人[21]基于期望系統(tǒng)行為的方法,我們的方法在面對(duì)現(xiàn)實(shí)中存在多模態(tài)地形屬性時(shí)表現(xiàn)出更強(qiáng)的魯棒性。

B. 本文貢獻(xiàn)

我們提出了 EVORA:一個(gè)面向越野導(dǎo)航的完整流程,將不確定性感知的可通行性學(xué)習(xí)問(wèn)題與風(fēng)險(xiǎn)感知的運(yùn)動(dòng)規(guī)劃問(wèn)題緊密集成。我們顯式地量化了兩類(lèi)不確定性:Epistemic 不確定性:用于識(shí)別在陌生地形下?tīng)恳︻A(yù)測(cè)不可靠的情形;Aleatoric 不確定性:用于支持下游規(guī)劃器緩解由噪聲牽引力估計(jì)引起的風(fēng)險(xiǎn)。本文的主要貢獻(xiàn)如下:

1)一個(gè)基于牽引力分布的概率可通行性模型,用于建模 Aleatoric 不確定性,并通過(guò)預(yù)測(cè)器潛特征的密度來(lái)識(shí)別預(yù)測(cè)結(jié)果是否可靠(從而量化 Epistemic 不確定性)。

2)提出一種新穎的、不確定性感知損失函數(shù):基于平方形式的 EMD 損失(EMD2 loss,[19])并由本文推導(dǎo)出封閉形式表達(dá)。與不確定性感知交叉熵?fù)p失(Uncertainty-aware Cross Entropy, UCE,[16])聯(lián)合使用時(shí),該損失可提高牽引力預(yù)測(cè)精度、OOD 檢測(cè)性能,以及下游導(dǎo)航性能。

3)設(shè)計(jì)一個(gè)基于牽引力 CVaR 的風(fēng)險(xiǎn)感知規(guī)劃器,用于處理 Aleatoric 不確定性。實(shí)驗(yàn)表明,該規(guī)劃器優(yōu)于僅假設(shè)名義牽引力[11]或期望牽引力[21]的方案,并在仿真與真實(shí)硬件測(cè)試中,性能超過(guò)或可與優(yōu)化代價(jià) CVaR 方法[22]相媲美。

4)對(duì)上述風(fēng)險(xiǎn)感知規(guī)劃器進(jìn)行擴(kuò)展,使其能夠處理 Epistemic 不確定性,即通過(guò)規(guī)避 OOD 地形來(lái)提高仿真中的導(dǎo)航成功率,并在硬件實(shí)驗(yàn)中減少人工干預(yù)次數(shù)。

本工作的初步會(huì)議版本發(fā)表于文獻(xiàn)[49],當(dāng)時(shí)提出了學(xué)習(xí)牽引力分布并使用牽引力 CVaR 進(jìn)行規(guī)劃的方法。而本篇擴(kuò)展工作在以下方面進(jìn)行了改進(jìn):采用文獻(xiàn)[16]提出的證據(jù)學(xué)習(xí)方法(Evidential Learning)進(jìn)行模型訓(xùn)練;基于文獻(xiàn)[19]推導(dǎo)新的 不確定性感知的 EMD2 損失函數(shù),顯著提升了學(xué)習(xí)效果。這些新方法不僅提升了牽引力預(yù)測(cè)精度與 OOD 檢測(cè)性能,還帶來(lái)了更快的導(dǎo)航速度。通過(guò)增加大量硬件實(shí)驗(yàn),本文進(jìn)一步驗(yàn)證了會(huì)議版本[49]中所提出的風(fēng)險(xiǎn)感知規(guī)劃器相比當(dāng)前最先進(jìn)方法[11][21][22]的性能提升。


Ⅱ 問(wèn)題概述


我們考慮的問(wèn)題是:在地形牽引力影響下,地面機(jī)器人如何實(shí)現(xiàn)快速導(dǎo)航至目標(biāo)點(diǎn)。由于牽引力值具有不確定性,我們?cè)诘?span> II-A 節(jié)中引入了以牽引力為隨機(jī)變量的動(dòng)力學(xué)模型;在第 II-B 節(jié)中引入了以到達(dá)目標(biāo)所需時(shí)間為指標(biāo)的規(guī)劃目標(biāo)函數(shù);并在第 II-C 節(jié)中討論了最小化該時(shí)間目標(biāo)所面臨的挑戰(zhàn)。

A. 含牽引力參數(shù)的動(dòng)力學(xué)模型

考慮以下離散時(shí)間系統(tǒng):

圖片

其中::機(jī)器人狀態(tài)向量(如位置與朝向);:控制輸入(例如線速度與角速度);:用于描述地形牽引力的參數(shù)向量。我們考慮兩種可近似多類(lèi)機(jī)器人動(dòng)力學(xué)行為的模型,如圖 3 所示。

圖片

圖 3.可以用獨(dú)輪車(chē)或自行車(chē)建模的地面機(jī)器人示例動(dòng)力學(xué)模型。(a) 遙控車(chē)。(b) 差動(dòng)驅(qū)動(dòng)機(jī)器人。(c) 腿式機(jī)器人。 

1)單輪車(chē)模型(Unicycle Model) 

適用于差速驅(qū)動(dòng)機(jī)器人與腿式機(jī)器人,定義如下:

圖片

其中::位置和航向角;

:命令的線速度和角速度;

:線向與角向的牽引系數(shù)(范圍);

:時(shí)間步長(zhǎng)。

直觀理解:牽引力表示滑移程度,即實(shí)際速度與命令速度的比值。

2)自行車(chē)模型(Bicycle Model) 適用于阿克曼轉(zhuǎn)向機(jī)器人,定義如下:

圖片

其中::車(chē)輪軸距;

:命令的線速度和轉(zhuǎn)向角;

:含義同上,用于建模不同方向的牽引比例;

參考點(diǎn):為后輪軸中點(diǎn)。

B. 規(guī)劃目標(biāo)

我們采用文獻(xiàn) [11] 中提出的最短時(shí)間目標(biāo)函數(shù)(minimum-time objective),當(dāng)然也可以采用其他形式的“到達(dá)目標(biāo)”類(lèi)目標(biāo)函數(shù)。直觀地說(shuō),該目標(biāo)函數(shù)在系統(tǒng)狀態(tài)尚未進(jìn)入目標(biāo)區(qū)域之前,通過(guò)累加時(shí)間步來(lái)施加階段代價(jià)(stage cost)。如果狀態(tài)軌跡從未到達(dá)目標(biāo)區(qū)域,則還會(huì)施加一個(gè)終端代價(jià)(terminal cost),以懲罰估計(jì)的剩余時(shí)間。

設(shè)有函數(shù) 用于計(jì)算當(dāng)前狀態(tài) 與目標(biāo)之間的歐氏距離,則從時(shí)間  到  的狀態(tài)軌跡  上的最短時(shí)間目標(biāo)函數(shù)定義為:

圖片

即總代價(jià)由終端代價(jià)和階段代價(jià)兩部分組成。

終端代價(jià)和階段代價(jià)定義為:

圖片

其中::用于估計(jì)剩余時(shí)間的默認(rèn)速度;

:固定的時(shí)間間隔;

:指示函數(shù),若軌跡  中存在某個(gè)狀態(tài)已到達(dá)目標(biāo)區(qū)域,則取值為 1,否則為 0。

我們使用該指示函數(shù)來(lái)避免在到達(dá)目標(biāo)后繼續(xù)累計(jì)代價(jià)。盡管時(shí)間間隔 是固定的,但實(shí)際達(dá)到目標(biāo)所需的步數(shù)取決于機(jī)器人在不同地形條件下的實(shí)際速度。從直覺(jué)上來(lái)看,該目標(biāo)函數(shù)的設(shè)計(jì)旨在鼓勵(lì)機(jī)器人盡可能快地到達(dá)目標(biāo)區(qū)域。

C. 關(guān)鍵挑戰(zhàn)

雖然目標(biāo)函數(shù)(公式(4))可以通過(guò)非線性優(yōu)化方法(如 模型預(yù)測(cè)路徑積分控制(Model Predictive Path Integral, MPPI),參見(jiàn)文獻(xiàn) [18] 中的算法 2)來(lái)尋找最優(yōu)控制序列以實(shí)現(xiàn)優(yōu)化,但地形牽引力在不同地形類(lèi)型之間存在變化,因此必須從真實(shí)環(huán)境中進(jìn)行學(xué)習(xí)。然而,現(xiàn)實(shí)世界中的地形牽引力存在不確定性:一方面,即使是外觀和幾何特征相似的地形,其牽引力性質(zhì)也可能差異顯著,屬于Aleatoric 不確定性;另一方面,牽引力模型的訓(xùn)練只能依賴于有限的數(shù)據(jù)集,這會(huì)導(dǎo)致Epistemic 不確定性。即使我們能夠?qū)Φ匦螤恳Φ牟淮_定性進(jìn)行準(zhǔn)確建模,如何設(shè)計(jì)一個(gè)在該不確定性下仍能降低失敗風(fēng)險(xiǎn)的風(fēng)險(xiǎn)感知規(guī)劃器仍然是一個(gè)重大挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),我們?cè)诘?III 節(jié)和第 IV 節(jié)分別提出了不確定性感知的可通行性模型與風(fēng)險(xiǎn)感知的規(guī)劃器。


Ⅲ 不確定性感知的可通行性建模


在本節(jié)中,我們首先介紹一個(gè)用于建模Aleatoric 不確定性的牽引力分布預(yù)測(cè)器(traction distribution predictor),以及一個(gè)用于建模Epistemic 不確定性的潛空間密度估計(jì)器(latent space density estimator)。整套可通行性分析流程如圖 4 所示。隨后,我們?cè)跔恳W(xué)習(xí)的背景下回顧文獻(xiàn) [16] 提出的證據(jù)學(xué)習(xí)方法(evidential method),并進(jìn)一步提出一種新的不確定性感知損失函數(shù),以提升學(xué)習(xí)性能。

圖片

圖 4.提出的可遍歷性管道將海拔和語(yǔ)義特征映射到捕獲隨機(jī)不確定性的牽引分布,以及捕獲認(rèn)識(shí)不確定性的潛在特征的密度。如果潛在要素的密度低于閾值,則 Terrain 區(qū)域被視為 OOD,稍后在規(guī)劃期間會(huì)避免使用。當(dāng)潛在特征的密度高于閾值時(shí),預(yù)測(cè)的牽引力分布是可靠的,并通知下游風(fēng)險(xiǎn)感知規(guī)劃者(第 IV 節(jié))在固定風(fēng)險(xiǎn)與牽引不確定的穿越區(qū)域所節(jié)省的時(shí)間之間進(jìn)行權(quán)衡。

A. Aleatoric 不確定性:牽引力分布建模

設(shè):為一個(gè)包含  個(gè)離散牽引力取值的集合(這些取值表示實(shí)際速度與指令速度的比值); 為地形特征的集合,其中包含高程值以及地形語(yǔ)義標(biāo)簽的 one-hot 向量表示。我們的目標(biāo)是:在輸入地形特征向量的條件下,對(duì)牽引力空間 建模其分布:

圖片

我們用 表示定義在  上的分類(lèi)分布(categorical distribution),該分布反映了由于環(huán)境因素導(dǎo)致的Aleatoric 不確定性(即影響牽引力但在特征 中無(wú)法顯式表達(dá)的因素)。需要注意的是,公式(7)中的分布可以通過(guò)一個(gè)由參數(shù)  控制的神經(jīng)網(wǎng)絡(luò)(NN)來(lái)建模,并通過(guò)經(jīng)驗(yàn)數(shù)據(jù)集進(jìn)行訓(xùn)練。該數(shù)據(jù)集形式為:雖然我們沒(méi)有顯式建模地形特征本身的不確定性(例如:高程估計(jì)噪聲、因外觀相似導(dǎo)致的語(yǔ)義標(biāo)簽誤判)或其他因素(如低層速度控制器的設(shè)計(jì)),但這些未建模因素將反映在實(shí)際采集的數(shù)據(jù)中,并能通過(guò)訓(xùn)練牽引力分布間接體現(xiàn)。

我們采用分類(lèi)分布(categorical distributions)來(lái)作為高斯混合模型(Gaussian Mixture Models, GMMs)和正態(tài)化流(normalizing flows,[17])的可行替代,用于學(xué)習(xí)實(shí)際中出現(xiàn)的多模態(tài)牽引力分布,原因如下:分類(lèi)分布無(wú)需手動(dòng)調(diào)節(jié)簇?cái)?shù)量;天生構(gòu)造出有界分布(bounded distributions);根據(jù)我們的經(jīng)驗(yàn),其收斂速度快于 normalizing flows,且在精度上可達(dá)到相近水平。由于我們僅需對(duì) 一維的線向與角向牽引力值進(jìn)行離散化,因而避免了在高維空間中離散化導(dǎo)致的指數(shù)級(jí)增長(zhǎng)的問(wèn)題。因此,采用有限數(shù)量的離散 bin 的分類(lèi)分布就足以滿足任務(wù)需求。

圖片

圖 5. 數(shù)據(jù)采集與離線數(shù)據(jù)集生成流程。(a) 使用 Clearpath Husky 機(jī)器人進(jìn)行真實(shí)環(huán)境數(shù)據(jù)采集的示意圖。機(jī)器人在人工駕駛下行駛約 10 分鐘,同時(shí)記錄其路徑軌跡、牽引力值,并構(gòu)建環(huán)境的語(yǔ)義地圖與高程圖。牽引力值以 20 Hz 頻率記錄。圖中為清晰起見(jiàn)僅展示了部分牽引力數(shù)據(jù),其中牽引力值出現(xiàn)不連續(xù)的位置對(duì)應(yīng)于未發(fā)送線速度或角速度命令的時(shí)刻。(b) 離線數(shù)據(jù)集生成階段,牽引力值被離散化后,按遍歷路徑中的地圖單元格累計(jì)為直方圖形式存儲(chǔ)。牽引力預(yù)測(cè)器的輸入由語(yǔ)義 patch 和高程 patch 組成。地形類(lèi)別示例包括:植被(淺綠色)、草地(深綠色)、裸土(淺棕色)、覆蓋物/腐殖層(深棕色)。預(yù)測(cè)牽引力分布與經(jīng)驗(yàn)牽引力分布用于計(jì)算訓(xùn)練損失,而生成經(jīng)驗(yàn)牽引力分布所用的測(cè)量計(jì)數(shù)可用于對(duì)訓(xùn)練損失加權(quán),從而降低對(duì)少見(jiàn)地形區(qū)域的過(guò)擬合風(fēng)險(xiǎn)。(a) 數(shù)據(jù)采集流程。(b) 離線數(shù)據(jù)集生成流程。

圖 5 展示了真實(shí)數(shù)據(jù)采集與離線數(shù)據(jù)集生成的示例。環(huán)境的語(yǔ)義與幾何信息可以通過(guò) 語(yǔ)義 OctoMap(semantic octomap,[50])構(gòu)建,該方法通過(guò)時(shí)間融合語(yǔ)義點(diǎn)云來(lái)獲得三維結(jié)構(gòu)。我們使用 PointRend[51] 對(duì) RGB 圖像進(jìn)行分割,該網(wǎng)絡(luò)在 RUGD 越野導(dǎo)航數(shù)據(jù)集[52] 上進(jìn)行過(guò)訓(xùn)練,支持 24 個(gè)語(yǔ)義類(lèi)別。分割結(jié)果隨后會(huì)被投影到激光雷達(dá)點(diǎn)云上,從而將語(yǔ)義信息轉(zhuǎn)移到空間地圖。在離線數(shù)據(jù)集生成階段,我們通過(guò)將牽引力值離散后累計(jì)為直方圖的方式,得到經(jīng)驗(yàn)性線向與角向牽引力分布。這些直方圖分別存儲(chǔ)在機(jī)器人遍歷過(guò)的每一個(gè)地形單元格中。同時(shí),我們也存儲(chǔ)每個(gè)單元格內(nèi)的測(cè)量次數(shù),以便在訓(xùn)練過(guò)程中按照這些計(jì)數(shù)對(duì)損失函數(shù)加權(quán),從而降低在稀疏地形上因樣本稀少導(dǎo)致的不穩(wěn)定學(xué)習(xí)影響。在實(shí)際操作中,我們分別學(xué)習(xí)線向與角向牽引力分布。神經(jīng)網(wǎng)絡(luò)的架構(gòu)如下:一個(gè)共享編碼器(shared encoder),包括卷積層(CNN)和后續(xù)的全連接層,用于同時(shí)處理地形的語(yǔ)義與高程 patch;編碼器之后接兩個(gè)獨(dú)立的全連接解碼器頭部(decoder heads),分別用于預(yù)測(cè)線向與角向牽引力分布,每個(gè)輸出采用 softmax 激活函數(shù)。

B. Epistemic 不確定性:潛空間密度建模

由于訓(xùn)練數(shù)據(jù)有限,牽引力分布預(yù)測(cè)器在遇到新穎地形區(qū)域時(shí)的輸出可能不可靠,從而導(dǎo)致該區(qū)域的導(dǎo)航性能下降。為了度量這種 Epistemic 不確定性,我們希望估計(jì)牽引力預(yù)測(cè)器中某個(gè)中間層提取出的潛特征 的密度,該特征是基于地形輸入特征 得到的。密度估計(jì)器定義如下:

圖片

我們使用一個(gè)由參數(shù)  控制的正態(tài)化流模型(normalizing flow)來(lái)學(xué)習(xí)上述密度函數(shù)。從整體上看,正態(tài)化流的原理是:通過(guò)一系列可逆且可微的映射函數(shù),將目標(biāo)分布(如潛空間分布)變換為一個(gè)簡(jiǎn)單的基礎(chǔ)分布(base distribution),例如標(biāo)準(zhǔn)正態(tài)分布。然后,使用變量變換公式(change of variable formula,[17]),可以計(jì)算任意樣本的密度:其密度為:變換后樣本在基礎(chǔ)分布上的密度值;變換函數(shù)的Jacobian 行列式的絕對(duì)值(即體積變化因子)的乘積。在選擇潛空間特征時(shí),必須確保該特征包含與任務(wù)相關(guān)的信息。為此,我們使用由共享地形特征編碼器(shared terrain feature encoder)產(chǎn)生的潛特征,因?yàn)樵摼幋a器同時(shí)用于預(yù)測(cè)線向與角向牽引力分布,其表示能力足夠強(qiáng)。 

為了更直觀地使用密度作為不確定性指標(biāo),我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的置信度函數(shù) ,用于衡量輸入特征  的置信程度。該函數(shù)基于訓(xùn)練集內(nèi)所有地形樣本的潛空間密度分布中觀察到的:最大密度 ;最小密度。該置信度可用于規(guī)劃中區(qū)分訓(xùn)練內(nèi)分布(in-distribution)與 OOD 地形(out-of-distribution terrain)。

圖片

在部署階段,若某地形特征的置信度得分低于某個(gè)設(shè)定的門(mén)限 ,則認(rèn)為該地形為 OOD(Out-of-Distribution)。此類(lèi)具有 OOD 特征的地形區(qū)域可以在路徑規(guī)劃中通過(guò)輔助懲罰項(xiàng)(auxiliary penalties)顯式規(guī)避。一個(gè)較為系統(tǒng)的設(shè)定方式是:將 設(shè)為訓(xùn)練集中所有地形特征的潛特征密度的第  分位數(shù)(percentile),即:;較高的值意味著測(cè)試時(shí)更多地形將被歸為 OOD。由于在公式(9)中使用了歸一化操作,選擇和 分別對(duì)應(yīng)訓(xùn)練集中密度的第 0 百分位(最小值)與第 100 百分位(最大值),這為門(mén)限選擇提供了便利。值得注意的是,這個(gè)門(mén)限可以離線選定,例如若希望機(jī)器人僅規(guī)避密度低于訓(xùn)練集最小值的區(qū)域,可以簡(jiǎn)單地設(shè)置。這種策略在部署牽引力預(yù)測(cè)模型于訓(xùn)練外場(chǎng)景時(shí)(即未見(jiàn)過(guò)的新地形),能夠顯著提高導(dǎo)航成功率。這一效果在仿真實(shí)驗(yàn)(見(jiàn)第 VIII 節(jié))與真實(shí)硬件實(shí)驗(yàn)(見(jiàn)第 IX-B 節(jié))中均得到了驗(yàn)證。

C. 證據(jù)深度學(xué)習(xí)

盡管牽引力預(yù)測(cè)器與密度估計(jì)器可以采用順序訓(xùn)練(sequential training)方式分別訓(xùn)練,但 Charpentier 等人 [16] 證明了:基于證據(jù)深度學(xué)習(xí)(evidential deep learning)的聯(lián)合訓(xùn)練能夠在保持預(yù)測(cè)精度的同時(shí),顯著提升 OOD 檢測(cè)性能。本節(jié)中,我們回顧文獻(xiàn) [16] 提出的訓(xùn)練方法與損失函數(shù)。在該方法中,神經(jīng)網(wǎng)絡(luò)的輸出參數(shù)化了一個(gè) Dirichlet 分布,該分布是分類(lèi)分布(categorical distributions)的共軛先驗(yàn)。

設(shè)  表示一個(gè) Dirichlet 分布,其濃度參數(shù)為:,這是定義在 個(gè) bin 上的一個(gè)層級(jí)概率分布,其中下層的分類(lèi)分布  的參數(shù)  滿足:即 p 是一個(gè)歸一化的概率質(zhì)量函數(shù)(PMF),它由上層的 Dirichlet 分布生成:Dirichlet 分布的期望(即期望 PMF)為:該期望 PMF 表征了 Aleatoric 不確定性。Dirichlet 分布參數(shù)的總和:表示分布相對(duì)于其期望的集中程度(concentration),也稱為總證據(jù)量(total evidence)。證據(jù)越高,表示 Epistemic 不確定性越低,因?yàn)樵摌颖驹谟?xùn)練集中觀察得更多。給定一個(gè)先驗(yàn) Dirichlet 分布 ,神經(jīng)網(wǎng)絡(luò)會(huì)基于輸入特征  執(zhí)行一次輸入相關(guān)的后驗(yàn)更新,從而學(xué)習(xí)出對(duì)該輸入的置信表達(dá)。

圖片

后驗(yàn) Dirichlet 分布 同時(shí)依賴于:由牽引力預(yù)測(cè)器 (見(jiàn)公式(7))預(yù)測(cè)的牽引力分布;與潛特征密度 (見(jiàn)公式(8))成比例的預(yù)測(cè)“證據(jù)” ;一個(gè)預(yù)設(shè)的置信預(yù)算常數(shù) 。由此可得,后驗(yàn) Dirichlet 分布對(duì)應(yīng)的期望牽引力 PMF 為:

圖片

其中::先驗(yàn) Dirichlet 分布的總濃度;先驗(yàn)分布的期望 PMF。我們采用平坦先驗(yàn)(flat prior),令: 其中 為全 1 向量,從而得到一個(gè)在所有可能 PMF 上均勻的 Dirichlet 分布?;谖墨I(xiàn) [16] 的該建??蚣埽篁?yàn) Dirichlet 分布 及其期望牽引力分布 都依賴于牽引力預(yù)測(cè)器、潛密度估計(jì)器與輸入地形特征。為了簡(jiǎn)化符號(hào),下面對(duì)損失函數(shù)的分析中將統(tǒng)一使用一般形式的 Dirichlet 分布  與 。但在實(shí)際訓(xùn)練中,應(yīng)將它們替換為上述的(后驗(yàn)形式)公式(10)、(11)、(12)。 

給定一個(gè)目標(biāo)概率質(zhì)量函數(shù)(PMF)向量 ,其表示通過(guò)經(jīng)驗(yàn)數(shù)據(jù)估計(jì)得到的牽引力分布,我們可以將牽引力預(yù)測(cè)器和 normalizing flow 模型聯(lián)合訓(xùn)練,使用以下的 UCE(Uncertainty-aware Cross Entropy)損失函數(shù) [16]:

圖片

其中:?是期望交叉熵?fù)p失(expected CE loss),而  是一個(gè)用于鼓勵(lì)分布平滑性的熵正則項(xiàng)。需要注意的是, 和  都依賴于 Dirichlet 分布的參數(shù) (詳見(jiàn)附錄 A)。 文獻(xiàn) [16] 中的消融研究表明,使用上述損失(公式 (13))進(jìn)行訓(xùn)練,在保持傳統(tǒng)交叉熵?fù)p失精度的同時(shí),能夠有效提升 OOD 檢測(cè)性能。然而,CE 類(lèi)損失函數(shù)在本研究中的一個(gè)關(guān)鍵缺陷在于:它將所有 bin 之間的預(yù)測(cè)誤差視為相互獨(dú)立。這種“獨(dú)立性假設(shè)”在牽引力建模場(chǎng)景中并不合理,因?yàn)椋核?bin 是通過(guò)對(duì)連續(xù)牽引力值進(jìn)行離散化獲得的;這些 bin 是有序的——即,距離較近的 bin 在語(yǔ)義上應(yīng)當(dāng)比距離較遠(yuǎn)的 bin 更為相似。為了解決這個(gè)問(wèn)題,我們提出了一種新的損失函數(shù),基于平方地球移動(dòng)距離(squared Earth Mover’s Distance, EMD2) [19]。已有研究表明,在 bin 有序的情形下,該損失相比基于交叉熵的損失可獲得更好的預(yù)測(cè)精度。

D. 不確定性感知的平方地球移動(dòng)距離

直觀上,EMD(Earth Mover's Distance) 衡量的是:將一個(gè)分布的概率質(zhì)量轉(zhuǎn)換為另一個(gè)分布所需的最小“運(yùn)輸代價(jià)”。對(duì)于兩個(gè)具有相同數(shù)量 bins 的分類(lèi)分布(categorical distributions),EMD 可以計(jì)算為封閉形式解 [19]。給定一個(gè)預(yù)測(cè)的概率質(zhì)量函數(shù)(PMF)  與目標(biāo) ,在 bin 等間距的前提下,基于 ?-范數(shù)的歸一化 EMD 可寫(xiě)為:

圖片

其中:表示累加求和(cumulative sum)操作;實(shí)際訓(xùn)練中,我們令,即使用歐氏距離(Euclidean distance);并優(yōu)化其平方形式損失函數(shù),記作 EMD2,省略了乘法常數(shù)項(xiàng)。圖 6 中的示例清楚地表明:與忽略 bin 間關(guān)系的交叉熵(CE)相比,EMD2 能更好地表達(dá)預(yù)測(cè) PMF 的物理含義。

圖片

圖6. EMD2和CE之間的差異。給定真實(shí)值(GT)和預(yù)測(cè)值,CE產(chǎn)生相同的值,而EMD2對(duì)的懲罰更大。實(shí)際上,EMD2更為理想,因?yàn)樗紤]了離散化的牽引值之間的跨區(qū)間關(guān)系。

由于 EMD2 僅定義在 PMF 上,一個(gè)樸素但有效的策略是:將目標(biāo)分布  與 Dirichlet 分布 的期望 PMF 進(jìn)行比較。從而定義如下?lián)p失函數(shù)(忽略常數(shù)乘子):

圖片

其中:?是 Dirichlet 的期望 PMF;? 是總證據(jù)量(total evidence);定義為:

圖片

由于累計(jì)和操作具有線性性質(zhì),因此:因此,是與總證據(jù)量 無(wú)關(guān)的,這意味著它對(duì) Epistemic 不確定性(由證據(jù)控制)的學(xué)習(xí)并不敏感,如圖 7 中的示例所示,因此無(wú)法有效學(xué)習(xí) Epistemic 不確定性。

圖片

圖 7. 在一個(gè)包含三個(gè)分箱、 的簡(jiǎn)單示例中,分析標(biāo)準(zhǔn) EMD2 損失與我們提出的 UEMD2 損失之間的差異。每個(gè)藍(lán)色三角形表示預(yù)測(cè)的狄利克雷分布 ,可視化為 3-單純形上的概率密度;單純形內(nèi)的每個(gè)點(diǎn)對(duì)應(yīng)三個(gè)分箱上的分類(lèi)分布。紅色十字 + 表示目標(biāo)標(biāo)簽分布  在訓(xùn)練集中的位置。狄利克雷分布可以通過(guò)兩個(gè)量進(jìn)行參數(shù)化:其均值的位置及其在均值附近的集中度。左圖:在保持狄利克雷分布集中度不變的情況下,改變其位置。在這種情況下,兩種損失的行為相似且符合預(yù)期——它們促使預(yù)測(cè)的狄利克雷分布接近目標(biāo)標(biāo)簽分布。右圖:在保持狄利克雷分布集中度不變的情況下,改變其在類(lèi)集 (GT) 上的位置。由于 EMD2 僅取決于狄利克雷均值的位置,因此它相對(duì)于變化的集中度而言是恒定的。然而,我們提出的 UEMD2 鼓勵(lì)預(yù)測(cè)的狄利克雷函數(shù)具有較高的集中度(低認(rèn)知不確定性)。學(xué)習(xí)預(yù)測(cè)分布內(nèi)訓(xùn)練樣本的低認(rèn)知不確定性對(duì)于校準(zhǔn)不確定性預(yù)測(cè)和檢測(cè) OOD 樣本至關(guān)重要,而不是對(duì)集中度漠不關(guān)心。

 類(lèi)似于文獻(xiàn) [16] 中基于 的交叉熵期望損失定義方式,我們提出了不確定性感知平方地球移動(dòng)距離(UEMD2)損失,將其定義為預(yù)測(cè)的 Dirichlet 分布  下的 EMD2 期望:

圖片

我們提出的 UEMD2 損失具有封閉形式,如下定理所示:

定理 1:令 為一個(gè) Dirichlet 分布,為一個(gè)分類(lèi)目標(biāo)分布,則其期望  損失函數(shù)具有如下閉式表達(dá):

圖片

其中:? 定義見(jiàn)公式(16)。

證明:見(jiàn)附錄B。

由于與公式(15)中的 在結(jié)構(gòu)上的相似性,式(18)同樣懲罰預(yù)測(cè) PMF 的 EMD2 誤差,從而提升牽引力預(yù)測(cè)精度。此外,式(18)還包含了對(duì) Dirichlet 總證據(jù)量 的反向懲罰項(xiàng),從而有效鼓勵(lì)模型輸出集中度高(低 Epistemic 不確定性)的預(yù)測(cè),如圖 7 所示。事實(shí)上,可以證明(利用 Jensen 不等式與 的凸性):雖然 UEMD2 損失可單獨(dú)用作損失函數(shù),但其平方項(xiàng)特性有時(shí)會(huì)導(dǎo)致訓(xùn)練停在非期望的局部最優(yōu) [19]。為此,我們參考文獻(xiàn) [19],引入一個(gè)聯(lián)合損失函數(shù),融合了 CE 和 EMD2 的優(yōu)勢(shì),定義如下多目標(biāo)優(yōu)化目標(biāo):

圖片

其中::Dirichlet 分布的熵,鼓勵(lì)分布光滑;:超參數(shù),用于調(diào)節(jié)各項(xiàng)損失的重要性。在實(shí)踐中,我們對(duì)預(yù)測(cè)的線向與角向牽引力分布分別計(jì)算公式(19)中的總損失,然后進(jìn)行平均。如第五節(jié)第 C 小節(jié)(Section V-C)中的仿真結(jié)果所示,該多目標(biāo)損失函數(shù)(19)相比單一損失,訓(xùn)練更穩(wěn)定,且在測(cè)試階段具有更好的泛化能力。


Ⅳ 基于學(xué)習(xí)牽引力分布的風(fēng)險(xiǎn)感知規(guī)劃


盡管應(yīng)規(guī)避那些可能導(dǎo)致 高 Epistemic 不確定性 的 OOD 地形,但在分布內(nèi)(in-distribution)的地形上,由于復(fù)雜的車(chē)-地相互作用,仍可能引發(fā) 高 Aleatoric 不確定性,從而造成牽引力不穩(wěn)定。因此,我們提出了一種風(fēng)險(xiǎn)感知的規(guī)劃器(risk-aware planner),能夠權(quán)衡以下兩者之間的關(guān)系:失去動(dòng)力(immobilization)的風(fēng)險(xiǎn);在高不確定性地形上通行所帶來(lái)的時(shí)間節(jié)約潛力。

A. 條件風(fēng)險(xiǎn)值

我們采用 CVaR(Conditional Value at Risk) 作為風(fēng)險(xiǎn)指標(biāo),因?yàn)樗鼭M足一組用于理性風(fēng)險(xiǎn)評(píng)估的重要公理 [46]。傳統(tǒng) CVaR 定義假設(shè)風(fēng)險(xiǎn)位于分布右尾(right tail),而我們對(duì)隨機(jī)變量 ZZ 在給定風(fēng)險(xiǎn)水平 下,分別定義其左右尾的 CVaR(見(jiàn)圖 8)如下:

圖片

圖 8. 本研究定義了兩種條件風(fēng)險(xiǎn)價(jià)值(CVaR)的版本,以捕捉隨機(jī)變量 (  ) 在左尾或右尾的最壞情況期望值,分別為 (  ) 和 ( ),其中最壞情況構(gòu)成了總概率的 ( ) 部分。左尾和右尾的風(fēng)險(xiǎn)價(jià)值(VaR)分別定義為 (  ) 和 (  )。

圖片

其中,左右尾的 VaR(Value at Risk)定義如下:

圖片

從直觀角度理解: 和 分別衡量右尾與左尾區(qū)域的期望結(jié)果;每個(gè)尾部所占概率質(zhì)量均為 ;通常,右尾用于衡量需要最小化的代價(jià)(如時(shí)間、能耗);左尾用于衡量低牽引力情形的風(fēng)險(xiǎn),更適用于越野可通行性問(wèn)題。

當(dāng)  時(shí),左右尾 CVaR 定義均等價(jià)于期望值:

B. 風(fēng)險(xiǎn)感知規(guī)劃

為應(yīng)對(duì)因牽引力不確定性帶來(lái)的風(fēng)險(xiǎn),我們首先介紹文獻(xiàn) [22] 提出的基線方法:該方法優(yōu)化規(guī)劃目標(biāo)函數(shù)的右尾 CVaR(CVaR-Cost)。隨后,我們提出一種計(jì)算效率更高的方法,即基于牽引力左尾 CVaR 的成本設(shè)計(jì)(CVaR-Dyn)。最后,我們分析這兩種方法的優(yōu)缺點(diǎn)。

1)最壞情形期望代價(jià)(CVaR-Cost [22]) 給定初始狀態(tài) ,我們希望找到一個(gè)控制序列 ,使得在地形牽引力不確定的情況下,最小化名義代價(jià)函數(shù) (公式 (4))的右尾 CVaR:

圖片

其中:牽引力是從預(yù)測(cè)的牽引力分布(公式 12)中采樣得到;由于牽引力不確定,變?yōu)橐粋€(gè)隨機(jī)變量,依賴于狀態(tài)軌跡的實(shí)現(xiàn)過(guò)程。該方法受到文獻(xiàn) [22] 的啟發(fā),但我們進(jìn)一步支持與地形特征相關(guān)的牽引力分布建模。

在實(shí)際中,優(yōu)化問(wèn)題(24)可通過(guò) MPPI(Model Predictive Path Integral) 實(shí)現(xiàn),方法是對(duì)每個(gè)控制序列生成  個(gè)牽引力樣本,并估計(jì)其對(duì)應(yīng)的 CVaR 值:為加速訓(xùn)練,可利用 GPU 并行預(yù)生成  張牽引力圖,每張圖中每個(gè)地圖單元格存儲(chǔ)一個(gè)牽引力樣本,從而使每組控制序列可在所有圖上并行評(píng)估。但隨著地圖尺寸增加,計(jì)算開(kāi)銷(xiāo)仍會(huì)迅速膨脹。

2)最壞情形期望牽引力(CVaR-Dyn)

為提高計(jì)算效率,我們提出一種新方法:使用地形牽引力分布的左尾 CVaR來(lái)替代 Monte Carlo 采樣。目標(biāo)是最小化名義代價(jià)函數(shù) C,但軌跡是由最壞情形牽引力決定的:

圖片

當(dāng)  時(shí), 等價(jià)于期望值,即退化為文獻(xiàn) [21] 所采用的方法。

3)優(yōu)點(diǎn)與局限性(Advantages and Limitations)

CVaR-Cost 與 CVaR-Dyn 都建立在“最壞情形”風(fēng)險(xiǎn)的直覺(jué)之上,分別使用:CVaR-Cost:目標(biāo)函數(shù)的 CVaR;CVaR-Dyn:牽引力參數(shù)的 CVaR。它們的優(yōu)勢(shì):所有地形類(lèi)型共享一個(gè)風(fēng)險(xiǎn)參數(shù) ,調(diào)參簡(jiǎn)單;CVaR-Cost 是更一般性的風(fēng)險(xiǎn)處理方法(但計(jì)算復(fù)雜);CVaR-Dyn 計(jì)算效率更高,更適合大規(guī)模地圖。CVaR-Dyn 的局限在于:其直覺(jué)假設(shè)“低牽引力 → 時(shí)間更長(zhǎng)”并非總成立;對(duì)于更復(fù)雜系統(tǒng)和目標(biāo)函數(shù),可能不適用。



Ⅴ 可通行性學(xué)習(xí)管線的評(píng)估

我們提出的 證據(jù)式可通行性學(xué)習(xí)方法(evidential traversability learning method) 在一個(gè)合成地形數(shù)據(jù)集上進(jìn)行評(píng)估(見(jiàn)第 V-A 節(jié))。該數(shù)據(jù)集被設(shè)計(jì)為模擬真實(shí)環(huán)境下數(shù)據(jù)稀缺的情況,提供牽引力的真實(shí)值(GT traction distributions)和 OOD 地形掩碼(OOD terrain masks)。我們比較了多個(gè)損失函數(shù)變體(如公式 (19)),在預(yù)測(cè)精度與 OOD 檢測(cè)性能(見(jiàn)第 V-C 節(jié))上的表現(xiàn)。為突出聯(lián)合訓(xùn)練與 UEMD2 損失(公式 (18))的優(yōu)勢(shì),我們還在第 V-D 節(jié)進(jìn)行了消融實(shí)驗(yàn)。分析完第四節(jié)的規(guī)劃器后,第六節(jié)將介紹系統(tǒng)的組成方式,第七節(jié)展示了我們損失函數(shù)對(duì)導(dǎo)航性能的提升效果。盡管不確定性量化本身并非本文重點(diǎn),我們建議讀者參考文獻(xiàn) [16],其中詳細(xì)探討了本文所用神經(jīng)網(wǎng)絡(luò)架構(gòu)在學(xué)習(xí)精度、OOD 檢測(cè)能力和計(jì)算效率上相較其他先進(jìn)方法的優(yōu)勢(shì)。

A. 合成三維地形數(shù)據(jù)集

我們使用的合成數(shù)據(jù)集包含隨機(jī)生成的 3D 地形,對(duì)應(yīng)的 GT 牽引力分布依據(jù)地形的幾何屬性(如坡度、高程)與語(yǔ)義類(lèi)別(如泥土與植被)生成,具體定義詳見(jiàn)表 I。注意:坡度僅用于生成牽引力 GT,不作為神經(jīng)網(wǎng)絡(luò)的輸入。為簡(jiǎn)化問(wèn)題,線向與角向牽引力使用相同分布;依賴關(guān)系只存在于:泥土類(lèi)型與地形坡度之間;植被類(lèi)型與地形高程之間。盡管可以設(shè)計(jì)更復(fù)雜的牽引力函數(shù),我們提供的數(shù)據(jù)集已足以支撐本文工作。

表 I 用于基準(zhǔn)測(cè)試損失函數(shù)的合成地形數(shù)據(jù)集

圖片

GT(真實(shí))牽引分布針對(duì)泥地為單峰高斯分布,其均值隨地形坡度增加而增大,反映地形的崎嶇程度。植被的牽引分布基于海拔高度:在中等海拔時(shí)呈雙峰分布,在最低和最高海拔時(shí)為單峰分布。需注意,OOD 數(shù)據(jù)集(I)包含混合地形類(lèi)型,而OODII)則不含植被,以確保學(xué)習(xí)到的模型不單純依賴語(yǔ)義信息進(jìn)行 OOD(分布外)檢測(cè)。

具體構(gòu)成如下:5 個(gè)訓(xùn)練環(huán)境、20 個(gè)測(cè)試環(huán)境、40 個(gè) OOD 環(huán)境;每個(gè)環(huán)境大小為 30×30 米,分辨率為 0.5 米;參數(shù)變化包括:高程、坡度、植被比例。為了模擬模型泛化能力,訓(xùn)練集特意保持較小規(guī)模。每個(gè)訓(xùn)練環(huán)境再細(xì)分為訓(xùn)練集與交叉驗(yàn)證集。圖 9 展示了合成環(huán)境的部分可視化結(jié)果。為模擬真實(shí)世界的數(shù)據(jù)采集:牽引力樣本僅沿圓形路徑采集;為分析數(shù)據(jù)量對(duì)學(xué)習(xí)的影響,我們通過(guò)將測(cè)量樣本數(shù)乘以 來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)量。

圖片

圖 9. 包含泥土(棕色)和植被(綠色)語(yǔ)義類(lèi)型的合成三維地形數(shù)據(jù)集。(a) 在每個(gè)訓(xùn)練環(huán)境中,沿著預(yù)設(shè)的圓形路徑進(jìn)行有限的牽引力測(cè)量,以模擬有限覆蓋范圍內(nèi)的真實(shí)世界數(shù)據(jù)收集。每個(gè)環(huán)境被分成兩個(gè)進(jìn)行交叉驗(yàn)證。此外,我們通過(guò)將基準(zhǔn)測(cè)量計(jì)數(shù)相乘來(lái)分析不同測(cè)量次數(shù)的影響(見(jiàn)圖 10)。(b) 測(cè)試環(huán)境包含用于分析牽引力預(yù)測(cè)精度的新型地形特征。為了支持EMD2 是更好的導(dǎo)航性能指標(biāo)這一關(guān)鍵論點(diǎn),在測(cè)試環(huán)境中部署了使用不同損失函數(shù)訓(xùn)練的模型,用于執(zhí)行“前往目標(biāo)”任務(wù)(見(jiàn)第七節(jié))。(c) 與測(cè)試環(huán)境相比,OOD 數(shù)據(jù)集還為訓(xùn)練期間未觀察到的高程和/或坡度的新型地形提供了二值掩碼。(a) 訓(xùn)練環(huán)境示例。(b) 測(cè)試環(huán)境示例。(c) OOD 環(huán)境示例。

在訓(xùn)練環(huán)境中:通過(guò)直方圖統(tǒng)計(jì)記錄牽引力分布,并記錄每個(gè)terrain cell 的采樣次數(shù),以在訓(xùn)練時(shí)加權(quán)損失函數(shù);在測(cè)試環(huán)境中:使用 GT 分布評(píng)估預(yù)測(cè)精度;在 OOD 環(huán)境中:坡度與高程值未在訓(xùn)練中出現(xiàn)者被視為 OOD;OOD 掩碼作為 GT 標(biāo)簽用于 OOD檢測(cè)性能評(píng)估,圖 9(c) 展示其示例。

B. 模型訓(xùn)練

我們對(duì)所有損失函數(shù)使用相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):牽引力預(yù)測(cè)器由一個(gè)共享編碼器(卷積層 + 全連接層)組成,用于處理語(yǔ)義與高程圖 patch;其后接兩個(gè) 全連接解碼頭,分別輸出線向與角向牽引力分布的 softmax 概率。從共享編碼器得到的潛特征被送入一個(gè)徑向流(radial flow)模型 [53]。為數(shù)值穩(wěn)定起見(jiàn),我們使用一個(gè)固定的置信預(yù)算,其值隨潛空間維度以指數(shù)增長(zhǎng) [16]。訓(xùn)練采用 [16] 提出的兩階段流程:聯(lián)合訓(xùn)練牽引力預(yù)測(cè)器與流模型;達(dá)到初步收斂后,凍結(jié)牽引力預(yù)測(cè)器,僅微調(diào)流模型。實(shí)驗(yàn)表明,此策略能有效提升 OOD 檢測(cè)性能。但我們未觀察到文獻(xiàn) [16] 所建議的“warm-up”策略帶來(lái)額外提升。

超參數(shù)搜索:Adam優(yōu)化器學(xué)習(xí)率:];當(dāng)使用 UEMD2 與 UCE 單獨(dú)訓(xùn)練時(shí),entropy 權(quán)重:;當(dāng)聯(lián)合使用時(shí),UCE權(quán)重固定,僅搜索 UEMD2 權(quán)重:。對(duì)于每組超參數(shù),我們用 5 個(gè)隨機(jī)種子訓(xùn)練模型,并以驗(yàn)證集上的 EMD2 誤差為指標(biāo)選擇最佳模型。實(shí)證表明,相比使用 KL 散度選擇模型,用驗(yàn)證集的 EMD2 誤差選擇模型能提升整體表現(xiàn)。為公平起見(jiàn),圖表結(jié)果統(tǒng)一基于 UCE 損失 + 驗(yàn)證集 KL 散度選出的模型。

圖片

圖 10. 以 EMD2 和 KL 散度衡量的預(yù)測(cè)誤差(越低越好)以及以 AUC-ROC 和 AUC-PR 衡量的 OOD 檢測(cè)準(zhǔn)確率(越高越好)。每個(gè)損失函數(shù)的圖例后面的括號(hào)中是選擇超參數(shù)的標(biāo)準(zhǔn)。結(jié)果顯示平均值和標(biāo)準(zhǔn)差。總體而言,當(dāng)給定更多訓(xùn)練樣本時(shí),所提出的 UEMD2 與 UCE 加權(quán)和可獲得最佳預(yù)測(cè)準(zhǔn)確率,并穩(wěn)步提高 OOD 檢測(cè)性能。由于訓(xùn)練和測(cè)試環(huán)境之間的分布偏移,過(guò)多的訓(xùn)練數(shù)據(jù)會(huì)導(dǎo)致其他損失設(shè)計(jì)的預(yù)測(cè)準(zhǔn)確率下降。此外,與基于 EMD2 的損失相比,UCE 在捕捉離散牽引值之間的跨箱關(guān)系方面更差,導(dǎo)致預(yù)測(cè)準(zhǔn)確率更差和 OOD 檢測(cè)性能不穩(wěn)定。

C. 預(yù)測(cè)精度與 OOD 檢測(cè)性能

我們對(duì)不同的損失函數(shù)變體(公式 19)在以下兩個(gè)方面進(jìn)行了評(píng)估:預(yù)測(cè)精度(prediction accuracy):使用 EMD2 與 KL 散度,即將預(yù)測(cè)分布與真實(shí) GT 分布進(jìn)行比較;OOD 檢測(cè)性能:計(jì)算潛空間密度的 AUC-ROC 與 AUC-PR,相對(duì)于 OOD mask。AUC-ROC 與 AUC-PR 是二分類(lèi)標(biāo)準(zhǔn)指標(biāo),數(shù)值越接近 1 代表分類(lèi)越好,0.5 表示與隨機(jī)分類(lèi)等價(jià)。為對(duì)比上限性能,我們納入了一組模型,在訓(xùn)練時(shí)直接使用 GT traction 分布(不采樣)進(jìn)行 UCE 訓(xùn)練。評(píng)估報(bào)告在圖 10 中展示,包含 所有地圖單元格、測(cè)試環(huán)境與隨機(jī)種子的平均性能與標(biāo)準(zhǔn)差。

實(shí)驗(yàn)主結(jié)論:使用我們提出的 UEMD2 + UCE 加權(quán)組合損失 所訓(xùn)練的模型,在 EMD2 和 KL 兩個(gè)指標(biāo)上均取得了最佳預(yù)測(cè)精度;該加權(quán)組合也帶來(lái)了更穩(wěn)定的提升,在訓(xùn)練樣本增多時(shí),OOD 檢測(cè)性能與預(yù)測(cè)精度持續(xù)改善;但當(dāng)訓(xùn)練樣本過(guò)多時(shí),預(yù)測(cè)精度會(huì)下降(尤其在非組合型損失下)——我們推測(cè)其原因在于訓(xùn)練與測(cè)試分布發(fā)生偏移,驗(yàn)證集仍表現(xiàn)良好;UCE 局限:與 EMD2 類(lèi)損失相比,UCE 無(wú)法建模牽引力分布中 bin 間的相關(guān)性;導(dǎo)致潛空間表征欠規(guī)整,進(jìn)而引起 OOD 檢測(cè)性能不穩(wěn)定;即使訓(xùn)練時(shí)使用 GT 分布也不能完全彌補(bǔ)這一缺陷。

表 II UEMD2 與聯(lián)合訓(xùn)練的消融研究

圖片

所示結(jié)果是基于多個(gè)隨機(jī)種子計(jì)算所得的均值與標(biāo)準(zhǔn)差。最佳結(jié)果以粗體標(biāo)出。

D. UEMD2 與聯(lián)合訓(xùn)練的消融實(shí)驗(yàn)

雖然文獻(xiàn) [16] 已經(jīng)證明:在使用 UCE 損失時(shí)引入不確定性感知與聯(lián)合訓(xùn)練能夠顯著提升性能,但我們?yōu)橥暾云鹨?jiàn),也對(duì) UEMD2 損失進(jìn)行了類(lèi)似的消融實(shí)驗(yàn),相關(guān)結(jié)果見(jiàn)表 II。為了簡(jiǎn)化實(shí)驗(yàn),我們將樣本數(shù)倍增因子設(shè)為 10(即牽引力采樣量擴(kuò)大 10 倍)。但在其他倍增設(shè)置下也可以得出類(lèi)似結(jié)論。實(shí)驗(yàn)結(jié)果表明:只有同時(shí)使用聯(lián)合訓(xùn)練與不確定性建模(如 UEMD2),才能在 EMD2 精度與 OOD 檢測(cè)方面顯著改善。盡管上述策略已經(jīng)帶來(lái)改進(jìn),但圖 10 的結(jié)果進(jìn)一步表明:想要獲得更一致、穩(wěn)定提升的預(yù)測(cè)精度與 OOD 檢測(cè)性能;仍需聯(lián)合使用 UEMD2 與 UCE 兩種損失函數(shù)。

Ⅵ 風(fēng)險(xiǎn)感知規(guī)劃器的評(píng)估

在模擬的 2D 語(yǔ)義環(huán)境中,地形牽引力具有較高的 Aleatoric 不確定性。實(shí)驗(yàn)表明,我們提出的 CVaR-Dyn 方法相較于現(xiàn)有方法(如 [11], [21])在假設(shè)名義牽引力或期望牽引力的前提下具有更優(yōu)性能,同時(shí)在效果上也能與 CVaR-Cost 方法 [22] 競(jìng)爭(zhēng)。為簡(jiǎn)化評(píng)估,我們構(gòu)建了一個(gè)網(wǎng)格世界環(huán)境,其中 dirt 與 vegetation 單元格具有已知牽引力分布(見(jiàn) 圖 11)。植被單元格隨機(jī)生成,其密度在地圖中心逐漸增加。由于植被對(duì)應(yīng)的是一個(gè)雙峰牽引力分布,機(jī)器人容易陷入“失去動(dòng)力”的陷阱。任務(wù)目標(biāo):機(jī)器人需避開(kāi)零牽引力區(qū)域、避障,并成功到達(dá)目標(biāo)點(diǎn);若機(jī)器人無(wú)法移動(dòng)或陷入局部最優(yōu)軌跡(如原地打轉(zhuǎn)),視為失敗。

圖片

圖 11. 模擬環(huán)境,機(jī)器人必須在有界區(qū)域內(nèi)盡快從起點(diǎn)移動(dòng)到目標(biāo)。為簡(jiǎn)單起見(jiàn),線性和角牽引力參數(shù)具有相同的分布。植被地形斑塊在植被區(qū)域的中心隨機(jī)采樣。

A. 規(guī)劃器實(shí)現(xiàn)細(xì)節(jié)

我們使用 MPPI(Model Predictive Path Integral, [18])進(jìn)行控制;時(shí)域:100 步,步長(zhǎng) 0.1s;控制信號(hào):線速度 3 m/s,角速度 π rad/s,帶有噪聲(2 m/s, 2 rad/s);rollout 數(shù)量為 1024;對(duì)牽引力分布使用 20-bin PMF 進(jìn)行近似;所有模擬運(yùn)行在 GPU 上(i9 + RTX 3070),其中 CVaR-Cost 是最昂貴的計(jì)算方式,但能以 15 Hz 的頻率重新規(guī)劃(200×200 地圖尺寸);未進(jìn)行牽引力采樣的規(guī)劃器可運(yùn)行至 50+ Hz。

B. 導(dǎo)航性能對(duì)比

我們對(duì)以下方法進(jìn)行了對(duì)比:CVaR-Dyn(本文方法)CVaR-Cost [22]WayFAST [21]:使用視覺(jué)感知的期望牽引力[11] 方法:使用名義牽引力 + CVaR 時(shí)間加權(quán)我們?cè)谒蟹椒ㄖ薪y(tǒng)一調(diào)整風(fēng)險(xiǎn)參數(shù) ,WayFAST 固定為 。每個(gè)語(yǔ)義地圖采樣 5 組牽引力,重復(fù) 40 次實(shí)驗(yàn)。圖12 總結(jié)結(jié)果:若 設(shè)得較小,CVaR-Dyn 在成功率與到達(dá)時(shí)間上均優(yōu)于或接近 CVaR-Cost;圖13 展示折中關(guān)系:不同方法在成功率與到達(dá)時(shí)間之間的取舍。

核心發(fā)現(xiàn)與對(duì)比分析:所有方法均可通過(guò)調(diào)參提升性能(除 WayFAST);為 vegetation 設(shè)置高懲罰項(xiàng)(名義牽引力方法)可最大化成功率;CVaR-Dyn 與 CVaR-Cost 在某些任務(wù)中可實(shí)現(xiàn)更快完成任務(wù)但略低成功率,適用于高風(fēng)險(xiǎn)、時(shí)間敏感任務(wù);當(dāng)  進(jìn)一步降低時(shí),CVaR-Dyn 更容易陷入局部最優(yōu),因?yàn)槭褂米顗臓恳?rollout 過(guò)短;CVaR-Cost 的性能下降也明顯,原因是 CVaR 目標(biāo)本身估計(jì)更難;CVaR-Cost 解算時(shí)間約為 60 ms,其他方法約為 5 ms;整體而言,沒(méi)有方法完全優(yōu)于其他,需依據(jù)場(chǎng)景做決策。

實(shí)踐建議與結(jié)論:在有領(lǐng)域知識(shí)時(shí),可將 OOD 植被設(shè)為懲罰區(qū)域,配合 CVaR 規(guī)劃器提升性能(見(jiàn) Section VIII);雖然仿真中 CVaR-Dyn 與 CVaR-Cost 表現(xiàn)接近,但在實(shí)際硬件測(cè)試中(見(jiàn) Section IX),CVaR-Dyn 展現(xiàn)出最優(yōu)綜合性能。

圖片

圖 12. 提出的 CVaR-Dyn、CVaR-Cost [22] 和 WayFAST [21] 分別使用預(yù)期牽引力和假設(shè)標(biāo)稱牽引力 [11](即無(wú)滑移)的方法所實(shí)現(xiàn)的成功率和目標(biāo)時(shí)間。需要注意的是,如果機(jī)器人達(dá)到目標(biāo),則任務(wù)成功。我們展示了目標(biāo)時(shí)間的分布及其平均值??傮w而言,當(dāng)風(fēng)險(xiǎn)承受能力足夠低(例如)時(shí),CVaR-Dyn 的成功率和目標(biāo)時(shí)間與 CVaR-Cost 規(guī)劃器相似或更高,并且優(yōu)于 WayFAST 和假設(shè)標(biāo)稱牽引力的方法。

圖片

圖 13. 在最具挑戰(zhàn)性的 70% 植被覆蓋場(chǎng)景中,成功率與目標(biāo)達(dá)成時(shí)間之間的權(quán)衡,如果達(dá)到目標(biāo),則視為成功。CVaR-Dyn 和 CVaR-Cost 均比 WayFAST 實(shí)現(xiàn)了更好的權(quán)衡,位于圖的左上角。當(dāng)成功率低于 0.9 時(shí),CVaR-Dyn 和 CVaR-Cost 比假設(shè)名義牽引力,同時(shí)對(duì)進(jìn)入植被地形的狀態(tài)施加輔助懲罰  的方法實(shí)現(xiàn)了更好的權(quán)衡。然而,隨著  的減小,CVaR-Dyn 和 CVaR-Cost 的成功率會(huì)趨于平穩(wěn)并最終下降,因?yàn)橐?guī)劃器變得更加規(guī)避風(fēng)險(xiǎn),并且容易受到局部最小值的影響。

Ⅶ 優(yōu)化 EMD2 提升導(dǎo)航性能

為支持本文的關(guān)鍵論點(diǎn)——EMD2 是比 KL 散度更優(yōu)的度量指標(biāo),更適合評(píng)估可通行性模型中牽引力分布的學(xué)習(xí)質(zhì)量,我們對(duì)采用不同損失函數(shù)訓(xùn)練的模型進(jìn)行了導(dǎo)航性能評(píng)估,所涉及的模型已在第 V 節(jié)中介紹。這些模型被部署到與 圖9 所示相同的測(cè)試環(huán)境中:每張地圖為 30×30 米,起點(diǎn)與終點(diǎn)設(shè)在對(duì)角線兩端;為簡(jiǎn)潔起見(jiàn),本文只展示 CVaR-Dyn 規(guī)劃器(α=0.4)下的結(jié)果,使用與第 VI-A 節(jié)一致的 MPPI 設(shè)置;但在不同 α值設(shè)定下也可觀察到相似趨勢(shì)。與第 V 節(jié)的 benchmark 保持一致:每種損失函數(shù)均使用 5 個(gè)隨機(jī)種子 + 5 個(gè)不同訓(xùn)練數(shù)據(jù)量的設(shè)置;對(duì) 20 張測(cè)試地圖中的每一張,采樣 5 個(gè)牽引力圖并運(yùn)行 3 次任務(wù);平均結(jié)果繪制于圖14,因全部成功,故省略成功率。

圖片

圖 14. 在圖 9 所示的測(cè)試環(huán)境中,使用不同損失設(shè)計(jì)訓(xùn)練的學(xué)習(xí)牽引模型的導(dǎo)航性能。結(jié)果顯示了所有測(cè)試環(huán)境、采樣牽引圖和隨機(jī)種子的平均值和標(biāo)準(zhǔn)差。需要注意的是,所提出的混合損失的導(dǎo)航性能接近于在測(cè)試環(huán)境中使用 GT 牽引模型的最佳導(dǎo)航性能,以及在訓(xùn)練環(huán)境中使用 GT 牽引分布訓(xùn)練的最先進(jìn)的 UCE 損失的最佳導(dǎo)航性能。

關(guān)鍵發(fā)現(xiàn):在訓(xùn)練數(shù)據(jù)稀缺的情況下,盡管 UEMD2 的 KL 誤差略高于 UCE(如 圖10 所示),但 UEMD2 在時(shí)間效率上優(yōu)于 UCE;這驗(yàn)證了我們的直覺(jué):EMD2 能更好捕捉牽引力分布的 cross-bin 結(jié)構(gòu),在小數(shù)據(jù) regime 中提供更好的泛化能力;數(shù)據(jù)量增加后,我們提出的 UEMD2 + UCE 加權(quán)混合損失在導(dǎo)航性能上全面超越其他方法。然而,如第 V-C 節(jié)所述,當(dāng)訓(xùn)練數(shù)據(jù)過(guò)多時(shí),會(huì)引發(fā)訓(xùn)練與測(cè)試分布之間的偏移,導(dǎo)致?tīng)恳︻A(yù)測(cè)性能下降 → 導(dǎo)航性能下降(見(jiàn) 圖14)。但混合損失方法對(duì)此不敏感,能更好保持導(dǎo)航性能;此外,混合損失在低數(shù)據(jù)設(shè)置下接近使用 GT traction + UCE 損失的最優(yōu)性能上限;這說(shuō)明:僅使用訓(xùn)練環(huán)境中圓形路徑采樣到的有限數(shù)據(jù),混合損失方法就能實(shí)現(xiàn)良好的泛化能力。圖中還提供了一個(gè)下界(lower bound),即基于測(cè)試環(huán)境中 GT traction 模型所計(jì)算的最短到達(dá)時(shí)間。

Ⅷ 避開(kāi)ODD地形的優(yōu)勢(shì)

我們展示了基于密度的置信度分?jǐn)?shù)(公式 (9))在檢測(cè)高 epistemic 不確定性地形方面的效果,以及在導(dǎo)航過(guò)程中避開(kāi) OOD 區(qū)域的實(shí)際收益。實(shí)驗(yàn)設(shè)置:使用 Clearpath Husky 機(jī)器人,在兩個(gè)不同的森林區(qū)域采集數(shù)據(jù);第一個(gè)區(qū)域用于訓(xùn)練(見(jiàn) 圖5);第二個(gè)區(qū)域?yàn)闇y(cè)試場(chǎng)景(語(yǔ)義地圖見(jiàn) 圖15);使用語(yǔ)義八叉樹(shù) [50] 構(gòu)建環(huán)境模型,將 LiDAR 與語(yǔ)義分割 RGB 圖融合,語(yǔ)義分割基于 RUGD 數(shù)據(jù)集的 24 類(lèi)(見(jiàn) [52]);測(cè)試環(huán)境中的地面真實(shí)牽引力由另一套神經(jīng)網(wǎng)絡(luò)估計(jì),用作 proxy-GT。我們使用 CVaR-Dyn(α=0.2)來(lái)適應(yīng)牽引力預(yù)測(cè)的高噪聲,主要研究在具有新穎語(yǔ)義地形特征的區(qū)域中的導(dǎo)航表現(xiàn)。實(shí)驗(yàn)設(shè)計(jì):在測(cè)試地圖中設(shè)定兩個(gè)具挑戰(zhàn)性的 start-goal 點(diǎn)對(duì);每組點(diǎn)對(duì)在不同置信度閾值下重復(fù) 10 次;對(duì)比兩種方式避開(kāi) OOD 地形:將 OOD 區(qū)域設(shè)為“0 牽引力”;賦予 OOD 區(qū)域高額代價(jià)懲罰。若成功抵達(dá)目標(biāo)即視為任務(wù)成功。

圖片

圖 15. (左)在測(cè)試環(huán)境中,模擬機(jī)器人必須達(dá)到兩個(gè)選定的目標(biāo),以強(qiáng)調(diào)使用不可靠網(wǎng)絡(luò)預(yù)測(cè)的危險(xiǎn)。(右)基于潛在密度的置信度得分 (9) 表示預(yù)測(cè)牽引力分布的認(rèn)知不確定性程度,其中未知地形和已知地形的負(fù)值得分以黑色表示。請(qǐng)注意,由于存在未知單元,頂部的棕色語(yǔ)義區(qū)域(覆蓋物)的置信度低于零,而左側(cè)的棕色語(yǔ)義區(qū)域則包含較少的未知單元。 

實(shí)驗(yàn)結(jié)果如圖 16 所示:隨著置信閾值 的提高,成功率最多可提升至 30%;這是因?yàn)闄C(jī)器人有效地避開(kāi)了牽引力預(yù)測(cè)不可靠區(qū)域。此外,當(dāng)為 OOD 地形使用“軟懲罰”策略(而非直接禁止)時(shí):能夠在保證類(lèi)似成功率的前提下,顯著提升任務(wù)完成效率(time-to-goal);原因是懲罰機(jī)制引導(dǎo)規(guī)劃器更容易找到避開(kāi) OOD 區(qū)域的路徑。因此,當(dāng)可利用場(chǎng)景知識(shí)時(shí),將輔助代價(jià)項(xiàng)與 CVaR-Dyn 方法聯(lián)合使用:不僅能提升成功率;還可實(shí)現(xiàn)更快、更穩(wěn)定的導(dǎo)航;是在實(shí)際部署中非常有價(jià)值的策略。

圖片

圖 16. 通過(guò)避開(kāi) OOD 地形,導(dǎo)航成功率有所提升。注意,陰影區(qū)域表示標(biāo)準(zhǔn)差。OOD 地形的處理方式為:分配零牽引力(藍(lán)色)或施加懲罰(橙色)。圖中包含了使用 GT 牽引力的規(guī)劃器的性能,以展示最佳性能??傮w而言,更高的   值提高了成功率,但代價(jià)是縮短了目標(biāo)時(shí)間。然而,針對(duì) OOD 地形的輔助懲罰,使規(guī)劃器更容易找到實(shí)現(xiàn)目標(biāo)的解決方案。值得注意的是,當(dāng) 時(shí),平均成功率趨近于 1,這表明學(xué)習(xí)到的牽引力模型在測(cè)試環(huán)境中能夠很好地推廣到具有高置信度值(低認(rèn)知不確定性)的地形。

實(shí)踐結(jié)論:因此,當(dāng)可利用場(chǎng)景知識(shí)時(shí),將輔助代價(jià)項(xiàng)與CVaR-Dyn 方法聯(lián)合使用:不僅能提升成功率;還可實(shí)現(xiàn)更快、更穩(wěn)定的導(dǎo)航;是在實(shí)際部署中非常有價(jià)值的策略。

Ⅸ 硬件實(shí)驗(yàn)

為了驗(yàn)證 EVORA 的有效性與可行性(即本文提出的不確定性感知可通行性學(xué)習(xí)與風(fēng)險(xiǎn)感知路徑規(guī)劃的整體框架)在實(shí)際中的應(yīng)用效果,我們?cè)O(shè)計(jì)了兩個(gè)實(shí)驗(yàn)場(chǎng)景:一個(gè)使用遙控車(chē)的室內(nèi)賽道任務(wù),模擬帶有假植被的環(huán)境(見(jiàn) Section IX-A);另一個(gè)使用四足機(jī)器人的更具挑戰(zhàn)性的室外導(dǎo)航場(chǎng)景(見(jiàn) Section IX-B)。在兩個(gè)場(chǎng)景中,機(jī)器人都使用車(chē)載傳感器在測(cè)試時(shí)在線構(gòu)建環(huán)境地圖,這引入了來(lái)自運(yùn)動(dòng)模糊、光照變化與不完整地圖等問(wèn)題帶來(lái)的更大不確定性。雖然兩個(gè)實(shí)驗(yàn)都表明,所提出的 CVaR-Dyn 路徑規(guī)劃器在導(dǎo)航性能上表現(xiàn)最佳,室外實(shí)驗(yàn)場(chǎng)景還進(jìn)一步展示了避開(kāi) OOD 地形的優(yōu)勢(shì)。在實(shí)際中,由 MPPI 生成的控制信號(hào)通常非常嘈雜,因此我們?cè)诿x控制 [54] 的導(dǎo)數(shù)空間中進(jìn)行規(guī)劃,以生成平滑軌跡。

A. 使用遙控車(chē)的室內(nèi)競(jìng)速實(shí)驗(yàn)

本節(jié)實(shí)驗(yàn)的目標(biāo)是展示在控制環(huán)境中,所提出的規(guī)劃器在緩解 aleatoric 不確定性所帶來(lái)風(fēng)險(xiǎn)方面的性能優(yōu)勢(shì)。

圖片

圖 17. 用于室內(nèi)賽車(chē)實(shí)驗(yàn)的訓(xùn)練和測(cè)試環(huán)境。(a) 訓(xùn)練環(huán)境由一塊草坪和兩棵倒下的樹(shù)木組成,用于模擬灌木叢。學(xué)習(xí)到的線性和角度牽引力分布在選定區(qū)域可視化,包括 (i) 硬地板、(ii) 倒下的樹(shù)木和 (iii) 草坪。需要注意的是,植被上牽引力分布的雙峰性可能會(huì)導(dǎo)致機(jī)器人速度顯著降低。(b) 測(cè)試環(huán)境包含兩塊草坪、三棵倒下的樹(shù)木、三棵直立的樹(shù)木和虛擬障礙物。機(jī)器人的任務(wù)是沿著參考路徑跟隨胡蘿卜目標(biāo)行駛兩圈,同時(shí)在無(wú)植被的繞行路線和有植被的較短路徑之間做出選擇。(a) 訓(xùn)練環(huán)境中學(xué)習(xí)到的牽引力。(b) 測(cè)試環(huán)境。

1)實(shí)驗(yàn)設(shè)置:

如圖17 所示,室內(nèi)環(huán)境占地面積為 9.6 米 × 8 米,為了與 0.33 米 × 0.25 米的 RC 小車(chē)一致,場(chǎng)地內(nèi)部設(shè)置了一條由人造草皮與假樹(shù)組成的路徑,以模擬戶外的植被區(qū)域。小車(chē)上安裝了 RealSense D455 深度攝像頭、Intel Core i7 CPU 與 Nvidia RTX 2060 GPU。機(jī)器人在車(chē)載平臺(tái)上執(zhí)行牽引力預(yù)測(cè)、運(yùn)動(dòng)規(guī)劃與高程圖建圖,建圖分辨率為 0.1 米,但實(shí)際位姿與速度估計(jì)由 Vicon 完成。植被識(shí)別方式為:提取圖像中綠色像素點(diǎn),而不是使用單獨(dú)的語(yǔ)義分割網(wǎng)絡(luò),以節(jié)省 GPU 資源。路徑傳播模型使用公式 (3) 所示的 bicycle 模型,牽引力由命令線速度、轉(zhuǎn)向角與 Vicon 所提供的 GT 實(shí)際速度進(jìn)行標(biāo)定計(jì)算得出。

我們基于 10 分鐘的駕駛數(shù)據(jù)對(duì)牽引力模型進(jìn)行訓(xùn)練,使用的是所提出的聯(lián)合損失函數(shù) (19),即加權(quán)組合的 UEMD2 和 UCE:兩者的加權(quán)系數(shù)均設(shè)為 1;熵項(xiàng)加權(quán)系數(shù)為 1e-5(經(jīng)驗(yàn)調(diào)優(yōu)得出);所學(xué)習(xí)得到的牽引力分布如圖17(a) 所示,呈現(xiàn)多峰性(multimodality)。在部署時(shí),機(jī)器人需在賽道上繞跑兩圈,并根據(jù)下述兩條路徑進(jìn)行決策:一條路徑較短,但包含植被;另一條路徑較長(zhǎng),但風(fēng)險(xiǎn)較低,如圖17(b) 所示。我們?cè)O(shè)計(jì)了一個(gè)動(dòng)態(tài)目標(biāo)區(qū)沿著橢圓形參考軌跡運(yùn)動(dòng),該目標(biāo)點(diǎn)被稱為“胡蘿卜目標(biāo)(carrot goal)”,它與機(jī)器人在參考路徑上的投影點(diǎn)保持 75° 的固定偏移角。

在方法對(duì)比方面,我們考慮:CVaR-Cost;本文提出的 CVaR-Dyn;一個(gè)基線方法:假設(shè)使用名義牽引力,但對(duì)高度在 5 cm 到 15 cm 之間的低矮植被區(qū)域引入輔助懲罰項(xiàng),因?yàn)檫@些區(qū)域可能導(dǎo)致駕駛困難。所有方法都通過(guò)輔助懲罰機(jī)制避開(kāi)植被區(qū)域。所有規(guī)劃器均執(zhí)行:在 20 Hz 下進(jìn)行規(guī)劃;展望步長(zhǎng)為 5 步;每次生成 1024 個(gè) rollout;CVaR-Cost 由于計(jì)算成本更高,僅使用 400 個(gè)牽引力圖樣本;最大速度設(shè)為 1.5 m/s,最大轉(zhuǎn)向角設(shè)為 30°。

圖片

圖 18. 室內(nèi)實(shí)驗(yàn)的代表性試驗(yàn),用于突出規(guī)劃器的故障模式。上行顯示自上而下的語(yǔ)義地圖,下行顯示延時(shí)照片。為了清晰起見(jiàn),我們僅顯示兩圈中的第一圈。(a)隨著  的減小,提出的 CVaR-Dyn 變得更加規(guī)避風(fēng)險(xiǎn),并采取更大的轉(zhuǎn)彎以進(jìn)入捷徑。(b)WayFAST( 的 CVaR-Dyn)沒(méi)有考慮轉(zhuǎn)向不足的風(fēng)險(xiǎn),因此它總是轉(zhuǎn)彎太晚而無(wú)法走捷徑。(c)CVaR-Cost 始終繞道行駛以避開(kāi)植被地形。隨著  的減小,規(guī)劃器變得更加規(guī)避風(fēng)險(xiǎn),有時(shí)會(huì)在障礙物附近停止。(d)當(dāng)軟懲罰較低時(shí),基線更具風(fēng)險(xiǎn)承受能力并會(huì)選擇捷徑,但實(shí)際牽引力與標(biāo)稱牽引力存在顯著差異,導(dǎo)致更多碰撞。隨著軟懲罰的增加,規(guī)劃器變得更加保守并繞道而行,但使用標(biāo)稱牽引力進(jìn)行規(guī)劃會(huì)導(dǎo)致嚴(yán)重的轉(zhuǎn)向不足,從而限制性能。

圖片

圖 19. 室內(nèi)實(shí)驗(yàn) 5 次試驗(yàn)的結(jié)果和任務(wù)時(shí)間。我們展示了任務(wù)時(shí)間的分布以及最大值、平均值和最小值。提出的 CVaR-Dyn 在  時(shí)實(shí)現(xiàn)了最佳目標(biāo)時(shí)間,成功率為 100%。隨著  的減小,CVaR-Dyn 和 CVaR-Cost 都會(huì)導(dǎo)致目標(biāo)時(shí)間縮短。需要注意的是,當(dāng)  時(shí),CVaR-Cost 在許多情況下會(huì)在障礙物附近停止。相比之下,基線和 WayFAST 會(huì)導(dǎo)致更差的目標(biāo)時(shí)間,并且發(fā)生碰撞的可能性更高。

2)Aleatoric 不確定性結(jié)果分析:

我們對(duì)比了各個(gè)規(guī)劃器在緩解由于 aleatoric 不確定性引起的導(dǎo)航風(fēng)險(xiǎn)方面的能力,定性與定量結(jié)果見(jiàn)圖18 和 圖19??疾炝巳N風(fēng)險(xiǎn)容忍度 ;輔助懲罰項(xiàng)設(shè)定為 ;對(duì)于名義牽引力規(guī)劃器,將所有進(jìn)入植被區(qū)域的狀態(tài)都視為“高風(fēng)險(xiǎn)”狀態(tài);WayFAST 方法單獨(dú)呈現(xiàn),作為 CVaR-Dyn()的一種特例。我們對(duì)每組設(shè)置進(jìn)行五次重復(fù)實(shí)驗(yàn),每次包括兩圈比賽。整體結(jié)果表明:CVaR-Dyn()在平均成功率與最短時(shí)間到達(dá)方面均表現(xiàn)最佳。圖18 中的定性可視化表明:基線方法與 WayFAST 在現(xiàn)實(shí)世界的牽引力噪聲下容易偏離軌跡、轉(zhuǎn)向發(fā)散;而 CVaR-Cost 與 CVaR-Dyn 能夠通過(guò)生成平滑軌跡更好地應(yīng)對(duì)該噪聲;CVaR-Cost 更容易繞遠(yuǎn)路,并在障礙物附近容易陷入局部極小值。

B. 使用腿式機(jī)器人進(jìn)行戶外導(dǎo)航

與室內(nèi)環(huán)境相比,戶外實(shí)驗(yàn)中地形類(lèi)型更加多樣,感知中的不確定性也更大,這主要是由于光照變化和劇烈運(yùn)動(dòng)所引起的。除了評(píng)估規(guī)劃器處理阿列阿不確定性(aleatoric uncertainty)的能力之外,戶外測(cè)試還展示了通過(guò)避免 OOD 地形(分布外地形)來(lái)減緩認(rèn)知不確定性(epistemic uncertainty)帶來(lái)的風(fēng)險(xiǎn)的好處,同時(shí)也驗(yàn)證了我們方法在腿式機(jī)器人上的適用性。

圖片

圖 20. 腿式機(jī)器人的戶外訓(xùn)練和測(cè)試環(huán)境。(a) 戶外環(huán)境由不同高度和密度的植被地形組成??梢暬诉x定區(qū)域的預(yù)測(cè)線性和角度牽引力分布,這些區(qū)域包括 (i) 高草、(ii) 短草和 (iii) 茂密的灌木叢。與輪式機(jī)器人不同,腿式機(jī)器人在穿過(guò)植被時(shí)通常具有良好的線性牽引力,但由于轉(zhuǎn)彎難度較大,角度牽引力可能表現(xiàn)出多模態(tài)性。(b) 使用兩對(duì)起始-目標(biāo)樣本對(duì)規(guī)劃器進(jìn)行基準(zhǔn)測(cè)試,并分析避開(kāi) OOD 地形的優(yōu)勢(shì)。(a) 在訓(xùn)練環(huán)境中學(xué)習(xí)到的牽引力。(b)測(cè)試環(huán)境。

1)實(shí)驗(yàn)設(shè)置

圖20 展示了戶外實(shí)驗(yàn)的整體設(shè)置概況。一臺(tái) Boston Dynamics 的 Spot 機(jī)器人被裝備了 RealSense D455 深度相機(jī)、Ouster OS0 激光雷達(dá),以及 Nvidia Jetson AGX Orin(該設(shè)備在功耗效率上優(yōu)越,但計(jì)算能力較我們前面實(shí)驗(yàn)中使用的計(jì)算平臺(tái)要低)。本實(shí)驗(yàn)采用了單輪車(chē)模型(unicycle model,參見(jiàn)公式 (2)),牽引力的數(shù)值是通過(guò)比較機(jī)器人的控制指令與其內(nèi)置里程計(jì)輸出的實(shí)際運(yùn)動(dòng)結(jié)果計(jì)算得出的。環(huán)境地圖是通過(guò)構(gòu)建語(yǔ)義八叉樹(shù)(semantic octomap)得到的,八叉樹(shù)以 0.2 m 的分辨率將激光雷達(dá)點(diǎn)云和基于 RUGD 數(shù)據(jù)集 [52] 提取的 24 類(lèi)語(yǔ)義標(biāo)簽的 RGB 圖像融合而成。牽引力模型基于 5 分鐘的行走數(shù)據(jù)進(jìn)行訓(xùn)練,使用的是我們提出的損失函數(shù)(19),其權(quán)重與室內(nèi)實(shí)驗(yàn)中的設(shè)置相同。所學(xué)習(xí)到的牽引力分布在圖20(a) 中可視化展示,用以突顯其多模態(tài)特性。如圖20(b) 所示,我們選擇了兩個(gè)起點(diǎn)-目標(biāo)點(diǎn)對(duì),以測(cè)試不同規(guī)劃器在避開(kāi) OOD 地形方面的效果及其帶來(lái)的好處。所有規(guī)劃器都會(huì)通過(guò)附加代價(jià)機(jī)制避免進(jìn)入海拔高于 1.4 m 的地形區(qū)域;而基線方法(baseline)還會(huì)對(duì)高度低于 1.4 m 的草地與灌木類(lèi)語(yǔ)義類(lèi)型地形附加軟代價(jià)(soft cost)。盡管 1.4 m 的高度閾值遠(yuǎn)高于機(jī)器人的步高,但所選測(cè)試環(huán)境中并不包含短小且剛性的障礙物,這是為了分析各類(lèi)規(guī)劃器在應(yīng)對(duì)高植被環(huán)境方面的能力。由于語(yǔ)義分類(lèi)、牽引力預(yù)測(cè)與運(yùn)動(dòng)規(guī)劃模塊需共享 GPU 資源,規(guī)劃器只能以 5 Hz 的頻率進(jìn)行規(guī)劃,并能提前預(yù)測(cè) 8 秒路徑,共執(zhí)行 800 次控制采樣。CVaR-Cost 方法由于計(jì)算限制僅允許使用 200 張牽引力地圖采樣。最大線速度和角速度分別為 1 m/s 與 90°/s。

圖片

圖 21. 戶外實(shí)驗(yàn)的代表性試驗(yàn)。上行顯示自上而下的語(yǔ)義地圖,下行顯示延時(shí)照片。(a)與其他方法相比,提出的 CVaR-Dyn()能夠很好地處理嘈雜的地形牽引力,并且產(chǎn)生的軌跡波動(dòng)更小。(b)WayFAST( 時(shí)的 CVaR-Dyn)依賴于預(yù)期牽引力,這無(wú)法很好地指示實(shí)際軌跡結(jié)果,導(dǎo)致航向不斷修正。(c)與 CVaR-Dyn 相比,CVaR-Cost 更為保守,因?yàn)樗h(yuǎn)離灌木叢并實(shí)現(xiàn)了更長(zhǎng)的目標(biāo)時(shí)間。(d)基線假設(shè)標(biāo)稱牽引力,這會(huì)導(dǎo)致轉(zhuǎn)向不足。隨著軟懲罰的增加,機(jī)器人越來(lái)越不愿意面對(duì)高高的草叢和灌木叢。由于大部分測(cè)試區(qū)域都被草叢或灌木叢覆蓋,因此具有較大軟懲罰的基線在后續(xù)試驗(yàn)中難以找到可行的計(jì)劃來(lái)實(shí)現(xiàn)目標(biāo)。

圖片

圖 22. 局部規(guī)劃器基準(zhǔn)測(cè)試的目標(biāo)時(shí)間分布,包含最大值、平均值和最小值。每個(gè)規(guī)劃器總共完成三次往返,即六次試驗(yàn)。提出的  的 CVaR-Dyn 性能優(yōu)于需要更多計(jì)算的 CVaR-Cost、使用預(yù)期牽引力進(jìn)行規(guī)劃的 WayFAST( 的 CVaR-Dyn)以及使用標(biāo)稱牽引力進(jìn)行規(guī)劃并對(duì)草地和灌木叢施加軟懲罰的基線。

2)阿列阿不確定性結(jié)果

圖 21 和圖 22 展示了在應(yīng)對(duì)阿列阿不確定性風(fēng)險(xiǎn)方面,各類(lèi)規(guī)劃器的定性與定量比較結(jié)果。我們每個(gè)方法都重復(fù)執(zhí)行三次往返路徑(共六次試驗(yàn))。整體而言,CVaR-Dyn 在 設(shè)置下取得了最佳的耗時(shí)與成功率表現(xiàn),與第 IX-A 節(jié)中的室內(nèi)實(shí)驗(yàn)結(jié)果一致。CVaR-Cost 的策略更保守,常常會(huì)遠(yuǎn)離草叢區(qū)域。相比之下,基線方法與 WayFAST 都受到真實(shí)牽引力噪聲的影響,軌跡彎折嚴(yán)重。特別地,當(dāng)對(duì)草地與灌木地形的軟懲罰設(shè)置得過(guò)高時(shí),基線方法容易陷入局部最小值(local minima),需要人工干預(yù),導(dǎo)致任務(wù)耗時(shí)變長(zhǎng)。

圖片

圖 23. 規(guī)劃器規(guī)避 OOD 地形的典型行為,其中語(yǔ)義自上向下地圖和延時(shí)照片分別顯示在頂部和底部。如果沒(méi)有 OOD 規(guī)避功能,機(jī)器人容易因在線地圖不完善和地形牽引噪聲而陷入局部極小值,需要人工干預(yù)才能遠(yuǎn)程操作機(jī)器人到達(dá)可行目標(biāo)規(guī)劃區(qū)域。相比之下,為 OOD 地形分配輔助懲罰項(xiàng),則使規(guī)劃器更容易找到到達(dá)目標(biāo)的軌跡。

圖片

圖 24. 六次試驗(yàn)(三次往返)OOD 避讓測(cè)試的目標(biāo)時(shí)間分布,包括最大值、平均值和最小值。通過(guò)避開(kāi) OOD 地形,規(guī)劃器不易受到局部極小值的影響,并通過(guò)避開(kāi)訓(xùn)練期間未見(jiàn)過(guò)的特征地形,實(shí)現(xiàn)了更佳的目標(biāo)時(shí)間。

3)認(rèn)知不確定性結(jié)果

與前面的實(shí)驗(yàn)不同,OOD 地形規(guī)避實(shí)驗(yàn)的目標(biāo)是展示在面臨認(rèn)知不確定性風(fēng)險(xiǎn)時(shí)采取緩解措施的效果。因此,我們僅使用 CVaR-Dyn()進(jìn)行評(píng)估,但如果將底層的局部規(guī)劃器替換為 CVaR-Cost 或其他用于緩解阿列阿不確定性的方法,也能得出相似結(jié)論。我們總共執(zhí)行三次往返路徑實(shí)驗(yàn)。圖 23 和圖 24 展示了 OOD 規(guī)避實(shí)驗(yàn)的定性與定量結(jié)果。我們將某一地形視為 OOD,當(dāng)其牽引力預(yù)測(cè)器的 latent 特征密度歸一化后低于 0(即低于訓(xùn)練數(shù)據(jù)中所有特征密度的 0 百分位)。更保守的閾值可以基于經(jīng)驗(yàn)調(diào)節(jié)獲得。與圖20 中的訓(xùn)練環(huán)境相比,圖23 中的測(cè)試環(huán)境包含大量訓(xùn)練集中未見(jiàn)的高植被區(qū)域。因此,這些高植被區(qū)域會(huì)產(chǎn)生較高的認(rèn)知不確定性,對(duì)應(yīng)的地形將被標(biāo)記為 OOD。如果不避開(kāi) OOD 地形,機(jī)器人容易陷入局部極小點(diǎn),需要人為干預(yù)才能將其移至可行軌跡區(qū)域以繼續(xù)前往目標(biāo)點(diǎn)。相比之下,避開(kāi) OOD 地形的規(guī)劃器能在不依賴人工干預(yù)的情況下獲得更短的時(shí)間開(kāi)銷(xiāo)。

C. 硬件實(shí)驗(yàn)總結(jié)

總的來(lái)說(shuō),硬件實(shí)驗(yàn)已經(jīng)證明,所提出的 CVaR-Dyn 方法在實(shí)際應(yīng)用中是一個(gè)有吸引力的選擇。它避免了 CVaR-Cost 方法所需的額外計(jì)算開(kāi)銷(xiāo),例如對(duì)附加牽引力圖的采樣,或者需要人類(lèi)專家為多種地形類(lèi)型設(shè)計(jì)語(yǔ)義驅(qū)動(dòng)的代價(jià)函數(shù)。

此外,估計(jì)認(rèn)知不確定性(epistemic uncertainty)的能力使我們能夠識(shí)別并規(guī)避具有不可靠牽引預(yù)測(cè)的 OOD 地形,從而提升導(dǎo)航成功率并減少人工干預(yù)。

Ⅹ 局限性與未來(lái)工作

從建模角度來(lái)看,本工作聚焦于二維機(jī)器人模型,但面對(duì)更具挑戰(zhàn)性的地形時(shí),六自由度(6-DoF)模型是必要的 [36], [55], [56]。此外,我們使用 語(yǔ)義八叉樹(shù)(semantic octomap) [50] 來(lái)建模環(huán)境,但也可以采用計(jì)算成本更低的替代方法 [10], [57]。此外,我們的系統(tǒng)依賴于語(yǔ)義分割模塊的精度,因此當(dāng)測(cè)試環(huán)境與訓(xùn)練環(huán)境差異較大(例如光照或季節(jié)變化導(dǎo)致)時(shí),所提出的管線可能會(huì)失效。因此,感知模塊中不確定性帶來(lái)的風(fēng)險(xiǎn)需要單獨(dú)研究 [41]。從數(shù)據(jù)采集角度來(lái)看,本研究依賴于用于訓(xùn)練的真實(shí)牽引分布,而這種分布對(duì)于高維特征(如 RGB 圖像)可能難以獲取。雖然我們提出的損失函數(shù)可用于直接訓(xùn)練即時(shí)牽引測(cè)量,但使用 EMD2 損失 所帶來(lái)的性能提升仍需進(jìn)一步評(píng)估。此外,也可以使用基于不確定性的主動(dòng)采集方法 [37], [58] 來(lái)收集更具信息量的訓(xùn)練樣本。從規(guī)劃角度來(lái)看,本研究提出了使用牽引 CVaR 來(lái)模擬狀態(tài)軌跡的方法,但仍需要進(jìn)一步研究將該思想推廣至更多系統(tǒng)參數(shù)與性能指標(biāo)的通用性。此外,我們的規(guī)劃器能夠在新環(huán)境中避免 OOD 地形,但只能在有人工干預(yù)時(shí)進(jìn)行在線適應(yīng) [12]。最后,所提出的方法也可以與利用遠(yuǎn)場(chǎng)信息的全局規(guī)劃器 [59] 結(jié)合使用。

XI 結(jié)論

本工作提出了 EVORA,這是一個(gè)統(tǒng)一的框架,用于基于證據(jù)深度學(xué)習(xí)的不確定性感知可通行性學(xué)習(xí),以及基于 CVaR 的風(fēng)險(xiǎn)感知規(guī)劃。EVORA 通過(guò)經(jīng)驗(yàn)分布(代表 aleatoric 不確定性)建模地形牽引力的不確定性,并基于牽引預(yù)測(cè)器潛在特征的密度(代表 epistemic 不確定性)識(shí)別 OOD 地形。通過(guò)利用我們提出的不確定性感知的平方 EMD 損失函數(shù),我們提升了神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率、OOD 檢測(cè)性能以及下游導(dǎo)航性能。為應(yīng)對(duì) aleatoric 不確定性,所提出的風(fēng)險(xiǎn)感知規(guī)劃器基于牽引分布的左尾 CVaR 來(lái)模擬狀態(tài)軌跡。為應(yīng)對(duì) epistemic 不確定性,我們提出為那些潛在特征密度較低的地形分配輔助代價(jià),從而提升導(dǎo)航成功率。整個(gè)系統(tǒng)通過(guò)大量仿真實(shí)驗(yàn)和硬件實(shí)驗(yàn)進(jìn)行了分析,展示了其在不同地面機(jī)器人平臺(tái)上的導(dǎo)航性能提升。

附錄 A:UCE 損失與 Dirichlet 熵(參考 [16])

給定  和目標(biāo) ,

圖片

其中 是 digamma 函數(shù), 是整體證據(jù)。此外, 的熵為:

圖片

其中  表示 beta 函數(shù)。

附錄 B:定理 1 的證明

我們從 UEMD2的定義出發(fā)(參考式 (17)),并通過(guò)使期望中 變得隱式來(lái)簡(jiǎn)化記號(hào)。記  為目標(biāo) PMF,為累積求和算子,記 為累積求和向量的第  項(xiàng)。

圖片

將恒定項(xiàng) 單獨(dú)分出后,整理剩余項(xiàng),并將期望移入求和內(nèi)部,得到:

圖片

公式 (42)–(47) 給出了對(duì) Dirichlet 分布的標(biāo)準(zhǔn)性質(zhì)(均值、方差和協(xié)方差)的封閉形式:

圖片

最終帶入公式 (41),得:

圖片

其中?,見(jiàn)公式 (16)。


參考文獻(xiàn)


圖片圖片圖片圖片圖片圖片圖片
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25