EVORA：面向風(fēng)險(xiǎn)感知越野自主系統(tǒng)的深度證據(jù)可通行性學(xué)習(xí)

2025-06-05 09:53:00· 來(lái)源：同濟(jì)智能汽車(chē)研究所

編者按：隨著無(wú)人系統(tǒng)在復(fù)雜野外環(huán)境中的應(yīng)用日益廣泛，地形可通行性評(píng)估成為提升自主導(dǎo)航能力的關(guān)鍵環(huán)節(jié)。本文由麻省理工學(xué)院與美國(guó)陸軍研究實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)撰寫(xiě)，聚焦于風(fēng)險(xiǎn)感知越野導(dǎo)航中的不確定性建模問(wèn)題，提出了一種基于深度證據(jù)學(xué)習(xí)的端到端方法——EVORA。該方法聯(lián)合建模 Aleatoric 與 Epistemic 不確定性，通過(guò)Dirichlet分布與標(biāo)準(zhǔn)化流的結(jié)合，實(shí)現(xiàn)對(duì)牽引力分布的精確建模與未知地形的魯棒識(shí)別，為部署于未知或高風(fēng)險(xiǎn)區(qū)域的自主機(jī)器人提供了堅(jiān)實(shí)的數(shù)據(jù)驅(qū)動(dòng)支撐。論文提出的 UEMD2 損失函數(shù)在保持準(zhǔn)確率的同時(shí)，有效提升了對(duì)分布外地形的檢測(cè)能力，具有較高的理論價(jià)值與應(yīng)用潛力，值得從事智能駕駛、野外探測(cè)、風(fēng)險(xiǎn)規(guī)避導(dǎo)航等方向的科研人員深入研讀。

本文譯自：

《EVORA: Deep Evidential Traversability Learning for Risk-Aware Off-Road Autonomy》

文章來(lái)源：

IEEE Transactions on Robotics, vol. 40, pp. 3756-3777, 2024.

作者：

蔡小毅1，Siddharth Ancha1，Lakshay Sharma1，Philip R. Osteen1，Bernadette Bucher2，Stephen Phillips2，王久光2，Michael Everett1，Nicholas Roy1，Jonathan P. How1

作者單位：

1 麻省理工學(xué)院（Massachusetts Institute of Technology）,2 美國(guó)陸軍研究實(shí)驗(yàn)室（U.S. Army Research Laboratory）

原文鏈接：

https://ieeexplore.ieee.org/document/10606099

摘要：穿越具有良好牽引力的地形對(duì)于實(shí)現(xiàn)快速越野導(dǎo)航至關(guān)重要。現(xiàn)有方法并非基于地形特征手動(dòng)設(shè)計(jì)成本，而是通過(guò)自監(jiān)督直接從數(shù)據(jù)中學(xué)習(xí)地形屬性，從而自動(dòng)懲罰穿越不良地形的軌跡。然而，如何正確量化和降低學(xué)習(xí)模型中不確定性帶來(lái)的風(fēng)險(xiǎn)仍存在挑戰(zhàn)。為此，我們提出了證據(jù)越野自主性 (EVORA)，這是一個(gè)統(tǒng)一的框架，用于學(xué)習(xí)不確定性感知的牽引力模型并規(guī)劃風(fēng)險(xiǎn)感知的軌跡。對(duì)于不確定性量化，我們通過(guò)學(xué)習(xí)離散牽引力分布和牽引力預(yù)測(cè)器潛在特征的概率密度，有效地對(duì)偶然不確定性和認(rèn)知不確定性進(jìn)行建模。利用證據(jù)深度學(xué)習(xí)，我們用網(wǎng)絡(luò)輸出參數(shù)化狄利克雷分布，并提出一種新穎的不確定性感知平方土方距離損失函數(shù)，該函數(shù)具有閉式表達(dá)式，可提高學(xué)習(xí)精度和導(dǎo)航性能。對(duì)于風(fēng)險(xiǎn)感知導(dǎo)航，所提出的規(guī)劃器會(huì)模擬具有最壞情況預(yù)期牽引力的狀態(tài)軌跡，以處理隨機(jī)不確定性，并懲罰穿越具有高認(rèn)知不確定性地形的軌跡。我們的方法已在模擬環(huán)境以及輪式和四足機(jī)器人上得到廣泛驗(yàn)證，與假設(shè)無(wú)滑移、假設(shè)預(yù)期牽引力或針對(duì)最壞情況預(yù)期成本進(jìn)行優(yōu)化的方法相比，其導(dǎo)航性能有所提升。

關(guān)鍵詞：自主機(jī)器人，自監(jiān)督學(xué)習(xí)，不確定性量化，越野導(dǎo)航

Ⅰ 引言

本文的其余部分組織如下。

自主機(jī)器人正日益部署于礦區(qū)、森林、沙漠等惡劣的非鋪裝環(huán)境中，這些環(huán)境既需要對(duì)幾何結(jié)構(gòu)進(jìn)行理解，也需要對(duì)語(yǔ)義信息進(jìn)行解析，以便識(shí)別非幾何危險(xiǎn)（例如淤泥坑、光滑表面）和幾何“非危險(xiǎn)”區(qū)域（例如高草和灌木），從而實(shí)現(xiàn)可靠的導(dǎo)航。為此，近期的方法通?；诘匦蔚恼Z(yǔ)義分類(lèi)手動(dòng)分配導(dǎo)航代價(jià)，這一過(guò)程不僅需要大量專家知識(shí)來(lái)標(biāo)注數(shù)據(jù)，還需訓(xùn)練出足夠精確且語(yǔ)義類(lèi)別豐富的分類(lèi)器，以獲得期望的風(fēng)險(xiǎn)感知行為。另一種思路是利用自監(jiān)督學(xué)習(xí)直接從導(dǎo)航數(shù)據(jù)中學(xué)習(xí)可行性模型，以便在路徑規(guī)劃時(shí)自動(dòng)對(duì)不利地形分配更高的代價(jià)。然而，由于真實(shí)環(huán)境下自監(jiān)督的數(shù)據(jù)采集既緩慢又昂貴，僅僅增加數(shù)據(jù)量并不足以提升性能，除非我們能夠?qū)λ鶎W(xué)模型中的不確定性進(jìn)行量化并據(jù)此進(jìn)行風(fēng)險(xiǎn)緩解。在越野導(dǎo)航情境中，不確定性主要以兩種形式出現(xiàn)，如圖 1 所示。

圖 1. EVORA 在學(xué)習(xí)地形牽引模型時(shí)，同時(shí)捕捉兩類(lèi)不確定性，其中牽引力定義為實(shí)際速度與指令速度之比。(a) 內(nèi)稟不確定性（Aleatoric uncertainty）是由于觀測(cè)不完全而產(chǎn)生的固有且不可消除的不確定性。例如，外觀相似的地形由于機(jī)器人與植被之間的復(fù)雜相互作用，可能具有不同的牽引力值。(b) 模型不確定性（Epistemic uncertainty）是由于訓(xùn)練環(huán)境與測(cè)試環(huán)境分布轉(zhuǎn)移帶來(lái)的模型不確定性，這會(huì)在測(cè)試時(shí)限制學(xué)習(xí)模型的可靠性。

內(nèi)稟不確定性（Aleatoric uncertainty）是指因觀測(cè)不完整而產(chǎn)生的固有且不可消除的不確定性。例如，兩塊外觀相同的地形對(duì)車(chē)載傳感器而言可能無(wú)法區(qū)分，但卻會(huì)導(dǎo)致車(chē)輛表現(xiàn)出截然不同的行為——此類(lèi)不確定性通過(guò)增加數(shù)據(jù)量也無(wú)法降低。模型不確定性（Epistemic uncertainty）則源自測(cè)試時(shí)遇到的超出分布（OOD）輸入，這些輸入在訓(xùn)練數(shù)據(jù)中缺乏代表性。由于在危險(xiǎn)環(huán)境中（如碰撞或懸崖邊緣墜落）采集 OOD 數(shù)據(jù)往往不切實(shí)際，訓(xùn)練數(shù)據(jù)集與機(jī)器人在實(shí)際場(chǎng)景中所遭遇環(huán)境之間可能存在巨大差距。目前，越野導(dǎo)航領(lǐng)域的大部分研究要么專注于通過(guò)學(xué)習(xí)系統(tǒng)參數(shù)的分布而非點(diǎn)估計(jì)來(lái)處理內(nèi)稟不確定性 [10], [11]，要么專注于識(shí)別 OOD 地形以應(yīng)對(duì)模型不確定性 [12], [13], [14], [15]，但很少有工作同時(shí)量化這兩類(lèi)不確定性并在規(guī)劃階段緩解由此帶來(lái)的風(fēng)險(xiǎn)。

為了實(shí)現(xiàn)快速且可靠的越野導(dǎo)航，本文同時(shí)關(guān)注上游的不確定性感知可行性學(xué)習(xí)問(wèn)題和下游的風(fēng)險(xiǎn)感知導(dǎo)航問(wèn)題。鑒于二者相互依賴，我們提出了EVORA（Evidential Off-Road Autonomy）管線，將前述的不確定性感知可行性模型與風(fēng)險(xiǎn)感知規(guī)劃器緊密結(jié)合（見(jiàn)圖 2）。為了規(guī)劃快速軌跡，我們使用地形牽引力來(lái)刻畫(huà)可行性，其中牽引力定義為實(shí)際速度與指令速度之比（例如，導(dǎo)致車(chē)輪打滑并降低速度的濕滑地面對(duì)應(yīng)低牽引力）。此外，我們通過(guò)學(xué)習(xí)經(jīng)驗(yàn)牽引力分布（捕捉內(nèi)稟不確定性）和牽引力預(yù)測(cè)器潛在特征的概率密度（捕捉模型不確定性），高效地量化了兩類(lèi)不確定性。鑒于真實(shí)牽引力分布可能呈多模態(tài)（如圖 1(a)所示，外觀相似的植被可能對(duì)應(yīng)不同牽引值），我們對(duì)離散化的牽引值學(xué)習(xí)類(lèi)別分布以刻畫(huà)多模態(tài)性。借助文獻(xiàn) [16] 提出的證據(jù)深度學(xué)習(xí)方法，我們將神經(jīng)網(wǎng)絡(luò)輸出參數(shù)化為Dirichlet分布（類(lèi)別分布的共軛先驗(yàn)），并提出了一種基于平方Earth Mover’s Distance（EMD）的新型不確定性感知損失。該損失具有閉式解，可高效計(jì)算，并較傳統(tǒng)的基于交叉熵的損失更準(zhǔn)確地捕捉離散牽引值之間的關(guān)系。為應(yīng)對(duì)內(nèi)稟不確定性，我們?cè)O(shè)計(jì)了一個(gè)風(fēng)險(xiǎn)感知規(guī)劃器，該規(guī)劃器在前向仿真時(shí)使用最壞情形下的期望牽引力，實(shí)驗(yàn)證明其性能優(yōu)于或匹配于其他方法：包括基于名義牽引力的方法 [11]、基于期望牽引力的方法 [21]，以及直接優(yōu)化最壞情形期望代價(jià)的方法 [22] 。為降低模型不確定性帶來(lái)的風(fēng)險(xiǎn)，本文在牽引預(yù)測(cè)器潛在特征的概率密度上設(shè)定置信度閾值，以識(shí)別超出訓(xùn)練分布（OOD）的地形，并通過(guò)輔助規(guī)劃代價(jià)主動(dòng)避開(kāi)這些風(fēng)險(xiǎn)區(qū)域。該方法在仿真環(huán)境以及輪式和四足機(jī)器人硬件平臺(tái)上均進(jìn)行了詳盡驗(yàn)證，結(jié)果表明其具有可行性并顯著提升了導(dǎo)航性能。

圖 2. 所提出的考慮不確定性的可行性學(xué)習(xí)與風(fēng)險(xiǎn)感知導(dǎo)航方法概覽。 (a) 數(shù)據(jù)采集階段：我們驅(qū)動(dòng)機(jī)器人通過(guò)感興趣的地形，記錄牽引力值、機(jī)器人位姿，并構(gòu)建語(yǔ)義高程地圖。隨后，離線生成訓(xùn)練數(shù)據(jù)集——提取地形的語(yǔ)義與高程特征，并沿機(jī)器人所過(guò)路徑估計(jì)經(jīng)驗(yàn)牽引力分布。 (b) 不確定性建模：利用證據(jù)深度學(xué)習(xí)（Evidential Deep Learning）[16]，對(duì)離散化后的牽引力值學(xué)習(xí)類(lèi)別分布，以刻畫(huà)固有不確定性（Aleatoric Uncertainty）；同時(shí)，通過(guò)歸一化流網(wǎng)絡(luò)（Normalizing Flow Network）[17]對(duì)牽引力預(yù)測(cè)器潛在特征的密度進(jìn)行建模，以估計(jì)認(rèn)知不確定性（Epistemic Uncertainty）。整個(gè)網(wǎng)絡(luò)采用以網(wǎng)絡(luò)輸出參數(shù)化的狄利克雷分布所定義的考慮不確定性的損失函數(shù)進(jìn)行訓(xùn)練。 (c) 風(fēng)險(xiǎn)感知導(dǎo)航：對(duì)于固有不確定性，我們提出了一種基于牽引力分布左尾條件在險(xiǎn)價(jià)值（Left-Tail CVaR）的風(fēng)險(xiǎn)感知規(guī)劃器，結(jié)合基于采樣的模型預(yù)測(cè)控制（MPC）方法[18]對(duì)機(jī)器人狀態(tài)進(jìn)行前向模擬；對(duì)于認(rèn)知不確定性，則通過(guò)對(duì)牽引力預(yù)測(cè)器潛在特征密度設(shè)定閾值，識(shí)別并在輔助規(guī)劃代價(jià)中懲罰，以規(guī)避預(yù)測(cè)不可靠的OOD（分布外）地形。

A. 相關(guān)工作

1）可通行性分析（Traversability Analysis）：地形是否適合導(dǎo)航可以通過(guò)多種方式進(jìn)行評(píng)估，例如基于本體感測(cè)（proprioceptive）測(cè)量[23][24]、幾何特征[1][2][25]，以及幾何與語(yǔ)義特征的結(jié)合[3][4][26]（詳見(jiàn)綜述文獻(xiàn)[27]）。由于難以基于地形特征手工設(shè)計(jì)規(guī)劃代價(jià)，自監(jiān)督學(xué)習(xí)正越來(lái)越多地被用于學(xué)習(xí)與任務(wù)相關(guān)的可通行性表示。例如，Li 等人[28]提出了一種在密集植被下學(xué)習(xí)支撐面的方法，用于腿式機(jī)器人的行走；Gasparino 等人[21]建立了一種地形牽引力模型，用于表示機(jī)器人在執(zhí)行期望速度指令時(shí)的跟蹤能力。然而，這些方法并未考慮由于真實(shí)世界數(shù)據(jù)的噪聲性和稀缺性所帶來(lái)的非確定性（uncertainty），即Aleatoric 不確定性和Epistemic 不確定性。為捕捉 Aleatoric 不確定性，Ewen 等人[10]與 Cai 等人[11]利用高斯混合模型或分類(lèi)分布學(xué)習(xí)了多模態(tài)地形屬性。為捕捉 Epistemic 不確定性，F(xiàn)rey 等人[12]與 Schmid 等人[13]評(píng)估了訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在重構(gòu)過(guò)去 traversed 地形方面的能力，Seo 等人[29]則訓(xùn)練了一個(gè)用于識(shí)別陌生地形的二分類(lèi)器。相比之下，Endo 等人[15]與 Lee 等人[14]使用高斯過(guò)程（Gaussian Process, GP）回歸來(lái)量化 Epistemic 不確定性，但他們假設(shè)噪聲方差在全局是恒定的，即采用同方差（homoscedastic）噪聲模型。Murphy 等人[30]雖然采用了異方差（heteroscedastic）GP，可處理輸入依賴的噪聲，但其預(yù)測(cè)分布在解析上不可求解，因此需依賴近似方法。

與之相對(duì)，我們的工作在學(xué)習(xí)牽引力模型的同時(shí)，顯式地量化了 Aleatoric 與 Epistemic 不確定性。該模型預(yù)測(cè)的是實(shí)際速度與命令速度之間的比值。雖然我們也像 Gasparino 等人[21]那樣學(xué)習(xí)牽引力模型，但我們的方法是具備不確定性感知能力的，并可用于實(shí)現(xiàn)風(fēng)險(xiǎn)感知的導(dǎo)航（risk-aware navigation）。相比之下，F(xiàn)rey 等人[12]雖在規(guī)劃目標(biāo)中使用了實(shí)際速度與指令速度的差異，但在進(jìn)行狀態(tài)預(yù)測(cè)時(shí)假設(shè)無(wú)打滑（no slip）。而我們的牽引力模型可以用于在最差期望牽引力條件下模擬狀態(tài)演化（state rollouts），實(shí)驗(yàn)結(jié)果表明，這一策略在性能上優(yōu)于那些假設(shè)名義牽引力的傳統(tǒng)方法。

2）不確定性量化與 OOD 檢測(cè)（Uncertainty Quantification and OOD Detection）：不確定性量化在機(jī)器學(xué)習(xí)領(lǐng)域已有廣泛研究（詳見(jiàn)綜述文獻(xiàn)[31]），其中包括一些有效技術(shù)，如 Bayesian Dropout[32]、模型集成（Model Ensembles）[33] 和證據(jù)方法（Evidential Methods）[34]。在越野導(dǎo)航的相關(guān)研究中，模型集成方法被廣泛采用[35][36][37]，因?yàn)樗鼈兺ǔ?yōu)于基于 Bayesian Dropout 的方法[38]。相比之下，證據(jù)方法更適合實(shí)際部署場(chǎng)景，因?yàn)樗鼈儍H需單次網(wǎng)絡(luò)前向計(jì)算，不會(huì)帶來(lái)過(guò)高的計(jì)算或內(nèi)存開(kāi)銷(xiāo)。因此，我們采用了 Charpentier 等人[16]提出的證據(jù)方法，通過(guò)神經(jīng)網(wǎng)絡(luò)輸出直接參數(shù)化目標(biāo)分布的共軛先驗(yàn)分布，從而同時(shí)量化 Aleatoric 和 Epistemic 不確定性。此外，我們提出了一種基于 Hou 等人[19]提出的平方形式的地球移動(dòng)距離（Squared Earth Mover’s Distance, EMD）的不確定性感知損失函數(shù)，能夠更好地捕捉離散牽引力值之間的關(guān)系，從而提升牽引力預(yù)測(cè)的精度，進(jìn)而提高后續(xù)風(fēng)險(xiǎn)感知規(guī)劃器的導(dǎo)航性能。在部署訓(xùn)練好的牽引力模型時(shí)，我們通過(guò)估計(jì)得到的 Epistemic 不確定性顯式識(shí)別 OOD（Out-of-Distribution）地形，這屬于通用 OOD 檢測(cè)問(wèn)題的一種實(shí)例（綜述見(jiàn)[39]）。例如，Seo 等人[40]采用的基于重構(gòu)的方法，以及 Ancha 等人[41]采用的基于密度的方法，均在越野導(dǎo)航中展示了識(shí)別危險(xiǎn)地形的良好效果。與 Ancha 等人[41]類(lèi)似，我們的方法是一種基于密度的方式，通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)分布下的標(biāo)準(zhǔn)化概率密度顯式建模。作為替代，Liu 等人[42]與 Grathwohl 等人[43]提出的基于能量的方法（Energy-based Approaches）無(wú)需顯式密度歸一化，類(lèi)似的思想也被 Castaneda 等人[44]用于避免進(jìn)入 OOD 狀態(tài)。不同于只關(guān)注 OOD 檢測(cè)與規(guī)避的方法，本研究同時(shí)量化并緩解 Aleatoric 與 Epistemic 不確定性帶來(lái)的風(fēng)險(xiǎn)。雖然在測(cè)試階段應(yīng)盡量規(guī)避高 Epistemic 不確定性的 OOD 地形，但分布內(nèi)的地形（in-distribution terrain）仍可能由于復(fù)雜的車(chē)-地交互導(dǎo)致預(yù)測(cè)牽引力具有較高的 Aleatoric 不確定性。因此，需要獨(dú)立處理由 Aleatoric 不確定性引起的風(fēng)險(xiǎn)，使機(jī)器人能夠在低牽引力風(fēng)險(xiǎn)與節(jié)省時(shí)間之間進(jìn)行權(quán)衡，以提升整體導(dǎo)航性能。

3）風(fēng)險(xiǎn)感知規(guī)劃（Risk-Aware Planning）：在地形通行性存在不確定性的情況下，通行風(fēng)險(xiǎn)可通過(guò)代價(jià)地圖（costmaps）來(lái)表示。例如，F(xiàn)an 等人[45]和 Triest 等人[35]使用代價(jià)地圖，其中引入條件風(fēng)險(xiǎn)值（Conditional Value at Risk, CVaR）來(lái)衡量遇到最壞情形期望失敗的代價(jià)。CVaR 滿足一組對(duì)理性風(fēng)險(xiǎn)評(píng)估非常關(guān)鍵的公理?xiàng)l件[46]。除代價(jià)地圖外，導(dǎo)航性能也可以基于期望未來(lái)狀態(tài)（Gibson 等人[47]）或期望牽引力值（Gasparino 等人[21]）來(lái)評(píng)估。然而，這些方法依賴于名義系統(tǒng)行為或期望系統(tǒng)行為，在車(chē)輛與地形之間存在顯著噪聲（即 Aleatoric 不確定性較高）時(shí)，往往難以準(zhǔn)確反映真實(shí)性能。作為替代方案，Wang 等人[22]提出直接優(yōu)化規(guī)劃目標(biāo)的 CVaR，其方法是通過(guò)對(duì)不確定參數(shù)采樣，并在每條控制序列上進(jìn)行評(píng)估來(lái)估計(jì) CVaR，但這種方法計(jì)算開(kāi)銷(xiāo)很大。與我們的方法類(lèi)似，Lee 等人[36]近期的工作使用概率集成方法（probabilistic ensembles）[48]同時(shí)量化 Aleatoric 和 Epistemic 不確定性，并通過(guò)對(duì)這兩類(lèi)不確定性加權(quán)懲罰，實(shí)現(xiàn)風(fēng)險(xiǎn)感知的軌跡規(guī)劃。但他們的方法仍依賴于期望系統(tǒng)行為。

與其類(lèi)似，我們也通過(guò)輔助懲罰項(xiàng)來(lái)處理 Epistemic 不確定性，但在處理 Aleatoric 不確定性時(shí)，我們采用最壞情況下的期望系統(tǒng)參數(shù)進(jìn)行前向仿真，以評(píng)估風(fēng)險(xiǎn)。這種方式相比 Wang 等人[22]提出的采樣方法在計(jì)算上更加高效；相比 Lee 等人[36]與 Gasparino 等人[21]基于期望系統(tǒng)行為的方法，我們的方法在面對(duì)現(xiàn)實(shí)中存在多模態(tài)地形屬性時(shí)表現(xiàn)出更強(qiáng)的魯棒性。

B. 本文貢獻(xiàn)

我們提出了 EVORA：一個(gè)面向越野導(dǎo)航的完整流程，將不確定性感知的可通行性學(xué)習(xí)問(wèn)題與風(fēng)險(xiǎn)感知的運(yùn)動(dòng)規(guī)劃問(wèn)題緊密集成。我們顯式地量化了兩類(lèi)不確定性：Epistemic 不確定性：用于識(shí)別在陌生地形下?tīng)恳︻A(yù)測(cè)不可靠的情形；Aleatoric 不確定性：用于支持下游規(guī)劃器緩解由噪聲牽引力估計(jì)引起的風(fēng)險(xiǎn)。本文的主要貢獻(xiàn)如下：

1）一個(gè)基于牽引力分布的概率可通行性模型，用于建模 Aleatoric 不確定性，并通過(guò)預(yù)測(cè)器潛特征的密度來(lái)識(shí)別預(yù)測(cè)結(jié)果是否可靠（從而量化 Epistemic 不確定性）。

2）提出一種新穎的、不確定性感知損失函數(shù)：基于平方形式的 EMD 損失（EMD2 loss，[19]）并由本文推導(dǎo)出封閉形式表達(dá)。與不確定性感知交叉熵?fù)p失（Uncertainty-aware Cross Entropy, UCE，[16]）聯(lián)合使用時(shí)，該損失可提高牽引力預(yù)測(cè)精度、OOD 檢測(cè)性能，以及下游導(dǎo)航性能。

3）設(shè)計(jì)一個(gè)基于牽引力 CVaR 的風(fēng)險(xiǎn)感知規(guī)劃器，用于處理 Aleatoric 不確定性。實(shí)驗(yàn)表明，該規(guī)劃器優(yōu)于僅假設(shè)名義牽引力[11]或期望牽引力[21]的方案，并在仿真與真實(shí)硬件測(cè)試中，性能超過(guò)或可與優(yōu)化代價(jià) CVaR 方法[22]相媲美。

4）對(duì)上述風(fēng)險(xiǎn)感知規(guī)劃器進(jìn)行擴(kuò)展，使其能夠處理 Epistemic 不確定性，即通過(guò)規(guī)避 OOD 地形來(lái)提高仿真中的導(dǎo)航成功率，并在硬件實(shí)驗(yàn)中減少人工干預(yù)次數(shù)。

本工作的初步會(huì)議版本發(fā)表于文獻(xiàn)[49]，當(dāng)時(shí)提出了學(xué)習(xí)牽引力分布并使用牽引力 CVaR 進(jìn)行規(guī)劃的方法。而本篇擴(kuò)展工作在以下方面進(jìn)行了改進(jìn)：采用文獻(xiàn)[16]提出的證據(jù)學(xué)習(xí)方法（Evidential Learning）進(jìn)行模型訓(xùn)練；基于文獻(xiàn)[19]推導(dǎo)新的不確定性感知的 EMD2 損失函數(shù)，顯著提升了學(xué)習(xí)效果。這些新方法不僅提升了牽引力預(yù)測(cè)精度與 OOD 檢測(cè)性能，還帶來(lái)了更快的導(dǎo)航速度。通過(guò)增加大量硬件實(shí)驗(yàn)，本文進(jìn)一步驗(yàn)證了會(huì)議版本[49]中所提出的風(fēng)險(xiǎn)感知規(guī)劃器相比當(dāng)前最先進(jìn)方法[11][21][22]的性能提升。

Ⅱ 問(wèn)題概述

我們考慮的問(wèn)題是：在地形牽引力影響下，地面機(jī)器人如何實(shí)現(xiàn)快速導(dǎo)航至目標(biāo)點(diǎn)。由于牽引力值具有不確定性，我們?cè)诘?span> II-A 節(jié)中引入了以牽引力為隨機(jī)變量的動(dòng)力學(xué)模型；在第 II-B 節(jié)中引入了以“到達(dá)目標(biāo)所需時(shí)間”為指標(biāo)的規(guī)劃目標(biāo)函數(shù)；并在第 II-C 節(jié)中討論了最小化該時(shí)間目標(biāo)所面臨的挑戰(zhàn)。

A. 含牽引力參數(shù)的動(dòng)力學(xué)模型

考慮以下離散時(shí)間系統(tǒng)：

其中：：機(jī)器人狀態(tài)向量（如位置與朝向）；：控制輸入（例如線速度與角速度）；：用于描述地形牽引力的參數(shù)向量。我們考慮兩種可近似多類(lèi)機(jī)器人動(dòng)力學(xué)行為的模型，如圖 3 所示。

圖 3.可以用獨(dú)輪車(chē)或自行車(chē)建模的地面機(jī)器人示例動(dòng)力學(xué)模型。（a）遙控車(chē)。（b）差動(dòng)驅(qū)動(dòng)機(jī)器人。（c）腿式機(jī)器人。

1）單輪車(chē)模型（Unicycle Model）

適用于差速驅(qū)動(dòng)機(jī)器人與腿式機(jī)器人，定義如下：

其中：：位置和航向角；

：命令的線速度和角速度；

：線向與角向的牽引系數(shù)（范圍）；

：時(shí)間步長(zhǎng)。

直觀理解：牽引力表示滑移程度，即實(shí)際速度與命令速度的比值。

2）自行車(chē)模型（Bicycle Model）適用于阿克曼轉(zhuǎn)向機(jī)器人，定義如下：

其中：：車(chē)輪軸距；

：命令的線速度和轉(zhuǎn)向角；

：含義同上，用于建模不同方向的牽引比例；

參考點(diǎn)：為后輪軸中點(diǎn)。

B. 規(guī)劃目標(biāo)

我們采用文獻(xiàn) [11] 中提出的最短時(shí)間目標(biāo)函數(shù)（minimum-time objective），當(dāng)然也可以采用其他形式的“到達(dá)目標(biāo)”類(lèi)目標(biāo)函數(shù)。直觀地說(shuō)，該目標(biāo)函數(shù)在系統(tǒng)狀態(tài)尚未進(jìn)入目標(biāo)區(qū)域之前，通過(guò)累加時(shí)間步來(lái)施加階段代價(jià)（stage cost）。如果狀態(tài)軌跡從未到達(dá)目標(biāo)區(qū)域，則還會(huì)施加一個(gè)終端代價(jià)（terminal cost），以懲罰估計(jì)的剩余時(shí)間。

設(shè)有函數(shù) 用于計(jì)算當(dāng)前狀態(tài) 與目標(biāo)之間的歐氏距離，則從時(shí)間到的狀態(tài)軌跡上的最短時(shí)間目標(biāo)函數(shù)定義為：

即總代價(jià)由終端代價(jià)和階段代價(jià)兩部分組成。

終端代價(jià)和階段代價(jià)定義為：

其中：：用于估計(jì)剩余時(shí)間的默認(rèn)速度；

：固定的時(shí)間間隔；

：指示函數(shù)，若軌跡中存在某個(gè)狀態(tài)已到達(dá)目標(biāo)區(qū)域，則取值為 1，否則為 0。

我們使用該指示函數(shù)來(lái)避免在到達(dá)目標(biāo)后繼續(xù)累計(jì)代價(jià)。盡管時(shí)間間隔是固定的，但實(shí)際達(dá)到目標(biāo)所需的步數(shù)取決于機(jī)器人在不同地形條件下的實(shí)際速度。從直覺(jué)上來(lái)看，該目標(biāo)函數(shù)的設(shè)計(jì)旨在鼓勵(lì)機(jī)器人盡可能快地到達(dá)目標(biāo)區(qū)域。

C. 關(guān)鍵挑戰(zhàn)

雖然目標(biāo)函數(shù)（公式（4））可以通過(guò)非線性優(yōu)化方法（如模型預(yù)測(cè)路徑積分控制（Model Predictive Path Integral, MPPI），參見(jiàn)文獻(xiàn) [18] 中的算法 2）來(lái)尋找最優(yōu)控制序列以實(shí)現(xiàn)優(yōu)化，但地形牽引力在不同地形類(lèi)型之間存在變化，因此必須從真實(shí)環(huán)境中進(jìn)行學(xué)習(xí)。然而，現(xiàn)實(shí)世界中的地形牽引力存在不確定性：一方面，即使是外觀和幾何特征相似的地形，其牽引力性質(zhì)也可能差異顯著，屬于Aleatoric 不確定性；另一方面，牽引力模型的訓(xùn)練只能依賴于有限的數(shù)據(jù)集，這會(huì)導(dǎo)致Epistemic 不確定性。即使我們能夠?qū)Φ匦螤恳Φ牟淮_定性進(jìn)行準(zhǔn)確建模，如何設(shè)計(jì)一個(gè)在該不確定性下仍能降低失敗風(fēng)險(xiǎn)的風(fēng)險(xiǎn)感知規(guī)劃器仍然是一個(gè)重大挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn)，我們?cè)诘?III 節(jié)和第 IV 節(jié)分別提出了不確定性感知的可通行性模型與風(fēng)險(xiǎn)感知的規(guī)劃器。

Ⅲ 不確定性感知的可通行性建模

在本節(jié)中，我們首先介紹一個(gè)用于建模Aleatoric 不確定性的牽引力分布預(yù)測(cè)器（traction distribution predictor），以及一個(gè)用于建模Epistemic 不確定性的潛空間密度估計(jì)器（latent space density estimator）。整套可通行性分析流程如圖 4 所示。隨后，我們?cè)跔恳W(xué)習(xí)的背景下回顧文獻(xiàn) [16] 提出的證據(jù)學(xué)習(xí)方法（evidential method），并進(jìn)一步提出一種新的不確定性感知損失函數(shù)，以提升學(xué)習(xí)性能。

圖 4.提出的可遍歷性管道將海拔和語(yǔ)義特征映射到捕獲隨機(jī)不確定性的牽引分布，以及捕獲認(rèn)識(shí)不確定性的潛在特征的密度。如果潛在要素的密度低于閾值，則 Terrain 區(qū)域被視為 OOD，稍后在規(guī)劃期間會(huì)避免使用。當(dāng)潛在特征的密度高于閾值時(shí)，預(yù)測(cè)的牽引力分布是可靠的，并通知下游風(fēng)險(xiǎn)感知規(guī)劃者（第 IV 節(jié)）在固定風(fēng)險(xiǎn)與牽引不確定的穿越區(qū)域所節(jié)省的時(shí)間之間進(jìn)行權(quán)衡。

A. Aleatoric 不確定性：牽引力分布建模

設(shè)：為一個(gè)包含個(gè)離散牽引力取值的集合（這些取值表示實(shí)際速度與指令速度的比值）；為地形特征的集合，其中包含高程值以及地形語(yǔ)義標(biāo)簽的 one-hot 向量表示。我們的目標(biāo)是：在輸入地形特征向量的條件下，對(duì)牽引力空間建模其分布：

我們用表示定義在上的分類(lèi)分布（categorical distribution），該分布反映了由于環(huán)境因素導(dǎo)致的Aleatoric 不確定性（即影響牽引力但在特征中無(wú)法顯式表達(dá)的因素）。需要注意的是，公式（7）中的分布可以通過(guò)一個(gè)由參數(shù) 控制的神經(jīng)網(wǎng)絡(luò)（NN）來(lái)建模，并通過(guò)經(jīng)驗(yàn)數(shù)據(jù)集進(jìn)行訓(xùn)練。該數(shù)據(jù)集形式為：雖然我們沒(méi)有顯式建模地形特征本身的不確定性（例如：高程估計(jì)噪聲、因外觀相似導(dǎo)致的語(yǔ)義標(biāo)簽誤判）或其他因素（如低層速度控制器的設(shè)計(jì)），但這些未建模因素將反映在實(shí)際采集的數(shù)據(jù)中，并能通過(guò)訓(xùn)練牽引力分布間接體現(xiàn)。

我們采用分類(lèi)分布（categorical distributions）來(lái)作為高斯混合模型（Gaussian Mixture Models, GMMs）和正態(tài)化流（normalizing flows，[17]）的可行替代，用于學(xué)習(xí)實(shí)際中出現(xiàn)的多模態(tài)牽引力分布，原因如下：分類(lèi)分布無(wú)需手動(dòng)調(diào)節(jié)簇?cái)?shù)量；天生構(gòu)造出有界分布（bounded distributions）；根據(jù)我們的經(jīng)驗(yàn)，其收斂速度快于 normalizing flows，且在精度上可達(dá)到相近水平。由于我們僅需對(duì) 一維的線向與角向牽引力值進(jìn)行離散化，因而避免了在高維空間中離散化導(dǎo)致的指數(shù)級(jí)增長(zhǎng)的問(wèn)題。因此，采用有限數(shù)量的離散 bin 的分類(lèi)分布就足以滿足任務(wù)需求。

圖 5. 數(shù)據(jù)采集與離線數(shù)據(jù)集生成流程。(a) 使用 Clearpath Husky 機(jī)器人進(jìn)行真實(shí)環(huán)境數(shù)據(jù)采集的示意圖。機(jī)器人在人工駕駛下行駛約 10 分鐘，同時(shí)記錄其路徑軌跡、牽引力值，并構(gòu)建環(huán)境的語(yǔ)義地圖與高程圖。牽引力值以 20 Hz 頻率記錄。圖中為清晰起見(jiàn)僅展示了部分牽引力數(shù)據(jù)，其中牽引力值出現(xiàn)不連續(xù)的位置對(duì)應(yīng)于未發(fā)送線速度或角速度命令的時(shí)刻。(b) 離線數(shù)據(jù)集生成階段，牽引力值被離散化后，按遍歷路徑中的地圖單元格累計(jì)為直方圖形式存儲(chǔ)。牽引力預(yù)測(cè)器的輸入由語(yǔ)義 patch 和高程 patch 組成。地形類(lèi)別示例包括：植被（淺綠色）、草地（深綠色）、裸土（淺棕色）、覆蓋物/腐殖層（深棕色）。預(yù)測(cè)牽引力分布與經(jīng)驗(yàn)牽引力分布用于計(jì)算訓(xùn)練損失，而生成經(jīng)驗(yàn)牽引力分布所用的測(cè)量計(jì)數(shù)可用于對(duì)訓(xùn)練損失加權(quán)，從而降低對(duì)少見(jiàn)地形區(qū)域的過(guò)擬合風(fēng)險(xiǎn)。(a) 數(shù)據(jù)采集流程。(b) 離線數(shù)據(jù)集生成流程。

圖 5 展示了真實(shí)數(shù)據(jù)采集與離線數(shù)據(jù)集生成的示例。環(huán)境的語(yǔ)義與幾何信息可以通過(guò) 語(yǔ)義 OctoMap（semantic octomap，[50]）構(gòu)建，該方法通過(guò)時(shí)間融合語(yǔ)義點(diǎn)云來(lái)獲得三維結(jié)構(gòu)。我們使用 PointRend[51] 對(duì) RGB 圖像進(jìn)行分割，該網(wǎng)絡(luò)在 RUGD 越野導(dǎo)航數(shù)據(jù)集[52] 上進(jìn)行過(guò)訓(xùn)練，支持 24 個(gè)語(yǔ)義類(lèi)別。分割結(jié)果隨后會(huì)被投影到激光雷達(dá)點(diǎn)云上，從而將語(yǔ)義信息轉(zhuǎn)移到空間地圖。在離線數(shù)據(jù)集生成階段，我們通過(guò)將牽引力值離散后累計(jì)為直方圖的方式，得到經(jīng)驗(yàn)性線向與角向牽引力分布。這些直方圖分別存儲(chǔ)在機(jī)器人遍歷過(guò)的每一個(gè)地形單元格中。同時(shí)，我們也存儲(chǔ)每個(gè)單元格內(nèi)的測(cè)量次數(shù)，以便在訓(xùn)練過(guò)程中按照這些計(jì)數(shù)對(duì)損失函數(shù)加權(quán)，從而降低在稀疏地形上因樣本稀少導(dǎo)致的不穩(wěn)定學(xué)習(xí)影響。在實(shí)際操作中，我們分別學(xué)習(xí)線向與角向牽引力分布。神經(jīng)網(wǎng)絡(luò)的架構(gòu)如下：一個(gè)共享編碼器（shared encoder），包括卷積層（CNN）和后續(xù)的全連接層，用于同時(shí)處理地形的語(yǔ)義與高程 patch；編碼器之后接兩個(gè)獨(dú)立的全連接解碼器頭部（decoder heads），分別用于預(yù)測(cè)線向與角向牽引力分布，每個(gè)輸出采用 softmax 激活函數(shù)。

B. Epistemic 不確定性：潛空間密度建模

由于訓(xùn)練數(shù)據(jù)有限，牽引力分布預(yù)測(cè)器在遇到新穎地形區(qū)域時(shí)的輸出可能不可靠，從而導(dǎo)致該區(qū)域的導(dǎo)航性能下降。為了度量這種 Epistemic 不確定性，我們希望估計(jì)牽引力預(yù)測(cè)器中某個(gè)中間層提取出的潛特征的密度，該特征是基于地形輸入特征得到的。密度估計(jì)器定義如下：

我們使用一個(gè)由參數(shù) 控制的正態(tài)化流模型（normalizing flow）來(lái)學(xué)習(xí)上述密度函數(shù)。從整體上看，正態(tài)化流的原理是：通過(guò)一系列可逆且可微的映射函數(shù)，將目標(biāo)分布（如潛空間分布）變換為一個(gè)簡(jiǎn)單的基礎(chǔ)分布（base distribution），例如標(biāo)準(zhǔn)正態(tài)分布。然后，使用變量變換公式（change of variable formula，[17]），可以計(jì)算任意樣本的密度：其密度為：變換后樣本在基礎(chǔ)分布上的密度值；變換函數(shù)的Jacobian 行列式的絕對(duì)值（即體積變化因子）的乘積。在選擇潛空間特征時(shí)，必須確保該特征包含與任務(wù)相關(guān)的信息。為此，我們使用由共享地形特征編碼器（shared terrain feature encoder）產(chǎn)生的潛特征，因?yàn)樵摼幋a器同時(shí)用于預(yù)測(cè)線向與角向牽引力分布，其表示能力足夠強(qiáng)。

為了更直觀地使用密度作為不確定性指標(biāo)，我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的置信度函數(shù) ，用于衡量輸入特征的置信程度。該函數(shù)基于訓(xùn)練集內(nèi)所有地形樣本的潛空間密度分布中觀察到的：最大密度；最小密度。該置信度可用于規(guī)劃中區(qū)分訓(xùn)練內(nèi)分布（in-distribution）與 OOD 地形（out-of-distribution terrain）。

在部署階段，若某地形特征的置信度得分低于某個(gè)設(shè)定的門(mén)限，則認(rèn)為該地形為 OOD（Out-of-Distribution）。此類(lèi)具有 OOD 特征的地形區(qū)域可以在路徑規(guī)劃中通過(guò)輔助懲罰項(xiàng)（auxiliary penalties）顯式規(guī)避。一個(gè)較為系統(tǒng)的設(shè)定方式是：將設(shè)為訓(xùn)練集中所有地形特征的潛特征密度的第分位數(shù)（percentile），即：；較高的值意味著測(cè)試時(shí)更多地形將被歸為 OOD。由于在公式（9）中使用了歸一化操作，選擇和分別對(duì)應(yīng)訓(xùn)練集中密度的第 0 百分位（最小值）與第 100 百分位（最大值），這為門(mén)限選擇提供了便利。值得注意的是，這個(gè)門(mén)限可以離線選定，例如若希望機(jī)器人僅規(guī)避密度低于訓(xùn)練集最小值的區(qū)域，可以簡(jiǎn)單地設(shè)置。這種策略在部署牽引力預(yù)測(cè)模型于訓(xùn)練外場(chǎng)景時(shí)（即未見(jiàn)過(guò)的新地形），能夠顯著提高導(dǎo)航成功率。這一效果在仿真實(shí)驗(yàn)（見(jiàn)第 VIII 節(jié)）與真實(shí)硬件實(shí)驗(yàn)（見(jiàn)第 IX-B 節(jié)）中均得到了驗(yàn)證。

C. 證據(jù)深度學(xué)習(xí)

盡管牽引力預(yù)測(cè)器與密度估計(jì)器可以采用順序訓(xùn)練（sequential training）方式分別訓(xùn)練，但 Charpentier 等人 [16] 證明了：基于證據(jù)深度學(xué)習(xí)（evidential deep learning）的聯(lián)合訓(xùn)練能夠在保持預(yù)測(cè)精度的同時(shí)，顯著提升 OOD 檢測(cè)性能。本節(jié)中，我們回顧文獻(xiàn) [16] 提出的訓(xùn)練方法與損失函數(shù)。在該方法中，神經(jīng)網(wǎng)絡(luò)的輸出參數(shù)化了一個(gè) Dirichlet 分布，該分布是分類(lèi)分布（categorical distributions）的共軛先驗(yàn)。

設(shè) 表示一個(gè) Dirichlet 分布，其濃度參數(shù)為：，這是定義在個(gè) bin 上的一個(gè)層級(jí)概率分布，其中下層的分類(lèi)分布的參數(shù) 滿足：即 p 是一個(gè)歸一化的概率質(zhì)量函數(shù)（PMF），它由上層的 Dirichlet 分布生成：Dirichlet 分布的期望（即期望 PMF）為：該期望 PMF 表征了 Aleatoric 不確定性。Dirichlet 分布參數(shù)的總和：表示分布相對(duì)于其期望的集中程度（concentration），也稱為總證據(jù)量（total evidence）。證據(jù)越高，表示 Epistemic 不確定性越低，因?yàn)樵摌颖驹谟?xùn)練集中觀察得更多。給定一個(gè)先驗(yàn) Dirichlet 分布，神經(jīng)網(wǎng)絡(luò)會(huì)基于輸入特征執(zhí)行一次輸入相關(guān)的后驗(yàn)更新，從而學(xué)習(xí)出對(duì)該輸入的置信表達(dá)。

后驗(yàn) Dirichlet 分布同時(shí)依賴于：由牽引力預(yù)測(cè)器（見(jiàn)公式（7））預(yù)測(cè)的牽引力分布；與潛特征密度（見(jiàn)公式（8））成比例的預(yù)測(cè)“證據(jù)” ；一個(gè)預(yù)設(shè)的置信預(yù)算常數(shù) 。由此可得，后驗(yàn) Dirichlet 分布對(duì)應(yīng)的期望牽引力 PMF 為：

其中：：先驗(yàn) Dirichlet 分布的總濃度；先驗(yàn)分布的期望 PMF。我們采用平坦先驗(yàn)（flat prior），令：其中為全 1 向量，從而得到一個(gè)在所有可能 PMF 上均勻的 Dirichlet 分布?；谖墨I(xiàn) [16] 的該建?？蚣埽篁?yàn) Dirichlet 分布及其期望牽引力分布都依賴于牽引力預(yù)測(cè)器、潛密度估計(jì)器與輸入地形特征。為了簡(jiǎn)化符號(hào)，下面對(duì)損失函數(shù)的分析中將統(tǒng)一使用一般形式的 Dirichlet 分布與。但在實(shí)際訓(xùn)練中，應(yīng)將它們替換為上述的（后驗(yàn)形式）公式（10）、（11）、（12）。

給定一個(gè)目標(biāo)概率質(zhì)量函數(shù)（PMF）向量，其表示通過(guò)經(jīng)驗(yàn)數(shù)據(jù)估計(jì)得到的牽引力分布，我們可以將牽引力預(yù)測(cè)器和 normalizing flow 模型聯(lián)合訓(xùn)練，使用以下的 UCE（Uncertainty-aware Cross Entropy）損失函數(shù) [16]：

其中：?是期望交叉熵?fù)p失（expected CE loss），而是一個(gè)用于鼓勵(lì)分布平滑性的熵正則項(xiàng)。需要注意的是，和都依賴于 Dirichlet 分布的參數(shù) （詳見(jiàn)附錄 A）。文獻(xiàn) [16] 中的消融研究表明，使用上述損失（公式 (13)）進(jìn)行訓(xùn)練，在保持傳統(tǒng)交叉熵?fù)p失精度的同時(shí)，能夠有效提升 OOD 檢測(cè)性能。然而，CE 類(lèi)損失函數(shù)在本研究中的一個(gè)關(guān)鍵缺陷在于：它將所有 bin 之間的預(yù)測(cè)誤差視為相互獨(dú)立。這種“獨(dú)立性假設(shè)”在牽引力建模場(chǎng)景中并不合理，因?yàn)椋核?bin 是通過(guò)對(duì)連續(xù)牽引力值進(jìn)行離散化獲得的；這些 bin 是有序的——即，距離較近的 bin 在語(yǔ)義上應(yīng)當(dāng)比距離較遠(yuǎn)的 bin 更為相似。為了解決這個(gè)問(wèn)題，我們提出了一種新的損失函數(shù)，基于平方地球移動(dòng)距離（squared Earth Mover’s Distance, EMD2） [19]。已有研究表明，在 bin 有序的情形下，該損失相比基于交叉熵的損失可獲得更好的預(yù)測(cè)精度。

D. 不確定性感知的平方地球移動(dòng)距離

直觀上，EMD（Earth Mover's Distance）衡量的是：將一個(gè)分布的概率質(zhì)量轉(zhuǎn)換為另一個(gè)分布所需的最小“運(yùn)輸代價(jià)”。對(duì)于兩個(gè)具有相同數(shù)量 bins 的分類(lèi)分布（categorical distributions），EMD 可以計(jì)算為封閉形式解 [19]。給定一個(gè)預(yù)測(cè)的概率質(zhì)量函數(shù)（PMF）與目標(biāo) ，在 bin 等間距的前提下，基于 ?-范數(shù)的歸一化 EMD 可寫(xiě)為：

其中：表示累加求和（cumulative sum）操作；實(shí)際訓(xùn)練中，我們令，即使用歐氏距離（Euclidean distance）；并優(yōu)化其平方形式損失函數(shù)，記作 EMD2，省略了乘法常數(shù)項(xiàng)。圖 6 中的示例清楚地表明：與忽略 bin 間關(guān)系的交叉熵（CE）相比，EMD2 能更好地表達(dá)預(yù)測(cè) PMF 的物理含義。

圖6. EMD2和CE之間的差異。給定真實(shí)值（GT）和預(yù)測(cè)值和，CE產(chǎn)生相同的值，而EMD2對(duì)的懲罰更大。實(shí)際上，EMD2更為理想，因?yàn)樗紤]了離散化的牽引值之間的跨區(qū)間關(guān)系。

由于 EMD2 僅定義在 PMF 上，一個(gè)樸素但有效的策略是：將目標(biāo)分布與 Dirichlet 分布的期望 PMF 進(jìn)行比較。從而定義如下?lián)p失函數(shù)（忽略常數(shù)乘子）：

其中：?是 Dirichlet 的期望 PMF；? 是總證據(jù)量（total evidence）；定義為：

由于累計(jì)和操作具有線性性質(zhì)，因此：因此，是與總證據(jù)量無(wú)關(guān)的，這意味著它對(duì) Epistemic 不確定性（由證據(jù)控制）的學(xué)習(xí)并不敏感，如圖 7 中的示例所示，因此無(wú)法有效學(xué)習(xí) Epistemic 不確定性。

圖 7. 在一個(gè)包含三個(gè)分箱、、的簡(jiǎn)單示例中，分析標(biāo)準(zhǔn) EMD2 損失與我們提出的 UEMD2 損失之間的差異。每個(gè)藍(lán)色三角形表示預(yù)測(cè)的狄利克雷分布，可視化為 3-單純形上的概率密度；單純形內(nèi)的每個(gè)點(diǎn)對(duì)應(yīng)三個(gè)分箱上的分類(lèi)分布。紅色十字 + 表示目標(biāo)標(biāo)簽分布在訓(xùn)練集中的位置。狄利克雷分布可以通過(guò)兩個(gè)量進(jìn)行參數(shù)化：其均值的位置及其在均值附近的集中度。左圖：在保持狄利克雷分布集中度不變的情況下，改變其位置。在這種情況下，兩種損失的行為相似且符合預(yù)期——它們促使預(yù)測(cè)的狄利克雷分布接近目標(biāo)標(biāo)簽分布。右圖：在保持狄利克雷分布集中度不變的情況下，改變其在類(lèi)集 (GT) 上的位置。由于 EMD2 僅取決于狄利克雷均值的位置，因此它相對(duì)于變化的集中度而言是恒定的。然而，我們提出的 UEMD2 鼓勵(lì)預(yù)測(cè)的狄利克雷函數(shù)具有較高的集中度（低認(rèn)知不確定性）。學(xué)習(xí)預(yù)測(cè)分布內(nèi)訓(xùn)練樣本的低認(rèn)知不確定性對(duì)于校準(zhǔn)不確定性預(yù)測(cè)和檢測(cè) OOD 樣本至關(guān)重要，而不是對(duì)集中度漠不關(guān)心。

類(lèi)似于文獻(xiàn) [16] 中基于的交叉熵期望損失定義方式，我們提出了不確定性感知平方地球移動(dòng)距離（UEMD2）損失，將其定義為預(yù)測(cè)的 Dirichlet 分布下的 EMD2 期望：

我們提出的 UEMD2 損失具有封閉形式，如下定理所示：

定理 1：令為一個(gè) Dirichlet 分布，為一個(gè)分類(lèi)目標(biāo)分布，則其期望損失函數(shù)具有如下閉式表達(dá)：

其中：?：定義見(jiàn)公式（16）。

證明：見(jiàn)附錄B。

由于與公式（15）中的在結(jié)構(gòu)上的相似性，式（18）同樣懲罰預(yù)測(cè) PMF 的 EMD2 誤差，從而提升牽引力預(yù)測(cè)精度。此外，式（18）還包含了對(duì) Dirichlet 總證據(jù)量的反向懲罰項(xiàng)，從而有效鼓勵(lì)模型輸出集中度高（低 Epistemic 不確定性）的預(yù)測(cè)，如圖 7 所示。事實(shí)上，可以證明（利用 Jensen 不等式與的凸性）：雖然 UEMD2 損失可單獨(dú)用作損失函數(shù)，但其平方項(xiàng)特性有時(shí)會(huì)導(dǎo)致訓(xùn)練停在非期望的局部最優(yōu) [19]。為此，我們參考文獻(xiàn) [19]，引入一個(gè)聯(lián)合損失函數(shù)，融合了 CE 和 EMD2 的優(yōu)勢(shì)，定義如下多目標(biāo)優(yōu)化目標(biāo)：

其中：：Dirichlet 分布的熵，鼓勵(lì)分布光滑；：超參數(shù)，用于調(diào)節(jié)各項(xiàng)損失的重要性。在實(shí)踐中，我們對(duì)預(yù)測(cè)的線向與角向牽引力分布分別計(jì)算公式（19）中的總損失，然后進(jìn)行平均。如第五節(jié)第 C 小節(jié)（Section V-C）中的仿真結(jié)果所示，該多目標(biāo)損失函數(shù)（19）相比單一損失，訓(xùn)練更穩(wěn)定，且在測(cè)試階段具有更好的泛化能力。

Ⅳ 基于學(xué)習(xí)牽引力分布的風(fēng)險(xiǎn)感知規(guī)劃

盡管應(yīng)規(guī)避那些可能導(dǎo)致高 Epistemic 不確定性的 OOD 地形，但在分布內(nèi)（in-distribution）的地形上，由于復(fù)雜的車(chē)-地相互作用，仍可能引發(fā) 高 Aleatoric 不確定性，從而造成牽引力不穩(wěn)定。因此，我們提出了一種風(fēng)險(xiǎn)感知的規(guī)劃器（risk-aware planner），能夠權(quán)衡以下兩者之間的關(guān)系：失去動(dòng)力（immobilization）的風(fēng)險(xiǎn)；在高不確定性地形上通行所帶來(lái)的時(shí)間節(jié)約潛力。

A. 條件風(fēng)險(xiǎn)值

我們采用 CVaR（Conditional Value at Risk）作為風(fēng)險(xiǎn)指標(biāo)，因?yàn)樗鼭M足一組用于理性風(fēng)險(xiǎn)評(píng)估的重要公理 [46]。傳統(tǒng) CVaR 定義假設(shè)風(fēng)險(xiǎn)位于分布右尾（right tail），而我們對(duì)隨機(jī)變量 ZZ 在給定風(fēng)險(xiǎn)水平下，分別定義其左右尾的 CVaR（見(jiàn)圖 8）如下：

圖 8. 本研究定義了兩種條件風(fēng)險(xiǎn)價(jià)值（CVaR）的版本，以捕捉隨機(jī)變量 ( ) 在左尾或右尾的最壞情況期望值，分別為 ( ) 和 ( )，其中最壞情況構(gòu)成了總概率的 ( ) 部分。左尾和右尾的風(fēng)險(xiǎn)價(jià)值（VaR）分別定義為 ( ) 和 ( )。

其中，左右尾的 VaR（Value at Risk）定義如下：

從直觀角度理解：和分別衡量右尾與左尾區(qū)域的期望結(jié)果；每個(gè)尾部所占概率質(zhì)量均為；通常，右尾用于衡量需要最小化的代價(jià)（如時(shí)間、能耗）；左尾用于衡量低牽引力情形的風(fēng)險(xiǎn)，更適用于越野可通行性問(wèn)題。

當(dāng) 時(shí)，左右尾 CVaR 定義均等價(jià)于期望值：

B. 風(fēng)險(xiǎn)感知規(guī)劃

為應(yīng)對(duì)因牽引力不確定性帶來(lái)的風(fēng)險(xiǎn)，我們首先介紹文獻(xiàn) [22] 提出的基線方法：該方法優(yōu)化規(guī)劃目標(biāo)函數(shù)的右尾 CVaR（CVaR-Cost）。隨后，我們提出一種計(jì)算效率更高的方法，即基于牽引力左尾 CVaR 的成本設(shè)計(jì)（CVaR-Dyn）。最后，我們分析這兩種方法的優(yōu)缺點(diǎn)。

1)最壞情形期望代價(jià)（CVaR-Cost [22]）給定初始狀態(tài) ，我們希望找到一個(gè)控制序列，使得在地形牽引力不確定的情況下，最小化名義代價(jià)函數(shù) （公式 (4)）的右尾 CVaR：

其中：牽引力是從預(yù)測(cè)的牽引力分布（公式 12）中采樣得到；由于牽引力不確定，變?yōu)橐粋€(gè)隨機(jī)變量，依賴于狀態(tài)軌跡的實(shí)現(xiàn)過(guò)程。該方法受到文獻(xiàn) [22] 的啟發(fā)，但我們進(jìn)一步支持與地形特征相關(guān)的牽引力分布建模。

在實(shí)際中，優(yōu)化問(wèn)題（24）可通過(guò) MPPI（Model Predictive Path Integral）實(shí)現(xiàn)，方法是對(duì)每個(gè)控制序列生成個(gè)牽引力樣本，并估計(jì)其對(duì)應(yīng)的 CVaR 值：為加速訓(xùn)練，可利用 GPU 并行預(yù)生成張牽引力圖，每張圖中每個(gè)地圖單元格存儲(chǔ)一個(gè)牽引力樣本，從而使每組控制序列可在所有圖上并行評(píng)估。但隨著地圖尺寸增加，計(jì)算開(kāi)銷(xiāo)仍會(huì)迅速膨脹。

2)最壞情形期望牽引力（CVaR-Dyn）

為提高計(jì)算效率，我們提出一種新方法：使用地形牽引力分布的左尾 CVaR來(lái)替代 Monte Carlo 采樣。目標(biāo)是最小化名義代價(jià)函數(shù) C，但軌跡是由最壞情形牽引力決定的：

當(dāng) 時(shí)，等價(jià)于期望值，即退化為文獻(xiàn) [21] 所采用的方法。

3)優(yōu)點(diǎn)與局限性（Advantages and Limitations）

CVaR-Cost 與 CVaR-Dyn 都建立在“最壞情形”風(fēng)險(xiǎn)的直覺(jué)之上，分別使用：CVaR-Cost：目標(biāo)函數(shù)的 CVaR；CVaR-Dyn：牽引力參數(shù)的 CVaR。它們的優(yōu)勢(shì)：所有地形類(lèi)型共享一個(gè)風(fēng)險(xiǎn)參數(shù) ，調(diào)參簡(jiǎn)單；CVaR-Cost 是更一般性的風(fēng)險(xiǎn)處理方法（但計(jì)算復(fù)雜）；CVaR-Dyn 計(jì)算效率更高，更適合大規(guī)模地圖。CVaR-Dyn 的局限在于：其直覺(jué)假設(shè)“低牽引力 → 時(shí)間更長(zhǎng)”并非總成立；對(duì)于更復(fù)雜系統(tǒng)和目標(biāo)函數(shù)，可能不適用。

Ⅴ 可通行性學(xué)習(xí)管線的評(píng)估

我們提出的證據(jù)式可通行性學(xué)習(xí)方法（evidential traversability learning method）在一個(gè)合成地形數(shù)據(jù)集上進(jìn)行評(píng)估（見(jiàn)第 V-A 節(jié)）。該數(shù)據(jù)集被設(shè)計(jì)為模擬真實(shí)環(huán)境下數(shù)據(jù)稀缺的情況，提供牽引力的真實(shí)值（GT traction distributions）和 OOD 地形掩碼（OOD terrain masks）。我們比較了多個(gè)損失函數(shù)變體（如公式 (19)），在預(yù)測(cè)精度與 OOD 檢測(cè)性能（見(jiàn)第 V-C 節(jié)）上的表現(xiàn)。為突出聯(lián)合訓(xùn)練與 UEMD2 損失（公式 (18)）的優(yōu)勢(shì)，我們還在第 V-D 節(jié)進(jìn)行了消融實(shí)驗(yàn)。分析完第四節(jié)的規(guī)劃器后，第六節(jié)將介紹系統(tǒng)的組成方式，第七節(jié)展示了我們損失函數(shù)對(duì)導(dǎo)航性能的提升效果。盡管不確定性量化本身并非本文重點(diǎn)，我們建議讀者參考文獻(xiàn) [16]，其中詳細(xì)探討了本文所用神經(jīng)網(wǎng)絡(luò)架構(gòu)在學(xué)習(xí)精度、OOD 檢測(cè)能力和計(jì)算效率上相較其他先進(jìn)方法的優(yōu)勢(shì)。

A. 合成三維地形數(shù)據(jù)集

我們使用的合成數(shù)據(jù)集包含隨機(jī)生成的 3D 地形，對(duì)應(yīng)的 GT 牽引力分布依據(jù)地形的幾何屬性（如坡度、高程）與語(yǔ)義類(lèi)別（如泥土與植被）生成，具體定義詳見(jiàn)表 I。注意：坡度僅用于生成牽引力 GT，不作為神經(jīng)網(wǎng)絡(luò)的輸入。為簡(jiǎn)化問(wèn)題，線向與角向牽引力使用相同分布；依賴關(guān)系只存在于：泥土類(lèi)型與地形坡度之間；植被類(lèi)型與地形高程之間。盡管可以設(shè)計(jì)更復(fù)雜的牽引力函數(shù)，我們提供的數(shù)據(jù)集已足以支撐本文工作。

表 I 用于基準(zhǔn)測(cè)試損失函數(shù)的合成地形數(shù)據(jù)集

GT（真實(shí)）牽引分布針對(duì)泥地為單峰高斯分布，其均值隨地形坡度增加而增大，反映地形的崎嶇程度。植被的牽引分布基于海拔高度：在中等海拔時(shí)呈雙峰分布，在最低和最高海拔時(shí)為單峰分布。需注意，OOD 數(shù)據(jù)集（I）包含混合地形類(lèi)型，而OOD（II）則不含植被，以確保學(xué)習(xí)到的模型不單純依賴語(yǔ)義信息進(jìn)行 OOD（分布外）檢測(cè)。

具體構(gòu)成如下：5 個(gè)訓(xùn)練環(huán)境、20 個(gè)測(cè)試環(huán)境、40 個(gè) OOD 環(huán)境；每個(gè)環(huán)境大小為 30×30 米，分辨率為 0.5 米；參數(shù)變化包括：高程、坡度、植被比例。為了模擬模型泛化能力，訓(xùn)練集特意保持較小規(guī)模。每個(gè)訓(xùn)練環(huán)境再細(xì)分為訓(xùn)練集與交叉驗(yàn)證集。圖 9 展示了合成環(huán)境的部分可視化結(jié)果。為模擬真實(shí)世界的數(shù)據(jù)采集：牽引力樣本僅沿圓形路徑采集；為分析數(shù)據(jù)量對(duì)學(xué)習(xí)的影響，我們通過(guò)將測(cè)量樣本數(shù)乘以 , 來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)量。

圖 9. 包含泥土（棕色）和植被（綠色）語(yǔ)義類(lèi)型的合成三維地形數(shù)據(jù)集。(a) 在每個(gè)訓(xùn)練環(huán)境中，沿著預(yù)設(shè)的圓形路徑進(jìn)行有限的牽引力測(cè)量，以模擬有限覆蓋范圍內(nèi)的真實(shí)世界數(shù)據(jù)收集。每個(gè)環(huán)境被分成兩個(gè)進(jìn)行交叉驗(yàn)證。此外，我們通過(guò)將基準(zhǔn)測(cè)量計(jì)數(shù)相乘來(lái)分析不同測(cè)量次數(shù)的影響（見(jiàn)圖 10）。(b) 測(cè)試環(huán)境包含用于分析牽引力預(yù)測(cè)精度的新型地形特征。為了支持EMD2 是更好的導(dǎo)航性能指標(biāo)這一關(guān)鍵論點(diǎn)，在測(cè)試環(huán)境中部署了使用不同損失函數(shù)訓(xùn)練的模型，用于執(zhí)行“前往目標(biāo)”任務(wù)（見(jiàn)第七節(jié)）。(c) 與測(cè)試環(huán)境相比，OOD 數(shù)據(jù)集還為訓(xùn)練期間未觀察到的高程和/或坡度的新型地形提供了二值掩碼。(a) 訓(xùn)練環(huán)境示例。(b) 測(cè)試環(huán)境示例。(c) OOD 環(huán)境示例。

在訓(xùn)練環(huán)境中：通過(guò)直方圖統(tǒng)計(jì)記錄牽引力分布，并記錄每個(gè)terrain cell 的采樣次數(shù)，以在訓(xùn)練時(shí)加權(quán)損失函數(shù)；在測(cè)試環(huán)境中：使用 GT 分布評(píng)估預(yù)測(cè)精度；在 OOD 環(huán)境中：坡度與高程值未在訓(xùn)練中出現(xiàn)者被視為 OOD；OOD 掩碼作為 GT 標(biāo)簽用于 OOD檢測(cè)性能評(píng)估，圖 9(c) 展示其示例。

B. 模型訓(xùn)練

我們對(duì)所有損失函數(shù)使用相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：牽引力預(yù)測(cè)器由一個(gè)共享編碼器（卷積層 + 全連接層）組成，用于處理語(yǔ)義與高程圖 patch；其后接兩個(gè) 全連接解碼頭，分別輸出線向與角向牽引力分布的 softmax 概率。從共享編碼器得到的潛特征被送入一個(gè)徑向流（radial flow）模型 [53]。為數(shù)值穩(wěn)定起見(jiàn)，我們使用一個(gè)固定的置信預(yù)算，其值隨潛空間維度以指數(shù)增長(zhǎng) [16]。訓(xùn)練采用 [16] 提出的兩階段流程：聯(lián)合訓(xùn)練牽引力預(yù)測(cè)器與流模型；達(dá)到初步收斂后，凍結(jié)牽引力預(yù)測(cè)器，僅微調(diào)流模型。實(shí)驗(yàn)表明，此策略能有效提升 OOD 檢測(cè)性能。但我們未觀察到文獻(xiàn) [16] 所建議的“warm-up”策略帶來(lái)額外提升。

超參數(shù)搜索：Adam優(yōu)化器學(xué)習(xí)率：, , ]；當(dāng)使用 UEMD2 與 UCE 單獨(dú)訓(xùn)練時(shí)，entropy 權(quán)重：；當(dāng)聯(lián)合使用時(shí)，UCE權(quán)重固定，僅搜索 UEMD2 權(quán)重：。對(duì)于每組超參數(shù)，我們用 5 個(gè)隨機(jī)種子訓(xùn)練模型，并以驗(yàn)證集上的 EMD2 誤差為指標(biāo)選擇最佳模型。實(shí)證表明，相比使用 KL 散度選擇模型，用驗(yàn)證集的 EMD2 誤差選擇模型能提升整體表現(xiàn)。為公平起見(jiàn)，圖表結(jié)果統(tǒng)一基于 UCE 損失 + 驗(yàn)證集 KL 散度選出的模型。

圖 10. 以 EMD2 和 KL 散度衡量的預(yù)測(cè)誤差（越低越好）以及以 AUC-ROC 和 AUC-PR 衡量的 OOD 檢測(cè)準(zhǔn)確率（越高越好）。每個(gè)損失函數(shù)的圖例后面的括號(hào)中是選擇超參數(shù)的標(biāo)準(zhǔn)。結(jié)果顯示平均值和標(biāo)準(zhǔn)差。總體而言，當(dāng)給定更多訓(xùn)練樣本時(shí)，所提出的 UEMD2 與 UCE 加權(quán)和可獲得最佳預(yù)測(cè)準(zhǔn)確率，并穩(wěn)步提高 OOD 檢測(cè)性能。由于訓(xùn)練和測(cè)試環(huán)境之間的分布偏移，過(guò)多的訓(xùn)練數(shù)據(jù)會(huì)導(dǎo)致其他損失設(shè)計(jì)的預(yù)測(cè)準(zhǔn)確率下降。此外，與基于 EMD2 的損失相比，UCE 在捕捉離散牽引值之間的跨箱關(guān)系方面更差，導(dǎo)致預(yù)測(cè)準(zhǔn)確率更差和 OOD 檢測(cè)性能不穩(wěn)定。

C. 預(yù)測(cè)精度與 OOD 檢測(cè)性能

我們對(duì)不同的損失函數(shù)變體（公式 19）在以下兩個(gè)方面進(jìn)行了評(píng)估：預(yù)測(cè)精度（prediction accuracy）：使用 EMD2 與 KL 散度，即將預(yù)測(cè)分布與真實(shí) GT 分布進(jìn)行比較；OOD 檢測(cè)性能：計(jì)算潛空間密度的 AUC-ROC 與 AUC-PR，相對(duì)于 OOD mask。AUC-ROC 與 AUC-PR 是二分類(lèi)標(biāo)準(zhǔn)指標(biāo)，數(shù)值越接近 1 代表分類(lèi)越好，0.5 表示與隨機(jī)分類(lèi)等價(jià)。為對(duì)比上限性能，我們納入了一組模型，在訓(xùn)練時(shí)直接使用 GT traction 分布（不采樣）進(jìn)行 UCE 訓(xùn)練。評(píng)估報(bào)告在圖 10 中展示，包含所有地圖單元格、測(cè)試環(huán)境與隨機(jī)種子的平均性能與標(biāo)準(zhǔn)差。

實(shí)驗(yàn)主結(jié)論：使用我們提出的 UEMD2 + UCE 加權(quán)組合損失所訓(xùn)練的模型，在 EMD2 和 KL 兩個(gè)指標(biāo)上均取得了最佳預(yù)測(cè)精度；該加權(quán)組合也帶來(lái)了更穩(wěn)定的提升，在訓(xùn)練樣本增多時(shí)，OOD 檢測(cè)性能與預(yù)測(cè)精度持續(xù)改善；但當(dāng)訓(xùn)練樣本過(guò)多時(shí)，預(yù)測(cè)精度會(huì)下降（尤其在非組合型損失下）——我們推測(cè)其原因在于訓(xùn)練與測(cè)試分布發(fā)生偏移，驗(yàn)證集仍表現(xiàn)良好；UCE 局限：與 EMD2 類(lèi)損失相比，UCE 無(wú)法建模牽引力分布中 bin 間的相關(guān)性；導(dǎo)致潛空間表征欠規(guī)整，進(jìn)而引起 OOD 檢測(cè)性能不穩(wěn)定；即使訓(xùn)練時(shí)使用 GT 分布也不能完全彌補(bǔ)這一缺陷。

表 II UEMD2 與聯(lián)合訓(xùn)練的消融研究

所示結(jié)果是基于多個(gè)隨機(jī)種子計(jì)算所得的均值與標(biāo)準(zhǔn)差。最佳結(jié)果以粗體標(biāo)出。

D. UEMD2 與聯(lián)合訓(xùn)練的消融實(shí)驗(yàn)

雖然文獻(xiàn) [16] 已經(jīng)證明：在使用 UCE 損失時(shí)引入不確定性感知與聯(lián)合訓(xùn)練能夠顯著提升性能，但我們?yōu)橥暾云鹨?jiàn)，也對(duì) UEMD2 損失進(jìn)行了類(lèi)似的消融實(shí)驗(yàn)，相關(guān)結(jié)果見(jiàn)表 II。為了簡(jiǎn)化實(shí)驗(yàn)，我們將樣本數(shù)倍增因子設(shè)為 10（即牽引力采樣量擴(kuò)大 10 倍）。但在其他倍增設(shè)置下也可以得出類(lèi)似結(jié)論。實(shí)驗(yàn)結(jié)果表明：只有同時(shí)使用聯(lián)合訓(xùn)練與不確定性建模（如 UEMD2），才能在 EMD2 精度與 OOD 檢測(cè)方面顯著改善。盡管上述策略已經(jīng)帶來(lái)改進(jìn)，但圖 10 的結(jié)果進(jìn)一步表明：想要獲得更一致、穩(wěn)定提升的預(yù)測(cè)精度與 OOD 檢測(cè)性能；仍需聯(lián)合使用 UEMD2 與 UCE 兩種損失函數(shù)。

Ⅵ 風(fēng)險(xiǎn)感知規(guī)劃器的評(píng)估

在模擬的 2D 語(yǔ)義環(huán)境中，地形牽引力具有較高的 Aleatoric 不確定性。實(shí)驗(yàn)表明，我們提出的 CVaR-Dyn 方法相較于現(xiàn)有方法（如 [11], [21]）在假設(shè)名義牽引力或期望牽引力的前提下具有更優(yōu)性能，同時(shí)在效果上也能與 CVaR-Cost 方法 [22] 競(jìng)爭(zhēng)。為簡(jiǎn)化評(píng)估，我們構(gòu)建了一個(gè)網(wǎng)格世界環(huán)境，其中 dirt 與 vegetation 單元格具有已知牽引力分布（見(jiàn) 圖 11）。植被單元格隨機(jī)生成，其密度在地圖中心逐漸增加。由于植被對(duì)應(yīng)的是一個(gè)雙峰牽引力分布，機(jī)器人容易陷入“失去動(dòng)力”的陷阱。任務(wù)目標(biāo)：機(jī)器人需避開(kāi)零牽引力區(qū)域、避障，并成功到達(dá)目標(biāo)點(diǎn)；若機(jī)器人無(wú)法移動(dòng)或陷入局部最優(yōu)軌跡（如原地打轉(zhuǎn)），視為失敗。

圖 11. 模擬環(huán)境，機(jī)器人必須在有界區(qū)域內(nèi)盡快從起點(diǎn)移動(dòng)到目標(biāo)。為簡(jiǎn)單起見(jiàn)，線性和角牽引力參數(shù)具有相同的分布。植被地形斑塊在植被區(qū)域的中心隨機(jī)采樣。

A. 規(guī)劃器實(shí)現(xiàn)細(xì)節(jié)

我們使用 MPPI（Model Predictive Path Integral, [18]）進(jìn)行控制；時(shí)域：100 步，步長(zhǎng) 0.1s；控制信號(hào)：線速度 3 m/s，角速度 π rad/s，帶有噪聲（2 m/s, 2 rad/s）；rollout 數(shù)量為 1024；對(duì)牽引力分布使用 20-bin PMF 進(jìn)行近似；所有模擬運(yùn)行在 GPU 上（i9 + RTX 3070），其中 CVaR-Cost 是最昂貴的計(jì)算方式，但能以 15 Hz 的頻率重新規(guī)劃（200×200 地圖尺寸）；未進(jìn)行牽引力采樣的規(guī)劃器可運(yùn)行至 50+ Hz。

B. 導(dǎo)航性能對(duì)比

我們對(duì)以下方法進(jìn)行了對(duì)比：CVaR-Dyn（本文方法）CVaR-Cost [22]WayFAST [21]：使用視覺(jué)感知的期望牽引力[11] 方法：使用名義牽引力 + CVaR 時(shí)間加權(quán)我們?cè)谒蟹椒ㄖ薪y(tǒng)一調(diào)整風(fēng)險(xiǎn)參數(shù) ，WayFAST 固定為。每個(gè)語(yǔ)義地圖采樣 5 組牽引力，重復(fù) 40 次實(shí)驗(yàn)。圖12 總結(jié)結(jié)果：若設(shè)得較小，CVaR-Dyn 在成功率與到達(dá)時(shí)間上均優(yōu)于或接近 CVaR-Cost；圖13 展示折中關(guān)系：不同方法在成功率與到達(dá)時(shí)間之間的取舍。

核心發(fā)現(xiàn)與對(duì)比分析：所有方法均可通過(guò)調(diào)參提升性能（除 WayFAST）；為 vegetation 設(shè)置高懲罰項(xiàng)（名義牽引力方法）可最大化成功率；CVaR-Dyn 與 CVaR-Cost 在某些任務(wù)中可實(shí)現(xiàn)更快完成任務(wù)但略低成功率，適用于高風(fēng)險(xiǎn)、時(shí)間敏感任務(wù)；當(dāng) 進(jìn)一步降低時(shí)，CVaR-Dyn 更容易陷入局部最優(yōu)，因?yàn)槭褂米顗臓恳?rollout 過(guò)短；CVaR-Cost 的性能下降也明顯，原因是 CVaR 目標(biāo)本身估計(jì)更難；CVaR-Cost 解算時(shí)間約為 60 ms，其他方法約為 5 ms；整體而言，沒(méi)有方法完全優(yōu)于其他，需依據(jù)場(chǎng)景做決策。

實(shí)踐建議與結(jié)論：在有領(lǐng)域知識(shí)時(shí)，可將 OOD 植被設(shè)為懲罰區(qū)域，配合 CVaR 規(guī)劃器提升性能（見(jiàn) Section VIII）；雖然仿真中 CVaR-Dyn 與 CVaR-Cost 表現(xiàn)接近，但在實(shí)際硬件測(cè)試中（見(jiàn) Section IX），CVaR-Dyn 展現(xiàn)出最優(yōu)綜合性能。

圖 12. 提出的 CVaR-Dyn、CVaR-Cost [22] 和 WayFAST [21] 分別使用預(yù)期牽引力和假設(shè)標(biāo)稱牽引力 [11]（即無(wú)滑移）的方法所實(shí)現(xiàn)的成功率和目標(biāo)時(shí)間。需要注意的是，如果機(jī)器人達(dá)到目標(biāo)，則任務(wù)成功。我們展示了目標(biāo)時(shí)間的分布及其平均值?？傮w而言，當(dāng)風(fēng)險(xiǎn)承受能力足夠低（例如）時(shí)，CVaR-Dyn 的成功率和目標(biāo)時(shí)間與 CVaR-Cost 規(guī)劃器相似或更高，并且優(yōu)于 WayFAST 和假設(shè)標(biāo)稱牽引力的方法。

圖 13. 在最具挑戰(zhàn)性的 70% 植被覆蓋場(chǎng)景中，成功率與目標(biāo)達(dá)成時(shí)間之間的權(quán)衡，如果達(dá)到目標(biāo)，則視為成功。CVaR-Dyn 和 CVaR-Cost 均比 WayFAST 實(shí)現(xiàn)了更好的權(quán)衡，位于圖的左上角。當(dāng)成功率低于 0.9 時(shí)，CVaR-Dyn 和 CVaR-Cost 比假設(shè)名義牽引力，同時(shí)對(duì)進(jìn)入植被地形的狀態(tài)施加輔助懲罰的方法實(shí)現(xiàn)了更好的權(quán)衡。然而，隨著的減小，CVaR-Dyn 和 CVaR-Cost 的成功率會(huì)趨于平穩(wěn)并最終下降，因?yàn)橐?guī)劃器變得更加規(guī)避風(fēng)險(xiǎn)，并且容易受到局部最小值的影響。

Ⅶ 優(yōu)化 EMD2 提升導(dǎo)航性能

為支持本文的關(guān)鍵論點(diǎn)——EMD2 是比 KL 散度更優(yōu)的度量指標(biāo)，更適合評(píng)估可通行性模型中牽引力分布的學(xué)習(xí)質(zhì)量，我們對(duì)采用不同損失函數(shù)訓(xùn)練的模型進(jìn)行了導(dǎo)航性能評(píng)估，所涉及的模型已在第 V 節(jié)中介紹。這些模型被部署到與圖9 所示相同的測(cè)試環(huán)境中：每張地圖為 30×30 米，起點(diǎn)與終點(diǎn)設(shè)在對(duì)角線兩端；為簡(jiǎn)潔起見(jiàn)，本文只展示 CVaR-Dyn 規(guī)劃器（α=0.4）下的結(jié)果，使用與第 VI-A 節(jié)一致的 MPPI 設(shè)置；但在不同 α值設(shè)定下也可觀察到相似趨勢(shì)。與第 V 節(jié)的 benchmark 保持一致：每種損失函數(shù)均使用 5 個(gè)隨機(jī)種子 + 5 個(gè)不同訓(xùn)練數(shù)據(jù)量的設(shè)置；對(duì) 20 張測(cè)試地圖中的每一張，采樣 5 個(gè)牽引力圖并運(yùn)行 3 次任務(wù)；平均結(jié)果繪制于圖14，因全部成功，故省略成功率。

圖 14. 在圖 9 所示的測(cè)試環(huán)境中，使用不同損失設(shè)計(jì)訓(xùn)練的學(xué)習(xí)牽引模型的導(dǎo)航性能。結(jié)果顯示了所有測(cè)試環(huán)境、采樣牽引圖和隨機(jī)種子的平均值和標(biāo)準(zhǔn)差。需要注意的是，所提出的混合損失的導(dǎo)航性能接近于在測(cè)試環(huán)境中使用 GT 牽引模型的最佳導(dǎo)航性能，以及在訓(xùn)練環(huán)境中使用 GT 牽引分布訓(xùn)練的最先進(jìn)的 UCE 損失的最佳導(dǎo)航性能。

關(guān)鍵發(fā)現(xiàn)：在訓(xùn)練數(shù)據(jù)稀缺的情況下，盡管 UEMD2 的 KL 誤差略高于 UCE（如圖10 所示），但 UEMD2 在時(shí)間效率上優(yōu)于 UCE；這驗(yàn)證了我們的直覺(jué)：EMD2 能更好捕捉牽引力分布的 cross-bin 結(jié)構(gòu)，在小數(shù)據(jù) regime 中提供更好的泛化能力；數(shù)據(jù)量增加后，我們提出的 UEMD2 + UCE 加權(quán)混合損失在導(dǎo)航性能上全面超越其他方法。然而，如第 V-C 節(jié)所述，當(dāng)訓(xùn)練數(shù)據(jù)過(guò)多時(shí)，會(huì)引發(fā)訓(xùn)練與測(cè)試分布之間的偏移，導(dǎo)致?tīng)恳︻A(yù)測(cè)性能下降 → 導(dǎo)航性能下降（見(jiàn) 圖14）。但混合損失方法對(duì)此不敏感，能更好保持導(dǎo)航性能；此外，混合損失在低數(shù)據(jù)設(shè)置下接近使用 GT traction + UCE 損失的最優(yōu)性能上限；這說(shuō)明：僅使用訓(xùn)練環(huán)境中圓形路徑采樣到的有限數(shù)據(jù)，混合損失方法就能實(shí)現(xiàn)良好的泛化能力。圖中還提供了一個(gè)下界（lower bound），即基于測(cè)試環(huán)境中 GT traction 模型所計(jì)算的最短到達(dá)時(shí)間。

Ⅷ 避開(kāi)ODD地形的優(yōu)勢(shì)

我們展示了基于密度的置信度分?jǐn)?shù)（公式 (9)）在檢測(cè)高 epistemic 不確定性地形方面的效果，以及在導(dǎo)航過(guò)程中避開(kāi) OOD 區(qū)域的實(shí)際收益。實(shí)驗(yàn)設(shè)置：使用 Clearpath Husky 機(jī)器人，在兩個(gè)不同的森林區(qū)域采集數(shù)據(jù)；第一個(gè)區(qū)域用于訓(xùn)練（見(jiàn) 圖5）；第二個(gè)區(qū)域?yàn)闇y(cè)試場(chǎng)景（語(yǔ)義地圖見(jiàn) 圖15）；使用語(yǔ)義八叉樹(shù) [50] 構(gòu)建環(huán)境模型，將 LiDAR 與語(yǔ)義分割 RGB 圖融合，語(yǔ)義分割基于 RUGD 數(shù)據(jù)集的 24 類(lèi)（見(jiàn) [52]）；測(cè)試環(huán)境中的地面真實(shí)牽引力由另一套神經(jīng)網(wǎng)絡(luò)估計(jì)，用作 proxy-GT。我們使用 CVaR-Dyn（α=0.2）來(lái)適應(yīng)牽引力預(yù)測(cè)的高噪聲，主要研究在具有新穎語(yǔ)義地形特征的區(qū)域中的導(dǎo)航表現(xiàn)。實(shí)驗(yàn)設(shè)計(jì)：在測(cè)試地圖中設(shè)定兩個(gè)具挑戰(zhàn)性的 start-goal 點(diǎn)對(duì)；每組點(diǎn)對(duì)在不同置信度閾值下重復(fù) 10 次；對(duì)比兩種方式避開(kāi) OOD 地形：將 OOD 區(qū)域設(shè)為“0 牽引力”；賦予 OOD 區(qū)域高額代價(jià)懲罰。若成功抵達(dá)目標(biāo)即視為任務(wù)成功。

圖 15. （左）在測(cè)試環(huán)境中，模擬機(jī)器人必須達(dá)到兩個(gè)選定的目標(biāo)，以強(qiáng)調(diào)使用不可靠網(wǎng)絡(luò)預(yù)測(cè)的危險(xiǎn)。（右）基于潛在密度的置信度得分 (9) 表示預(yù)測(cè)牽引力分布的認(rèn)知不確定性程度，其中未知地形和已知地形的負(fù)值得分以黑色表示。請(qǐng)注意，由于存在未知單元，頂部的棕色語(yǔ)義區(qū)域（覆蓋物）的置信度低于零，而左側(cè)的棕色語(yǔ)義區(qū)域則包含較少的未知單元。

實(shí)驗(yàn)結(jié)果如圖 16 所示：隨著置信閾值的提高，成功率最多可提升至 30%；這是因?yàn)闄C(jī)器人有效地避開(kāi)了牽引力預(yù)測(cè)不可靠區(qū)域。此外，當(dāng)為 OOD 地形使用“軟懲罰”策略（而非直接禁止）時(shí)：能夠在保證類(lèi)似成功率的前提下，顯著提升任務(wù)完成效率（time-to-goal）；原因是懲罰機(jī)制引導(dǎo)規(guī)劃器更容易找到避開(kāi) OOD 區(qū)域的路徑。因此，當(dāng)可利用場(chǎng)景知識(shí)時(shí)，將輔助代價(jià)項(xiàng)與 CVaR-Dyn 方法聯(lián)合使用：不僅能提升成功率；還可實(shí)現(xiàn)更快、更穩(wěn)定的導(dǎo)航；是在實(shí)際部署中非常有價(jià)值的策略。

圖 16. 通過(guò)避開(kāi) OOD 地形，導(dǎo)航成功率有所提升。注意，陰影區(qū)域表示標(biāo)準(zhǔn)差。OOD 地形的處理方式為：分配零牽引力（藍(lán)色）或施加懲罰（橙色）。圖中包含了使用 GT 牽引力的規(guī)劃器的性能，以展示最佳性能?？傮w而言，更高的值提高了成功率，但代價(jià)是縮短了目標(biāo)時(shí)間。然而，針對(duì) OOD 地形的輔助懲罰，使規(guī)劃器更容易找到實(shí)現(xiàn)目標(biāo)的解決方案。值得注意的是，當(dāng) 時(shí)，平均成功率趨近于 1，這表明學(xué)習(xí)到的牽引力模型在測(cè)試環(huán)境中能夠很好地推廣到具有高置信度值（低認(rèn)知不確定性）的地形。

實(shí)踐結(jié)論：因此，當(dāng)可利用場(chǎng)景知識(shí)時(shí)，將輔助代價(jià)項(xiàng)與CVaR-Dyn 方法聯(lián)合使用：不僅能提升成功率；還可實(shí)現(xiàn)更快、更穩(wěn)定的導(dǎo)航；是在實(shí)際部署中非常有價(jià)值的策略。

Ⅸ 硬件實(shí)驗(yàn)

為了驗(yàn)證 EVORA 的有效性與可行性（即本文提出的不確定性感知可通行性學(xué)習(xí)與風(fēng)險(xiǎn)感知路徑規(guī)劃的整體框架）在實(shí)際中的應(yīng)用效果，我們?cè)O(shè)計(jì)了兩個(gè)實(shí)驗(yàn)場(chǎng)景：一個(gè)使用遙控車(chē)的室內(nèi)賽道任務(wù)，模擬帶有假植被的環(huán)境（見(jiàn) Section IX-A）；另一個(gè)使用四足機(jī)器人的更具挑戰(zhàn)性的室外導(dǎo)航場(chǎng)景（見(jiàn) Section IX-B）。在兩個(gè)場(chǎng)景中，機(jī)器人都使用車(chē)載傳感器在測(cè)試時(shí)在線構(gòu)建環(huán)境地圖，這引入了來(lái)自運(yùn)動(dòng)模糊、光照變化與不完整地圖等問(wèn)題帶來(lái)的更大不確定性。雖然兩個(gè)實(shí)驗(yàn)都表明，所提出的 CVaR-Dyn 路徑規(guī)劃器在導(dǎo)航性能上表現(xiàn)最佳，室外實(shí)驗(yàn)場(chǎng)景還進(jìn)一步展示了避開(kāi) OOD 地形的優(yōu)勢(shì)。在實(shí)際中，由 MPPI 生成的控制信號(hào)通常非常嘈雜，因此我們?cè)诿x控制 [54] 的導(dǎo)數(shù)空間中進(jìn)行規(guī)劃，以生成平滑軌跡。

A. 使用遙控車(chē)的室內(nèi)競(jìng)速實(shí)驗(yàn)

本節(jié)實(shí)驗(yàn)的目標(biāo)是展示在控制環(huán)境中，所提出的規(guī)劃器在緩解 aleatoric 不確定性所帶來(lái)風(fēng)險(xiǎn)方面的性能優(yōu)勢(shì)。

圖 17. 用于室內(nèi)賽車(chē)實(shí)驗(yàn)的訓(xùn)練和測(cè)試環(huán)境。(a) 訓(xùn)練環(huán)境由一塊草坪和兩棵倒下的樹(shù)木組成，用于模擬灌木叢。學(xué)習(xí)到的線性和角度牽引力分布在選定區(qū)域可視化，包括 (i) 硬地板、(ii) 倒下的樹(shù)木和 (iii) 草坪。需要注意的是，植被上牽引力分布的雙峰性可能會(huì)導(dǎo)致機(jī)器人速度顯著降低。(b) 測(cè)試環(huán)境包含兩塊草坪、三棵倒下的樹(shù)木、三棵直立的樹(shù)木和虛擬障礙物。機(jī)器人的任務(wù)是沿著參考路徑跟隨胡蘿卜目標(biāo)行駛兩圈，同時(shí)在無(wú)植被的繞行路線和有植被的較短路徑之間做出選擇。(a) 訓(xùn)練環(huán)境中學(xué)習(xí)到的牽引力。(b) 測(cè)試環(huán)境。

1)實(shí)驗(yàn)設(shè)置：

如圖17 所示，室內(nèi)環(huán)境占地面積為 9.6 米 × 8 米，為了與 0.33 米 × 0.25 米的 RC 小車(chē)一致，場(chǎng)地內(nèi)部設(shè)置了一條由人造草皮與假樹(shù)組成的路徑，以模擬戶外的植被區(qū)域。小車(chē)上安裝了 RealSense D455 深度攝像頭、Intel Core i7 CPU 與 Nvidia RTX 2060 GPU。機(jī)器人在車(chē)載平臺(tái)上執(zhí)行牽引力預(yù)測(cè)、運(yùn)動(dòng)規(guī)劃與高程圖建圖，建圖分辨率為 0.1 米，但實(shí)際位姿與速度估計(jì)由 Vicon 完成。植被識(shí)別方式為：提取圖像中綠色像素點(diǎn)，而不是使用單獨(dú)的語(yǔ)義分割網(wǎng)絡(luò)，以節(jié)省 GPU 資源。路徑傳播模型使用公式 (3) 所示的 bicycle 模型，牽引力由命令線速度、轉(zhuǎn)向角與 Vicon 所提供的 GT 實(shí)際速度進(jìn)行標(biāo)定計(jì)算得出。

我們基于 10 分鐘的駕駛數(shù)據(jù)對(duì)牽引力模型進(jìn)行訓(xùn)練，使用的是所提出的聯(lián)合損失函數(shù) (19)，即加權(quán)組合的 UEMD2 和 UCE：兩者的加權(quán)系數(shù)均設(shè)為 1；熵項(xiàng)加權(quán)系數(shù)為 1e-5（經(jīng)驗(yàn)調(diào)優(yōu)得出）；所學(xué)習(xí)得到的牽引力分布如圖17(a) 所示，呈現(xiàn)多峰性（multimodality）。在部署時(shí)，機(jī)器人需在賽道上繞跑兩圈，并根據(jù)下述兩條路徑進(jìn)行決策：一條路徑較短，但包含植被；另一條路徑較長(zhǎng)，但風(fēng)險(xiǎn)較低，如圖17(b) 所示。我們?cè)O(shè)計(jì)了一個(gè)動(dòng)態(tài)目標(biāo)區(qū)沿著橢圓形參考軌跡運(yùn)動(dòng)，該目標(biāo)點(diǎn)被稱為“胡蘿卜目標(biāo)（carrot goal）”，它與機(jī)器人在參考路徑上的投影點(diǎn)保持 75° 的固定偏移角。

在方法對(duì)比方面，我們考慮：CVaR-Cost；本文提出的 CVaR-Dyn；一個(gè)基線方法：假設(shè)使用名義牽引力，但對(duì)高度在 5 cm 到 15 cm 之間的低矮植被區(qū)域引入輔助懲罰項(xiàng)，因?yàn)檫@些區(qū)域可能導(dǎo)致駕駛困難。所有方法都通過(guò)輔助懲罰機(jī)制避開(kāi)植被區(qū)域。所有規(guī)劃器均執(zhí)行：在 20 Hz 下進(jìn)行規(guī)劃；展望步長(zhǎng)為 5 步；每次生成 1024 個(gè) rollout；CVaR-Cost 由于計(jì)算成本更高，僅使用 400 個(gè)牽引力圖樣本；最大速度設(shè)為 1.5 m/s，最大轉(zhuǎn)向角設(shè)為 30°。

圖 18. 室內(nèi)實(shí)驗(yàn)的代表性試驗(yàn)，用于突出規(guī)劃器的故障模式。上行顯示自上而下的語(yǔ)義地圖，下行顯示延時(shí)照片。為了清晰起見(jiàn)，我們僅顯示兩圈中的第一圈。（a）隨著的減小，提出的 CVaR-Dyn 變得更加規(guī)避風(fēng)險(xiǎn)，并采取更大的轉(zhuǎn)彎以進(jìn)入捷徑。（b）WayFAST（的 CVaR-Dyn）沒(méi)有考慮轉(zhuǎn)向不足的風(fēng)險(xiǎn)，因此它總是轉(zhuǎn)彎太晚而無(wú)法走捷徑。（c）CVaR-Cost 始終繞道行駛以避開(kāi)植被地形。隨著的減小，規(guī)劃器變得更加規(guī)避風(fēng)險(xiǎn)，有時(shí)會(huì)在障礙物附近停止。（d）當(dāng)軟懲罰較低時(shí)，基線更具風(fēng)險(xiǎn)承受能力并會(huì)選擇捷徑，但實(shí)際牽引力與標(biāo)稱牽引力存在顯著差異，導(dǎo)致更多碰撞。隨著軟懲罰的增加，規(guī)劃器變得更加保守并繞道而行，但使用標(biāo)稱牽引力進(jìn)行規(guī)劃會(huì)導(dǎo)致嚴(yán)重的轉(zhuǎn)向不足，從而限制性能。

圖 19. 室內(nèi)實(shí)驗(yàn) 5 次試驗(yàn)的結(jié)果和任務(wù)時(shí)間。我們展示了任務(wù)時(shí)間的分布以及最大值、平均值和最小值。提出的 CVaR-Dyn 在時(shí)實(shí)現(xiàn)了最佳目標(biāo)時(shí)間，成功率為 100%。隨著的減小，CVaR-Dyn 和 CVaR-Cost 都會(huì)導(dǎo)致目標(biāo)時(shí)間縮短。需要注意的是，當(dāng) 時(shí)，CVaR-Cost 在許多情況下會(huì)在障礙物附近停止。相比之下，基線和 WayFAST 會(huì)導(dǎo)致更差的目標(biāo)時(shí)間，并且發(fā)生碰撞的可能性更高。

2)Aleatoric 不確定性結(jié)果分析：

我們對(duì)比了各個(gè)規(guī)劃器在緩解由于 aleatoric 不確定性引起的導(dǎo)航風(fēng)險(xiǎn)方面的能力，定性與定量結(jié)果見(jiàn)圖18 和圖19?？疾炝巳N風(fēng)險(xiǎn)容忍度；輔助懲罰項(xiàng)設(shè)定為；對(duì)于名義牽引力規(guī)劃器，將所有進(jìn)入植被區(qū)域的狀態(tài)都視為“高風(fēng)險(xiǎn)”狀態(tài)；WayFAST 方法單獨(dú)呈現(xiàn)，作為 CVaR-Dyn（）的一種特例。我們對(duì)每組設(shè)置進(jìn)行五次重復(fù)實(shí)驗(yàn)，每次包括兩圈比賽。整體結(jié)果表明：CVaR-Dyn（）在平均成功率與最短時(shí)間到達(dá)方面均表現(xiàn)最佳。圖18 中的定性可視化表明：基線方法與 WayFAST 在現(xiàn)實(shí)世界的牽引力噪聲下容易偏離軌跡、轉(zhuǎn)向發(fā)散；而 CVaR-Cost 與 CVaR-Dyn 能夠通過(guò)生成平滑軌跡更好地應(yīng)對(duì)該噪聲；CVaR-Cost 更容易繞遠(yuǎn)路，并在障礙物附近容易陷入局部極小值。

B. 使用腿式機(jī)器人進(jìn)行戶外導(dǎo)航

與室內(nèi)環(huán)境相比，戶外實(shí)驗(yàn)中地形類(lèi)型更加多樣，感知中的不確定性也更大，這主要是由于光照變化和劇烈運(yùn)動(dòng)所引起的。除了評(píng)估規(guī)劃器處理阿列阿不確定性（aleatoric uncertainty）的能力之外，戶外測(cè)試還展示了通過(guò)避免 OOD 地形（分布外地形）來(lái)減緩認(rèn)知不確定性（epistemic uncertainty）帶來(lái)的風(fēng)險(xiǎn)的好處，同時(shí)也驗(yàn)證了我們方法在腿式機(jī)器人上的適用性。

圖 20. 腿式機(jī)器人的戶外訓(xùn)練和測(cè)試環(huán)境。(a) 戶外環(huán)境由不同高度和密度的植被地形組成?？梢暬诉x定區(qū)域的預(yù)測(cè)線性和角度牽引力分布，這些區(qū)域包括 (i) 高草、(ii) 短草和 (iii) 茂密的灌木叢。與輪式機(jī)器人不同，腿式機(jī)器人在穿過(guò)植被時(shí)通常具有良好的線性牽引力，但由于轉(zhuǎn)彎難度較大，角度牽引力可能表現(xiàn)出多模態(tài)性。(b) 使用兩對(duì)起始-目標(biāo)樣本對(duì)規(guī)劃器進(jìn)行基準(zhǔn)測(cè)試，并分析避開(kāi) OOD 地形的優(yōu)勢(shì)。(a) 在訓(xùn)練環(huán)境中學(xué)習(xí)到的牽引力。(b)測(cè)試環(huán)境。

1）實(shí)驗(yàn)設(shè)置

圖20 展示了戶外實(shí)驗(yàn)的整體設(shè)置概況。一臺(tái) Boston Dynamics 的 Spot 機(jī)器人被裝備了 RealSense D455 深度相機(jī)、Ouster OS0 激光雷達(dá)，以及 Nvidia Jetson AGX Orin（該設(shè)備在功耗效率上優(yōu)越，但計(jì)算能力較我們前面實(shí)驗(yàn)中使用的計(jì)算平臺(tái)要低）。本實(shí)驗(yàn)采用了單輪車(chē)模型（unicycle model，參見(jiàn)公式 (2)），牽引力的數(shù)值是通過(guò)比較機(jī)器人的控制指令與其內(nèi)置里程計(jì)輸出的實(shí)際運(yùn)動(dòng)結(jié)果計(jì)算得出的。環(huán)境地圖是通過(guò)構(gòu)建語(yǔ)義八叉樹(shù)（semantic octomap）得到的，八叉樹(shù)以 0.2 m 的分辨率將激光雷達(dá)點(diǎn)云和基于 RUGD 數(shù)據(jù)集 [52] 提取的 24 類(lèi)語(yǔ)義標(biāo)簽的 RGB 圖像融合而成。牽引力模型基于 5 分鐘的行走數(shù)據(jù)進(jìn)行訓(xùn)練，使用的是我們提出的損失函數(shù)（19），其權(quán)重與室內(nèi)實(shí)驗(yàn)中的設(shè)置相同。所學(xué)習(xí)到的牽引力分布在圖20(a) 中可視化展示，用以突顯其多模態(tài)特性。如圖20(b) 所示，我們選擇了兩個(gè)起點(diǎn)-目標(biāo)點(diǎn)對(duì)，以測(cè)試不同規(guī)劃器在避開(kāi) OOD 地形方面的效果及其帶來(lái)的好處。所有規(guī)劃器都會(huì)通過(guò)附加代價(jià)機(jī)制避免進(jìn)入海拔高于 1.4 m 的地形區(qū)域；而基線方法（baseline）還會(huì)對(duì)高度低于 1.4 m 的草地與灌木類(lèi)語(yǔ)義類(lèi)型地形附加軟代價(jià)（soft cost）。盡管 1.4 m 的高度閾值遠(yuǎn)高于機(jī)器人的步高，但所選測(cè)試環(huán)境中并不包含短小且剛性的障礙物，這是為了分析各類(lèi)規(guī)劃器在應(yīng)對(duì)高植被環(huán)境方面的能力。由于語(yǔ)義分類(lèi)、牽引力預(yù)測(cè)與運(yùn)動(dòng)規(guī)劃模塊需共享 GPU 資源，規(guī)劃器只能以 5 Hz 的頻率進(jìn)行規(guī)劃，并能提前預(yù)測(cè) 8 秒路徑，共執(zhí)行 800 次控制采樣。CVaR-Cost 方法由于計(jì)算限制僅允許使用 200 張牽引力地圖采樣。最大線速度和角速度分別為 1 m/s 與 90°/s。

圖 21. 戶外實(shí)驗(yàn)的代表性試驗(yàn)。上行顯示自上而下的語(yǔ)義地圖，下行顯示延時(shí)照片。（a）與其他方法相比，提出的 CVaR-Dyn（）能夠很好地處理嘈雜的地形牽引力，并且產(chǎn)生的軌跡波動(dòng)更小。（b）WayFAST（時(shí)的 CVaR-Dyn）依賴于預(yù)期牽引力，這無(wú)法很好地指示實(shí)際軌跡結(jié)果，導(dǎo)致航向不斷修正。（c）與 CVaR-Dyn 相比，CVaR-Cost 更為保守，因?yàn)樗h(yuǎn)離灌木叢并實(shí)現(xiàn)了更長(zhǎng)的目標(biāo)時(shí)間。（d）基線假設(shè)標(biāo)稱牽引力，這會(huì)導(dǎo)致轉(zhuǎn)向不足。隨著軟懲罰的增加，機(jī)器人越來(lái)越不愿意面對(duì)高高的草叢和灌木叢。由于大部分測(cè)試區(qū)域都被草叢或灌木叢覆蓋，因此具有較大軟懲罰的基線在后續(xù)試驗(yàn)中難以找到可行的計(jì)劃來(lái)實(shí)現(xiàn)目標(biāo)。

圖 22. 局部規(guī)劃器基準(zhǔn)測(cè)試的目標(biāo)時(shí)間分布，包含最大值、平均值和最小值。每個(gè)規(guī)劃器總共完成三次往返，即六次試驗(yàn)。提出的的 CVaR-Dyn 性能優(yōu)于需要更多計(jì)算的 CVaR-Cost、使用預(yù)期牽引力進(jìn)行規(guī)劃的 WayFAST（的 CVaR-Dyn）以及使用標(biāo)稱牽引力進(jìn)行規(guī)劃并對(duì)草地和灌木叢施加軟懲罰的基線。

2）阿列阿不確定性結(jié)果

圖 21 和圖 22 展示了在應(yīng)對(duì)阿列阿不確定性風(fēng)險(xiǎn)方面，各類(lèi)規(guī)劃器的定性與定量比較結(jié)果。我們每個(gè)方法都重復(fù)執(zhí)行三次往返路徑（共六次試驗(yàn)）。整體而言，CVaR-Dyn 在設(shè)置下取得了最佳的耗時(shí)與成功率表現(xiàn)，與第 IX-A 節(jié)中的室內(nèi)實(shí)驗(yàn)結(jié)果一致。CVaR-Cost 的策略更保守，常常會(huì)遠(yuǎn)離草叢區(qū)域。相比之下，基線方法與 WayFAST 都受到真實(shí)牽引力噪聲的影響，軌跡彎折嚴(yán)重。特別地，當(dāng)對(duì)草地與灌木地形的軟懲罰設(shè)置得過(guò)高時(shí)，基線方法容易陷入局部最小值（local minima），需要人工干預(yù)，導(dǎo)致任務(wù)耗時(shí)變長(zhǎng)。

圖 23. 規(guī)劃器規(guī)避 OOD 地形的典型行為，其中語(yǔ)義自上向下地圖和延時(shí)照片分別顯示在頂部和底部。如果沒(méi)有 OOD 規(guī)避功能，機(jī)器人容易因在線地圖不完善和地形牽引噪聲而陷入局部極小值，需要人工干預(yù)才能遠(yuǎn)程操作機(jī)器人到達(dá)可行目標(biāo)規(guī)劃區(qū)域。相比之下，為 OOD 地形分配輔助懲罰項(xiàng)，則使規(guī)劃器更容易找到到達(dá)目標(biāo)的軌跡。

圖 24. 六次試驗(yàn)（三次往返）OOD 避讓測(cè)試的目標(biāo)時(shí)間分布，包括最大值、平均值和最小值。通過(guò)避開(kāi) OOD 地形，規(guī)劃器不易受到局部極小值的影響，并通過(guò)避開(kāi)訓(xùn)練期間未見(jiàn)過(guò)的特征地形，實(shí)現(xiàn)了更佳的目標(biāo)時(shí)間。

3）認(rèn)知不確定性結(jié)果

與前面的實(shí)驗(yàn)不同，OOD 地形規(guī)避實(shí)驗(yàn)的目標(biāo)是展示在面臨認(rèn)知不確定性風(fēng)險(xiǎn)時(shí)采取緩解措施的效果。因此，我們僅使用 CVaR-Dyn（）進(jìn)行評(píng)估，但如果將底層的局部規(guī)劃器替換為 CVaR-Cost 或其他用于緩解阿列阿不確定性的方法，也能得出相似結(jié)論。我們總共執(zhí)行三次往返路徑實(shí)驗(yàn)。圖 23 和圖 24 展示了 OOD 規(guī)避實(shí)驗(yàn)的定性與定量結(jié)果。我們將某一地形視為 OOD，當(dāng)其牽引力預(yù)測(cè)器的 latent 特征密度歸一化后低于 0（即低于訓(xùn)練數(shù)據(jù)中所有特征密度的 0 百分位）。更保守的閾值可以基于經(jīng)驗(yàn)調(diào)節(jié)獲得。與圖20 中的訓(xùn)練環(huán)境相比，圖23 中的測(cè)試環(huán)境包含大量訓(xùn)練集中未見(jiàn)的高植被區(qū)域。因此，這些高植被區(qū)域會(huì)產(chǎn)生較高的認(rèn)知不確定性，對(duì)應(yīng)的地形將被標(biāo)記為 OOD。如果不避開(kāi) OOD 地形，機(jī)器人容易陷入局部極小點(diǎn)，需要人為干預(yù)才能將其移至可行軌跡區(qū)域以繼續(xù)前往目標(biāo)點(diǎn)。相比之下，避開(kāi) OOD 地形的規(guī)劃器能在不依賴人工干預(yù)的情況下獲得更短的時(shí)間開(kāi)銷(xiāo)。

C. 硬件實(shí)驗(yàn)總結(jié)

總的來(lái)說(shuō)，硬件實(shí)驗(yàn)已經(jīng)證明，所提出的 CVaR-Dyn 方法在實(shí)際應(yīng)用中是一個(gè)有吸引力的選擇。它避免了 CVaR-Cost 方法所需的額外計(jì)算開(kāi)銷(xiāo)，例如對(duì)附加牽引力圖的采樣，或者需要人類(lèi)專家為多種地形類(lèi)型設(shè)計(jì)語(yǔ)義驅(qū)動(dòng)的代價(jià)函數(shù)。

此外，估計(jì)認(rèn)知不確定性（epistemic uncertainty）的能力使我們能夠識(shí)別并規(guī)避具有不可靠牽引預(yù)測(cè)的 OOD 地形，從而提升導(dǎo)航成功率并減少人工干預(yù)。

Ⅹ 局限性與未來(lái)工作

從建模角度來(lái)看，本工作聚焦于二維機(jī)器人模型，但面對(duì)更具挑戰(zhàn)性的地形時(shí)，六自由度（6-DoF）模型是必要的 [36], [55], [56]。此外，我們使用語(yǔ)義八叉樹(shù)（semantic octomap） [50] 來(lái)建模環(huán)境，但也可以采用計(jì)算成本更低的替代方法 [10], [57]。此外，我們的系統(tǒng)依賴于語(yǔ)義分割模塊的精度，因此當(dāng)測(cè)試環(huán)境與訓(xùn)練環(huán)境差異較大（例如光照或季節(jié)變化導(dǎo)致）時(shí)，所提出的管線可能會(huì)失效。因此，感知模塊中不確定性帶來(lái)的風(fēng)險(xiǎn)需要單獨(dú)研究 [41]。從數(shù)據(jù)采集角度來(lái)看，本研究依賴于用于訓(xùn)練的真實(shí)牽引分布，而這種分布對(duì)于高維特征（如 RGB 圖像）可能難以獲取。雖然我們提出的損失函數(shù)可用于直接訓(xùn)練即時(shí)牽引測(cè)量，但使用 EMD2 損失所帶來(lái)的性能提升仍需進(jìn)一步評(píng)估。此外，也可以使用基于不確定性的主動(dòng)采集方法 [37], [58] 來(lái)收集更具信息量的訓(xùn)練樣本。從規(guī)劃角度來(lái)看，本研究提出了使用牽引 CVaR 來(lái)模擬狀態(tài)軌跡的方法，但仍需要進(jìn)一步研究將該思想推廣至更多系統(tǒng)參數(shù)與性能指標(biāo)的通用性。此外，我們的規(guī)劃器能夠在新環(huán)境中避免 OOD 地形，但只能在有人工干預(yù)時(shí)進(jìn)行在線適應(yīng) [12]。最后，所提出的方法也可以與利用遠(yuǎn)場(chǎng)信息的全局規(guī)劃器 [59] 結(jié)合使用。

XI 結(jié)論

本工作提出了 EVORA，這是一個(gè)統(tǒng)一的框架，用于基于證據(jù)深度學(xué)習(xí)的不確定性感知可通行性學(xué)習(xí)，以及基于 CVaR 的風(fēng)險(xiǎn)感知規(guī)劃。EVORA 通過(guò)經(jīng)驗(yàn)分布（代表 aleatoric 不確定性）建模地形牽引力的不確定性，并基于牽引預(yù)測(cè)器潛在特征的密度（代表 epistemic 不確定性）識(shí)別 OOD 地形。通過(guò)利用我們提出的不確定性感知的平方 EMD 損失函數(shù)，我們提升了神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率、OOD 檢測(cè)性能以及下游導(dǎo)航性能。為應(yīng)對(duì) aleatoric 不確定性，所提出的風(fēng)險(xiǎn)感知規(guī)劃器基于牽引分布的左尾 CVaR 來(lái)模擬狀態(tài)軌跡。為應(yīng)對(duì) epistemic 不確定性，我們提出為那些潛在特征密度較低的地形分配輔助代價(jià)，從而提升導(dǎo)航成功率。整個(gè)系統(tǒng)通過(guò)大量仿真實(shí)驗(yàn)和硬件實(shí)驗(yàn)進(jìn)行了分析，展示了其在不同地面機(jī)器人平臺(tái)上的導(dǎo)航性能提升。

附錄 A：UCE 損失與 Dirichlet 熵（參考 [16]）

給定和目標(biāo) ，

其中是 digamma 函數(shù)，?β 是整體證據(jù)。此外，的熵為：

其中表示 beta 函數(shù)。

附錄 B：定理 1 的證明

我們從 UEMD2的定義出發(fā)（參考式 (17)），并通過(guò)使期望中變得隱式來(lái)簡(jiǎn)化記號(hào)。記為目標(biāo) PMF，為累積求和算子，記為累積求和向量的第項(xiàng)。

將恒定項(xiàng) 單獨(dú)分出后，整理剩余項(xiàng)，并將期望移入求和內(nèi)部，得到：

公式 (42)–(47) 給出了對(duì) Dirichlet 分布的標(biāo)準(zhǔn)性質(zhì)（均值、方差和協(xié)方差）的封閉形式：

最終帶入公式 (41)，得：

其中?，見(jiàn)公式 (16)。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車(chē)輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車(chē)→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車(chē)輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車(chē)電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

EVORA：面向風(fēng)險(xiǎn)感知越野自主系統(tǒng)的深度證據(jù)可通行性學(xué)習(xí)

微信公眾號(hào)

Ⅰ 引言

Ⅱ 問(wèn)題概述

Ⅲ 不確定性感知的可通行性建模

Ⅳ 基于學(xué)習(xí)牽引力分布的風(fēng)險(xiǎn)感知規(guī)劃

Ⅴ 可通行性學(xué)習(xí)管線的評(píng)估

Ⅵ 風(fēng)險(xiǎn)感知規(guī)劃器的評(píng)估

Ⅶ 優(yōu)化 EMD2 提升導(dǎo)航性能

Ⅷ 避開(kāi)ODD地形的優(yōu)勢(shì)

Ⅸ 硬件實(shí)驗(yàn)

Ⅹ 局限性與未來(lái)工作

XI 結(jié)論

參考文獻(xiàn)

編輯推薦

最新資訊

“汽車(chē)爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車(chē)備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車(chē)前照燈配光性能的工