用于軌跡預測的多模態(tài)深度生成模型：一種條件變分自編碼器方法

2022-10-18 19:35:28· 來源：同濟智能汽車研究所

編者按：自動駕駛需要在動態(tài)和不確定的環(huán)境中做出決策。其中不確定性包含了1) 其他交通參與者的未知意圖；2) 未知的未來軌跡；3) 與主車的交互。針對交通參與者

編者按：自動駕駛需要在動態(tài)和不確定的環(huán)境中做出決策。其中不確定性包含了1) 其他交通參與者的未知意圖；2) 未知的未來軌跡；3) 與主車的交互。針對交通參與者的軌跡預測可用于降低上述不確定性，更好的了解交通環(huán)境，從而實現(xiàn)更安全高效的自動駕駛。監(jiān)督深度學習已成功應用于軌跡預測問題，但缺乏概率推理的方法難以對復雜的結構化輸出進行建模。本文采用的條件變分自編碼器方法對環(huán)境中未知的隱變量建模，強調特征設計，通過隨機前饋推理進行預測。

本文譯自：

《Multimodal Deep Generative Models for Trajectory Prediction: A Conditional Variational Autoencoder Approach》

文章來源：IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 6, NO. 2, APRIL 2021

作者：

Boris Ivanovic; Karen Leung; Edward Schmerling; Marco Pavone

原文鏈接：

https://ieeexplore.ieee.org/abstract/document/9286482

摘要：基于人類行為預測模型，機器人能夠預測人類的反應，這有助于設計安全、主動的機器人規(guī)劃算法。然而，對復雜的交互動力學進行建模，并在這種交互環(huán)境中捕獲多種可能性是非常具有挑戰(zhàn)性的。在這項工作中，我們提供了一個用于人類行為預測的條件變分自編碼器（CVAE）方法，該方法的核心是根據過去的交互和機器人未來的候選動作，在未來的人類軌跡上產生多模態(tài)概率分布。本論文的目標是回顧人類行為預測中的最先進方法，從基于物理的方法到純粹數據驅動的方法，提供一個嚴格但易懂的描述，以數據驅動、基于CVAE的方法，強調重要的特征設計，使其成為在基于模型的人機交互規(guī)劃環(huán)境中有吸引力的模型，并在使用此類模型時提供重要的設計考慮。

關鍵詞：自動駕駛汽車，深度學習方法，社會人機交互

I.引言

人類的行為在人群、環(huán)境甚至不同的瞬間都是不一致的，解決這種固有的不確定性是人機交互(HRI)的基本挑戰(zhàn)之一。即使當一個人的意圖是已知的，往往有多個不同的行動過程，人們可以追求實現(xiàn)他們的目標。例如，在圖1中，穿過道路的行人可以通過迎面而來的行人的左側或右側；關于這種情況的推理不能簡化為“一般”情況，即行人相撞。對觀察者來說，選擇似乎有隨機性，但也取決于環(huán)境的演化。賦予機器人考慮人類對其行為做出反應的能力，是實現(xiàn)前瞻性和主動性機器人決策策略的關鍵組成部分，該策略可以實現(xiàn)更安全、更高效的交互。
為了創(chuàng)造能夠與人類智能交互的機器人，觀察于人類交互的數據為建模交互動力學提供了有用的思路（參見[1]中的綜述）。機器人可能會根據在類似環(huán)境中看到的人類行為，對人類的行為和相應的概率進行推理。為了實現(xiàn)機器人的控制策略，無模型方法以端到端的方式解決這個問題。人類行為預測隱含在機器人的策略中，該策略直接從數據中學習。另一方面，基于模型的方法將模型學習和策略構建解耦——對交互動態(tài)的概率被用作策略構建的基礎。通過將行動/反應預測與策略解耦，基于模型的方法通常為規(guī)劃器的決策提供一定程度的透明度，這在無模型方法中通常是不可行的。在本文中，我們采用一種基于模型的方法來研究HRI，重點是學習人類行為的模型，或者更具體地說，學習未來人類行為的分布(例如軌跡)。

圖1 一種互動（例如，過馬路的行人）可能會演變成許多不同的方式。為了實現(xiàn)安全的人機交互，機器人（如自動駕駛汽車）需要考慮多種結果的可能性（用彩色陰影箭頭表示），并了解其行為如何影響其他人的行為。插圖：交互的圖形表示。

在基于模型的HRI方法中，有許多現(xiàn)有的人類行為建模方法，它們可以大致分為基于本體的或基于現(xiàn)象的。為了將我們的工作與其他方法進行對比，我們將建立一個關于該領域不同類型的本體和現(xiàn)象最新方法的分類。我們注意到，這些方法可以在其他維度上進行不同的分類（例如，模型是否產生概率或確定性預測）。在高層次上，本體論方法（有時被稱為“心理理論”）假設了一個關于主體行為的核心底層結構，并在此基礎上建立了一個數學模型。例如，他們可能會制定一套智能體必須遵循的規(guī)則，或者一個描述智能體內部決策方案的分析模型。相比之下，現(xiàn)象學方法并沒有做出如此強大的建模假設，而是依賴大量數據來建模智能體行為，而沒有明確地對潛在動機進行推理。

我們從現(xiàn)象學的角度來處理這個問題，特別是關注使用條件變分自動編碼器（CVAE）[2]來學習一個非常適合基于模型的規(guī)劃和控制的人類行為預測模型[3]。我們試圖明確描述人類行為在每個時間步的多模態(tài)不確定性，這取決于交互歷史以及未來的機器人行為選擇。對交互歷史的條件反射允許機器人對可能影響分布的經驗、情緒或參與程度等隱藏因素進行推理，而對機器人下一個動作選擇的條件反射則考慮了反應動力學。特別是由于后一種能力，條件行為預測模型在交互場景中的規(guī)劃中取得了巨大成功，然而，這種模型普遍存在的一個問題是，當從離線數據中學習時，它們可能無法區(qū)分相關性和因果關系。

本文目標：本文的主要目標是提供一個關于[3]、[6]、[7]和[8]中提出和開發(fā)的基于CVAE的人體軌跡預測模型的完整教程。在深入研究我們方法的細節(jié)之前，我們建立了一個在交互環(huán)境中預測人類行為的最先進方法的分類，以便深入了解我們的工作最適合的問題設置和系統(tǒng)設計目標。因此，本文的貢獻有五個方面：我們（i）提供了交互環(huán)境中人類行為預測的本體論和現(xiàn)象學方法的簡明分類，并進行了專門的討論，以提出我們的方法（第二節(jié)），（ii）介紹CVAE，并詳細介紹了人類軌跡預測的神經網絡體系結構（第三節(jié)），（iii）展示該模型的優(yōu)點，重點在于其對多智能體設置的可擴展性、異構數據的使用，以及生成基于動力學模型的輸出軌跡分布的分析表示的能力（第四節(jié)和第五節(jié)），（iv）將這種方法的性能與其他最先進的現(xiàn)象學方法進行比較，并討論使用該模型的重要注意事項（第六節(jié)）。

II.相關工作

預測人類行為的方法可以分為本體論方法和現(xiàn)象學方法。本體論模型對智能體的動力學或動機做出假設。一個方向是對系統(tǒng)的基本物理模型進行假設，然后導出狀態(tài)空間模型。例如，社會力模型[9]通過對主體之間的吸引力和排斥力進行假設，來制定交互動力學。類似地，智能駕駛員模型（IDM）[10]推導出了一個連續(xù)跟車微分方程模型。由于這些模型的簡單性，它們在模擬大規(guī)模交互時非常有用，例如人群動力學[11]或交通流[12]。盡管這些方法捕捉了智能體之間的耦合，但它們基本上是交互的單峰表示（即不考慮多個不同未來的可能性），并且不利用過去交互的知識。

我們可以對人類的內部決策過程進行假設，而不是明確地制定交互動力學。博弈論方法通過假設另一個智能體是合作的[13]還是對抗的[14]來建模交互動力學，并利用這些信息進行機器人規(guī)劃。對于具有社會意識的機器人導航，[15]、[16]可以推斷出人類的情緒或支配地位，并將其告知機器人規(guī)劃器。一種流行的方法是將人類建模為最優(yōu)規(guī)劃器，并將其在每個時間步的動機表示為依賴于狀態(tài)/行動的獎勵（相當于負成本）函數。最大化這個函數，例如，通過跟隨它的梯度來選擇下一個動作，可以被認為是人類決策。

逆強化學習（IRL）[17]，[18]是這一思想的推廣。獎勵函數通常表示為可能的非線性特征r(x, u)=θTφ(x, u)的線性組合，其中權重參數θ適用于最小化優(yōu)化r的動作和真實人類動作之間的誤差度量。IRL的一個典型優(yōu)勢是它的可解釋性，包括手工制作的特征，以及學習到的線性權重揭示的特征重要性。最大熵（MaxEnt）IRL[19]以概率的方式應用這一原理；人類行為的概率分布與獎勵的指數成正比，即p(u)∝exp(r(x, u))。該框架已被用于模擬駕駛[20]和社交導航[21]環(huán)境中的人類行為，然后用于告知機器人的規(guī)劃策略。理論上，由于獎勵函數中有足夠復雜和眾多的特征，MaxEnt-IRL可以任意很好地逼近任何（包括多峰）分布，這使得它成為我們應用HRI的一個很有吸引力的候選者。然而，Max Erl的典型應用有兩個主要缺點，這促使我們考慮另一種方法。首先，盡管學習到的分布可能是多模態(tài)的，但如果它被表示為非標準化對數概率密度函數（即r(x, u)），則在規(guī)劃時（例如，通過采樣），可能沒有一種計算上易于理解的方法來解釋這種多模態(tài)。之前的工作依賴于搜索顯式模式枚舉[21]，或者在[20]的情況下，它為智能車輛基于最大IRL的預測和策略構建開發(fā)了一個統(tǒng)一且易于處理的框架，由此產生的策略采用基于梯度的局部優(yōu)化，盡管學習了名義上的多峰分布，最終導致對交互結果的單峰假設。其次，IRL通常用于學習少數人類可解釋特征的重要性權重。使用更復雜、可能更深入的特征來提高模型的表達能力，消除了IRL的一個關鍵好處，反而促進了現(xiàn)象學方法的使用。例如，雖然這不是IRL的一個基本限制，但為了最大限度地提高可解釋性，現(xiàn)有工作通常在構建僅依賴于當前狀態(tài)的特征時做出馬爾可夫假設[20]，因此在對未來行為進行推理時，不會捕捉交互歷史。一般來說，基于獎勵的方法在數據有限的情況下是有效的，因為只有少數幾個參數需要學習，并且可以轉移到新的和看不見的任務[22]。然而，在大量數據的存在下，在交互歷史的條件下，考慮現(xiàn)象學方法是很自然的。

現(xiàn)象學方法是不對交互動力學和智能體決策過程的結構進行固有假設的方法。相反，他們依靠強大的建模技術和豐富的觀測數據來推斷和復制復雜的相互作用。最近，隨著長短期記憶（LSTM）網絡[25]的成功，出現(xiàn)了大量基于深度學習的回歸模型，用于預測未來的人類軌跡（例如[23]，[24]）。長短期記憶（LSTM）網絡是一種專門構建的用于建模時間序列數據的深度學習體系結構。然而，這種方法只產生單一的確定性軌跡輸出，因此忽略了捕捉人類行為固有的不確定性。安全關鍵系統(tǒng)需要對許多可能的未來結果進行推理，以防止出現(xiàn)最壞情況，最好是考慮到每種情況發(fā)生的可能性，從而實現(xiàn)安全決策。因此，最近人們對同時預測多個可能的未來或產生未來可能結果分布的方法產生了興趣。

由于生成性建模[2]，[26]的最新進展，已經出現(xiàn)了從確定性回歸到生成性模型的范式轉變，即生成未來可能行為分布的模型。特別是，深度生成方法（基于神經網絡的模型，從中學習數據集采樣的真實潛在概率分布的近似值）已成為最先進的方法。有兩種主要的深層生成方法在該領域占據主導地位，（條件）生成對抗網絡（(C)GANs）[26]，[27]和（條件）變分自動編碼器（(C)VAEs）[2]，[28]。這兩種方法已廣泛應用于交互式環(huán)境（例如[29]–[32]）中的未來人體軌跡預測。GAN由生成器和鑒別器網絡組成，以產生真實的輸出，生成器輸出樣本，然后由鑒別器“判斷”。盡管基于GAN的模型顯示了有希望的結果，但存在兩個主要局限性。首先，GAN學習經常遭受模式崩潰的影響，這種現(xiàn)象是模型收斂到分布模式，無法捕獲和產生不同的輸出[33]。這與安全型應用不兼容，在這些應用程序中，捕獲罕見但潛在的災難性后果非常重要。其次，眾所周知，GAN很難訓練，因為生成器和鑒別器之間的沖突會導致訓練過程不穩(wěn)定[34]，[35]。此外，盡管在目標函數的定義方面提供了靈活性，但GANs基本上輸出了樣本的經驗分布，這可能會限制可使用的基于模型的規(guī)劃器/控制器的類型（例如，依賴參數化分布的規(guī)劃器）。

(C)VAEs采用變分貝葉斯方法；他們通過將隱藏屬性提取為概率分布，然后從潛在分布中“解碼”樣本，以產生所需的輸出，從而學習真實潛在概率分布的近似值。與GANs相比，CVAEs優(yōu)化了訓練集中所有示例的可能性，這意味著考慮了分布的所有模式，并且不太可能出現(xiàn)模式崩潰和缺乏GANs多樣性的問題。此外，CVAE可以從分布中生成經驗樣本，也可以生成分布的分析表示，這使得它們在基于模型的規(guī)劃和控制環(huán)境中可能比GANs更通用。

因此，在選擇一種建模交互動力學和執(zhí)行人類行為預測的方法時，需要考慮很多因素。在具有大量可用數據的HRI環(huán)境中，以及需要高表達能力來捕捉交互細微差別和輸出空間上的多模態(tài)分布覆蓋，我們將這項工作的剩余部分集中在使用CVAEs進行人體軌跡預測上。

圖2 CVAE的圖模型，以及用于人類行為預測的CVAE的神經網絡架構。實線表示生成過程（預測過程），虛線表示用于變分推理（訓練過程）。

III. 用于交互感知行為預測的條件變分自編碼器

A 條件變分自編碼器

給定數據集

，條件生成建模的目標是擬合條件概率分布p(y|x)的模型，該模型可用于下游應用，例如推理（即給定x，計算觀察特定樣本y的概率），或者生成給定x的新樣本y。因此，我們考慮在由一組固定的參數定義的分布族內的p(y|x)，我們適合于以最大化觀測數據的似然為目標的數據集。由于其表達能力，神經網絡通常用于表示復雜的高維分布。CVAE[2]是一種條件生成模型。目標仍然是近似p(y|x)，但在輸出p(y|x)之前，模型首先將輸入投影到一個稱為隱空間的低維空間，該空間使模型發(fā)現(xiàn)顯著特征，以達到提高性能的預期目的，并可能有助于解釋性。圖2(a)示出了CVAE的圖模型。由θ參數化的編碼器接收輸入x并產生分布pθ(z | x)，其中z是隱變量，可以是連續(xù)的或離散的[36]，[37]。由φ參數化的解碼器使用x和來自pθ(z | x)的樣本來產生pφ(y | x, z)。實際上，編碼器和解碼器都是神經網絡。然后將隱變量z邊緣化，得到p(y | x)，

目標是擬合參數φ，θ和ψ，以最大化數據集上p(y | x)的對數似然。通過取雙方的對數，使用Jensen不等式，并重新排列這些項，得出了證據下限（ELBO），

其中

是Kullback-Liebler散度，ELBO是對數p(y | x)上的一個下界，我們試圖最大化這個量，但直接用(1)來計算它往往很困難。相反，我們最大化ELBO作為代理。通過使用重新參數化技巧[28]、[36]、[37]，ELBO易于計算，并且可以通過隨機梯度下降進行優(yōu)化。單個訓練示例(x，y)的損失為，

在訓練期間，我們最小化訓練集上的蒙特卡羅估計的期望損失。

B 交互感知人類行為預測

我們感興趣的是學習一個模型，該模型能夠預測智能體（即，我們假設這些代理是人類或人類控制的）與環(huán)境中其他智能代理交互的未來軌跡。具體來說，我們需要一個模型，該模型（i）依賴于歷史，以便捕捉行為趨勢或意圖，（ii）考慮所有代理之間的耦合交互動力學，（iii）在未來的人類軌跡上產生多模態(tài)分布，因為人類在交互環(huán)境中可能有許多不同的行為方式，（iv）非常適合基于模型的規(guī)劃，因為我們的最終目標是設計能夠利用這些預測與人類無縫互動的機器人。我們提出的序列到序列CVAE軌跡預測架構，如圖2(b)所示，能夠通過以下方式解決這些需求。

為了解決上述（i）和（ii），輸入條件變量x由表示交互歷史的特征、自交互開始以來所有代理的一系列特征（例如位置、速度、動作）以及未來機器人軌跡、機器人計劃在規(guī)劃范圍內遵循的一系列狀態(tài)和/或動作組成。此外，我們還可以包括其他可能與應用相關的功能，例如環(huán)境地圖或機器人的攝像頭圖像（見第五節(jié)）。輸出y是我們感興趣的所有人類代理的未來狀態(tài)/動作序列。由于輸出部分取決于機器人將來將做什么，因此該模型學習耦合交互動力學。我們將在第五節(jié)稍后討論如何整合預測的動作分布，以生成完整的動態(tài)可行軌跡預測。

為了解決（iii），通過使用離散的隱空間來構造多峰分布。z的每個隱向量實例化對應于離散模式（即混合分量），其概率pθ(z | x)由編碼器產生（對應于混合權重）。例如，其中一種離散模式可能對應于人類駕駛員的制動，而另一種可能對應于右轉。請注意，并不能保證對每個隱變量賦予語義，這是一個活躍的研究領域[38]?？梢允褂眠B續(xù)的隱空間，但在我們的工作中，我們發(fā)現(xiàn)離散的隱空間更有效。對于給定的模式，這種行為的發(fā)生方式可能會有所不同（例如，右轉的方式略有不同）。為了適應這些變化并考慮連續(xù)狀態(tài)或動作中的依賴性，解碼器輸出高斯混合模型（GMM）的自回歸序列。我們想強調的是，在這里使用GMM并不是在軌跡上創(chuàng)建多模式分布的主要機制；這就是隱空間的作用。在預測時域的每個時間步，解碼器輸出描述輸出特征分布的GMM分量，然后從GMM中提取樣本，并用于在下一個時間步生成GMM。重復此過程將創(chuàng)建從p(y | x)中提取的樣本。對于單個GMM分量（即高斯分量）的情況，可以傳播每個時間步的均值和方差，而不是樣本，從而實現(xiàn)輸出分布的分析表示（見第五節(jié)）。

輸出分布表示方式的靈活性（iv）；我們可以根據基于模型的規(guī)劃器的需求定制輸出。具體來說，我們可以選擇以經驗（即直接輸出樣本）或分析（即分布的輸出參數）來描述學習到的分布。此外，對于如何構造編碼器和解碼器，還有許多選項。我們主要利用遞歸神經網絡（RNN）來處理具有可變長度的時間序列數據，而不增加問題的規(guī)模。正如我們將在第四和第五節(jié)中描述的，我們可以增加模型來考慮多個代理和異構數據輸入之間的時空關系（例如，狀態(tài)軌跡、圖像和地圖）。

C 案例研究

我們重現(xiàn)了[3]中研究的交通場景，以說明我們方法的關鍵特征。在場景中，最初并排行駛的兩輛車必須在短時間和短距離內交換車道，模擬汽車在高速公路上/下合流。這是一個具有挑戰(zhàn)性的場景，因為誰將通過誰的固有多模式不確定性。在開始之前，我們要說兩句話。首先，我們將LSTM用于編碼器和解碼器網絡，因為我們發(fā)現(xiàn)這種RNN架構在評估損失方面提供了最佳性能。其次，我們選擇預測未來的人類動作序列，并使用未來的機器人動作序列作為輸入，因為這與我們的案例研究一致。但是，對于其他應用，可以使用狀態(tài)來代替操作。

交互歷史被定義為自交互開始以來兩個代理的狀態(tài)和動作序列。我們認為未來的機器人動作序列作為一個額外的輸入；這與交互歷史一起形成條件變量x。學習CVAE模型定義了隱變量z上的分布pθ(z | x)，該分布與x一起輸入解碼器pψ(y | x, z)，以生成預測的人類動作序列y。LSTM解碼器生成描述每個時間步人類動作分布的GMM分量；為了產生序列y，從GMM中采樣一個動作，并將其反饋到LSTM單元以產生下一個動作，依此類推。

在圖3中，當機器人決定要采取的下一個動作時，它可以預測人類可能對其每個候選未來動作序列做出的反應（藍色虛線）。預測中的不同顏色（細線）展示了輸出分布中的不同模式，即離散隱變量z。例如，淺藍色軌跡對應于人類加速，而深黃色軌跡對應于人類減速。根據這個交互模型，機器人可以通過搜索一組可能的未來動作序列并選擇一個能產生最高預期回報的動作序列來選擇下一個動作。該基于模型的規(guī)劃器在模擬器[3]和全尺寸試驗車輛[5]上進行了測試和驗證。

圖3 未來人類動作序列的預測取決于機器人的未來動作序列（藍色虛線）。未來人類行為序列的不同顏色對應于不同的離散隱變量實例化（即多模態(tài)輸出分布中的不同模式）。該圖改編自[3]。

IV. 擴展到多智能體交互

在現(xiàn)實世界中，智能體同時與許多其他智能體交互，例如行人穿過人群、車輛穿過十字路口或高速公路上的合流。因此，在前一節(jié)中討論的模型需要擴展以考慮一般的智能體數量以及它們之間的時空關系。

A 對一般數量的智能體進行建模

建模此類交互的自然方法是將場景抽象為時空圖（STG）G=(V, E)，之所以這樣命名，是因為它將智能體表示為節(jié)點，將其交互表示為邊，邊隨時間演化。邊(u, v)∈E表示如果代理u與代理v“交互”。作為學習交互模型的輸入，空間接近度是兩個智能體是否可以直接交互[23]、[24]、[30]、[31]。具體來說，如果||pu-pv||2<d，則兩個節(jié)點u和v存在交互。以這種方式抽象場景的一個好處是，它可以將任何類似結構的方法應用于各種環(huán)境，甚至不同的問題領域（例如，在計算機視覺中建模人機交互[24]）。圖1顯示了自動駕駛場景的STG抽象示例。

這將軌跡預測問題從一個建模智能體及其交互轉變?yōu)橐粋€建模節(jié)點及邊。這里的關鍵挑戰(zhàn)是，一個代理可以有一般數量的鄰居，這些鄰居會隨著場景的變化而變化。因此，生成的模型需要能夠處理固定體系結構的一般數量的輸入（因為神經網絡權重具有固定的大小）。為此，可以擴展第III-C節(jié)中討論的架構，使其模擬場景STG的結構。特別是，為連接到節(jié)點的每條邊（直接建模邊）添加一個LSTM，并使用中間聚合步驟，以便組合來自相同類型的相鄰節(jié)點的影響。這是[6]中采用的方法，證明了這種結構可以模擬相鄰代理的影響。

雖然這使我們能夠對一般數量的代理進行建模，但還需要考慮一個事實，即V和E是時變的。這在自動駕駛中尤其明顯，因為車輛傳感器的范圍有限。因此，代理可以在每一個時間步出現(xiàn)和消失，例如，由于在靠近ego車輛的高速公路上或高速公路下合并。即使智能體的數量是恒定的，它們之間的相互作用也必然是時變的，因為智能體在移動時與其他代理的空間接近度會發(fā)生變化。因此，本小節(jié)中討論的邊緣編碼方案需要進一步擴展，以捕獲時變結構。

B 建模時變交互

引入時變將STG表示從G=(V, E)修改為Gt=(Vt, Et)。不幸的是，簡單地按照每個時間步重新創(chuàng)建一個新的STG并應用上述建模方法將是昂貴且低效的，因為它不會回收可能在多個時間步中持續(xù)存在的信息（例如，跟蹤哪些邊是新的、已建立的或最近刪除的）。

另一種方法是引入一個標量，該標量根據邊添加或刪除的最近時間來調制每個邊緣編碼LSTM的輸出。這是[7]中采用的方法，其中標量在0到1之間變化，并在模型的其余部分包含邊影響充當附加權重因子。這種輸出重新加權還可以作為一個低通濾波器，以便新添加或刪除的邊緣不會使模型輸出從一個時間步劇烈擺動到另一個時間步，從而抑制上游感知系統(tǒng)產生的高頻噪聲（例如，當車輛在傳感器范圍限值附近抖動時）。這種方法的一個主要優(yōu)點是在線更新速度快，因為模型的狀態(tài)表示只需要幾次矩陣乘法運算就可以捕捉到新的觀察結果[7]。這在機器人用例中尤其重要，因為機器人用例通常需要實時從流數據在線運行。我們將在第VI-C節(jié)中進一步討論運行時注意事項。

V . 結合智能體動力學和異構輸入數據

到目前為止，我們已經了解了如何在場景中概率地建模一般的、時變數量的交互智能體。在本節(jié)中，我們將深入探討輸出結構的考慮因素，特別是那些確保輸出軌跡可行性的結構，以及包括現(xiàn)代機器人平臺上常見的額外信息源的方法，例如周圍環(huán)境的高清(HD)地圖。

A 生成動力學可行的輸出

在行為預測中，大多數方法的共同點是最終需要在空間坐標中產生輸出，因為這是施加許多規(guī)劃約束的地方；事實上，學術行為預測文獻中的大部分評估指標都是在空間坐標上定義的[1]。因此，大多數方法要么直接生成軌跡樣本（例如，GANs），要么利用中間模型將內部表示轉換為具有不確定性的位置（例如，基于CVAE的方法，帶有輸出雙變量GMM的解碼器），如前幾節(jié)討論的體系結構。然而，這兩種輸出結構都很難實施動力學約束，例如非完整約束，例如由無滑移條件產生的約束。如果不考慮這些因素，可能會導致潛在行為無法實現(xiàn)的預測（例如，預測汽車將側向移動）。

為了解決這個問題，我們可以利用動力學建模中的已有思想。在選擇要實施的動力學模型時，人們通常會在建模復雜性和計算效率之間找到折衷。然而，在自動駕駛的情況下，感知要求的形式還有一個額外的復雜因素。理想情況下，選擇的智能體模型將最好地匹配它們的語義類型。例如，人們通常會使用自行車模型在路上模擬汽車[39]。然而，估計另一輛車的自行車模型參數或動作非常困難，因為它需要估計車輛的質心、軸距和前輪轉向角。一個沒有如此高估計要求的相關模型是動態(tài)擴展的獨輪車模型[40]。它在精度（考慮關鍵的車輛非完整約束，例如無滑移約束）和效率（只有四個狀態(tài)和兩個動作）之間取得了很好的平衡，不需要復雜的在線參數估計程序（只需要估計車輛的位置和速度）。這種動力學模型的選擇遵循了[8]中的選擇，通過實驗表明，這種簡化模型已經對提高預測精度產生了相當大的影響。

為了考慮這些動力學因素，我們應該將他們的學習體系結構視為在智能體的動作而不是位置上產生分布，并通過智能體的動力學關注從動作到位置的過程。值得注意的是，該方案還可以將模型在其生成動作中的不確定性傳播到結果位置上的不確定性，尤其是如果每個時間步的輸出動作不確定性具有簡單的參數化，例如高斯分布。在這種情況下，對于線性底層代理動力學（例如，經常用于模擬行人的單個積分器），具有不確定性的整個系統(tǒng)動力學是線性高斯的。形式上，對于動作u(t)=dp(t)/dt的單個積分器，t+1處的位置平均值為p(t+1)=p(t)+u(t)δt，其中u(t)由學習架構產生。在非線性動力學的情況下（例如，用于模擬車輛的單輪模型），仍然可以（近似地）通過線性化有關代理當前狀態(tài)和行為的動力學來使用這種不確定性傳播方案。[8]中使用了這種動力學積分方案，使模型能夠產生解析輸出分布。重要的是，即使包含了額外的動力學，訓練也不需要額外的數據（例如，損失沒有修正為行動過度）。該模型仍然直接學習匹配數據集的地面真值位置，梯度通過智能體的動力學反向傳播到模型的其余部分。因此，在沒有任何額外數據的情況下，這種動力學的包含使模型能夠生成明確的動作序列，從而實現(xiàn)動態(tài)可行的軌跡預測?？偟膩碚f，與直接輸出位置的方法相比，這種輸出方案能夠保證其軌跡樣本在動力學上是可行的。

B 結合異構數據

現(xiàn)代機器人系統(tǒng)擁有大量先進的傳感器，這些傳感器為下游用戶提供各種各樣的輸出和數據模式。然而，當前的許多行為預測方法僅利用其他主體的跟蹤軌跡作為輸入，而忽略了來自現(xiàn)代感知系統(tǒng)的這些其他信息源。

值得注意的是，許多現(xiàn)實世界的系統(tǒng)都使用高清地圖來幫助定位和導航。根據傳感器的可用性和復雜程度，地圖的保真度可以從簡單的二進制障礙物地圖，即M∈{0, 1}H×W×1，到多層語義映射，例如M∈{0, 1}H×W×L，其中每層1≤l≤ L表示具有特定語義類型的區(qū)域（例如道路、人行道）。選擇這種地圖格式的一個主要原因是，它與圖像非常相似，圖像也有高度、寬度和通道尺寸。因此，卷積神經網絡（CNN）可以有效地進行在線評估，并將其納入行為預測模型中。這是在[8]中做出的選擇，它使用一個相對較小的CNN對被建模的代理周圍的本地場景上下文進行編碼。

更一般地，通過經由適當的模型將其表示為向量并將結果輸出連接到編碼器的整體場景表示向量，可以類似地在建筑的編碼器中包括進一步的附加信息（例如，原始激光雷達數據、相機圖像、行人骨架或凝視方向估計）。

VI . 實驗和實踐考慮

在本節(jié)中，我們將第五節(jié)中描述的方法與最先進的方法進行定量比較，以解決行人和車輛運動預測這一具有挑戰(zhàn)性的問題。此外，我們還討論了一些重要的實施注意事項，供尋求采用本文中介紹的方法的研究者參考。

A 定量性能

我們將Trajectron++[8]與Social GAN[29]和Social BiGAT[32]進行比較，它們都使用類似的基于RNN的架構來建模時間序列。這些方法是在現(xiàn)實世界的ETH[43]和UCY[44]行人數據集上進行評估的，這是由具有挑戰(zhàn)性的多人交互場景組成的領域的標準基準。我們使用[29]中提出的最佳N（BoN）平均和最終位移誤差（ADE和FDE）指標以及[7]中提出的基于核密度估計的負對數似然（KDE NLL）來評估它們的性能。如表1所示，基于CVAE的Trajectron++在三個指定指標上的表現(xiàn)明顯優(yōu)于其他產品。此外，表II顯示了我們的方法在大規(guī)模nuScenes數據集上針對各種方法的強大車輛建模性能[45]。進一步的實驗和燒蝕研究見[8]。更廣泛地說，現(xiàn)象學方法在大數據領域的成功已經反映在現(xiàn)代軌跡預測競賽中。例如，最近的ICRA 2020 nuScenes[45]預測挑戰(zhàn)賽的所有獲獎者（其中一個是Trajectron++[8]）都是現(xiàn)象學的，使用了深度編碼器-解碼器架構，除了過去的軌跡歷史，還利用了異構輸入數據。

表1 比較基于CVAE的行人建模方法和基于GAN的行人建模方法。黑體是最好的

表2 比較基于CVAE的車輛建模方法與其他方法。黑體是最好的

B 隱空間維度

隱空間的大?。礉撛谧兞康臄盗浚┦潜狙芯恐猩形从懻摰膯栴}。雖然找到“最佳”規(guī)模最終是一個超參數搜索，但人們通常應該為他們希望建模的每個高級行為或效果分配一個潛在變量。在（常見）情況下，很難確切知道有多少（例如，在駕駛員建模中），應該從高開始，讓CVAE通過分配非常低的概率來刪減冗余模式。例如，在[3]、[6]–[8]中，我們使用了25個潛在變量（即z可以取25個值）。其中，CVAE一次只為幾個模式分配顯著概率，例如直線移動、左轉、右轉、停車。

為了確定使用了多少個模式，可以通過證據理論的視角分析CVAE的學習權重，如[46]所述。具體來說，我們可以確定哪些潛在變量有直接證據支持它們的存在，并在不損失任何性能的情況下刪減其他變量。例如，[46]發(fā)現(xiàn)只有2?12個隱變量在[8]中用到，其余變量可以在不損失性能的情況下進行刪減。

C 模型在線運行

機器人應用模型開發(fā)中的一個關鍵考慮因素是運行時的復雜性。為了實現(xiàn)實時性能，可以利用時空圖提供的狀態(tài)表示。具體來說，模型可以在線更新新信息，而無需完全執(zhí)行正向傳遞。例如，由于我們的方法使用LSTM，只有編碼器中最后的LSTM單元需要輸入新的觀察數據。然后，可以使用更新的編碼器表示執(zhí)行模型的其余部分。[7]、[8]中應用了這種更新和預測方案，這兩種方案都實現(xiàn)了實時在線性能。

VII.結論和未來工作

我們提供了一個關于CVAE方法的完整教程，該方法用于多智能體交互的多模態(tài)軌跡預測。此外，我們還對現(xiàn)有最先進的方法進行了分類，從而確定了主要的方法考慮因素，并對我們提出的方法進行了展望。在存在大量具有潛在異構數據類型（例如，空間特征、圖像、地圖）的數據，以及未來行為取決于交互歷史的非馬爾可夫環(huán)境中，我們提出的CVAE方法是一個有吸引力的模型，用于預測多智能體交互環(huán)境中未來的人類軌跡。特別是，我們的CVAE方法非常靈活，可以輕松地包含異構數據，考慮智能體動力學，并根據不同類型的基于模型的規(guī)劃算法進行調整。

未來的工作包括對模型的進一步改進，例如開發(fā)使隱空間更具可解釋性的方法，例如，通過時序邏輯的視角，對上游傳感器噪聲進行魯棒性驗證，并應用學習的模型生成更真實的模擬代理，以進行測試和驗證。更廣泛地說，由于未來與下游規(guī)劃和控制算法的集成，在評估指標和體系結構方面仍有許多懸而未決的問題。這些問題現(xiàn)在變得越來越重要，因為現(xiàn)象學軌跡預測方法在原始性能方面已經超過了其他方法，并且目標是部署在現(xiàn)實世界的安全關鍵機器人系統(tǒng)上。

參考文獻

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：智慧進階高能集結『HYPOWER DAY 2022』航裕新品發(fā)布啟航
上一篇：智能駕駛系統(tǒng)與軟件升級的關聯(lián)設計方案

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網V課堂
微信公眾號
汽車測試網手機站

相關閱讀

0 條相關評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數，而是證據鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋
• 大推力直驅技術助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數百名工人！
• 考慮驅動單元性能變化的分布式驅動智能車輛強化學習增強運	• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

用于軌跡預測的多模態(tài)深度生成模型：一種條件變分自編碼器方法

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工