自動(dòng)駕駛車輛的社會(huì)交互：回顧與展望

2022-10-28 23:25:17· 來(lái)源：智能運(yùn)載裝備研究所作者：王文碩劉暢流等

CMetric使用中心性函數(shù)，結(jié)合了計(jì)算圖論和社會(huì)交通心理學(xué)，能實(shí)現(xiàn)實(shí)時(shí)的社會(huì)偏好估計(jì)。相比于基于博弈論的方法，CMetric不需要依賴本車知道其他人類駕駛員的代價(jià)函數(shù)這樣的假設(shè)。

圖8 評(píng)估博弈論架構(gòu)下人類駕駛員間社會(huì)偏好的方法。(a) 線性加和為1 (b) 社會(huì)價(jià)值的環(huán)形測(cè)量 (c) CMetric測(cè)量

除了通過(guò)上述提到的函數(shù)量化社會(huì)因素外，一些研究者還通過(guò)調(diào)整每個(gè)博弈智能體的行動(dòng)集和相關(guān)決策模型，考慮人類的其他社會(huì)因素（如禮貌水平、有限的感知能力）。

在現(xiàn)實(shí)交通中，許多不同的駕駛行為因素會(huì)影響人類駕駛員的合作程度。這便引出一個(gè)問(wèn)題 ‘how to leverage these factors into computational models and ensure their fidelity?’ 。答案在于行為理論描述的是怎么假設(shè)一個(gè)人類駕駛員對(duì)路上其他人類駕駛員做出的行動(dòng)和反應(yīng)。Hoogendoorn和Bovy總結(jié)了一系列由來(lái)源不同的經(jīng)驗(yàn)依據(jù)支持的行為假設(shè)，為高級(jí)交互模型的推導(dǎo)提供了基礎(chǔ)。作者還提出了一種主觀努力最小化，在此基礎(chǔ)上使用微分博弈論建模通用駕駛行為。

(3)智能體自適應(yīng)性的博弈

人類是適應(yīng)性的智能體，能夠通過(guò)獎(jiǎng)勵(lì)強(qiáng)化機(jī)制學(xué)習(xí)駕駛。受此啟發(fā)，結(jié)合強(qiáng)化學(xué)習(xí)和博弈論架構(gòu)，可以設(shè)計(jì)與其他駕駛員交互的學(xué)習(xí)程序。把本智能體外的其他智能體視為環(huán)境的一部分，建模交互的博弈架構(gòu)可分為兩類：異步方案、同步方案。

異步方案

該方案中，每個(gè)駕駛員都將周圍其他所有駕駛員視為環(huán)境的一部分，如圖9(a)所示?？梢酝ㄟ^(guò)特定的博弈論方案（如level-k game）實(shí)現(xiàn)駕駛員之間的動(dòng)態(tài)交互，人類駕駛員的行為以迭代的方式被預(yù)測(cè)（圖9(c)），而不是被同時(shí)評(píng)估。具體來(lái)說(shuō)，為了獲得一個(gè)level-k智能體的策略，其他所有智能體的策略都被設(shè)置為level-(k?1)，使它們成為環(huán)境的一部分，而環(huán)境的動(dòng)態(tài)性是已知的。因此，level-k智能體的策略作為對(duì)其他智能體動(dòng)作的最佳響應(yīng)被估計(jì)出來(lái)，如圖9(b)所示。注意，所有智能體的策略推理層可以保持相同、也可以彼此不同（動(dòng)態(tài)level-k策略），在策略空間上其可以是離散的、也可以是連續(xù)的。上述博弈問(wèn)題的解法是通過(guò)正確地定義狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)功能和環(huán)境動(dòng)態(tài)，將迭代策略學(xué)習(xí)任務(wù)視為強(qiáng)化學(xué)習(xí)問(wèn)題，稱為單智能體強(qiáng)化學(xué)習(xí)。這種單智能體強(qiáng)化學(xué)習(xí)架構(gòu)往往導(dǎo)致控制策略不穩(wěn)定；即使經(jīng)過(guò)訓(xùn)練的策略收斂了，它們?nèi)匀蝗狈π阅鼙ＷC。另外，由于其他駕駛員的策略行為沒(méi)有改變，在每一層迭代時(shí)將不會(huì)影響本智能體的行為，使得單智能體強(qiáng)化學(xué)習(xí)方案可能導(dǎo)致冒險(xiǎn)行為甚至發(fā)生碰撞。

同步方案

在多駕駛員交互的場(chǎng)景中，每個(gè)駕駛員都試圖通過(guò)反復(fù)試錯(cuò)的過(guò)程同時(shí)地解決順序決策問(wèn)題。環(huán)境狀態(tài)的演化和每個(gè)駕駛員獲得的獎(jiǎng)勵(lì)函數(shù)是由所有駕駛員的聯(lián)合動(dòng)作決定。因此，人類駕駛員需要考慮環(huán)境和其他人類駕駛員，并與之交互。同步方案可以通過(guò)馬爾可夫博弈（或隨機(jī)博弈）捕捉到包含多個(gè)人類駕駛員的決策過(guò)程。每個(gè)智能體被視為一個(gè)基于馬爾科夫決策過(guò)程的代理，基于此構(gòu)成多智能體強(qiáng)化學(xué)習(xí)(MARL)問(wèn)題。針對(duì)不同的交互任務(wù)，可以設(shè)計(jì)多種不同的MARL算法學(xué)習(xí)范式?，F(xiàn)有部分研究中，所提方法被限制在預(yù)定義的交通場(chǎng)景中，每個(gè)交互駕駛員的社會(huì)偏好是預(yù)定義好的。而現(xiàn)實(shí)中，人類駕駛員可以利用其他駕駛員的社會(huì)合作來(lái)避免僵局，并主動(dòng)說(shuō)服他人改變自己的行為。受此啟發(fā)，Hu基于帶課程學(xué)習(xí)策略的馬爾可夫博弈，開發(fā)了的MARL，以考慮合作程度和模擬匯入場(chǎng)景中道路通行權(quán)的社會(huì)優(yōu)先性。一旦Level-k博弈的單次交互level被視為RL任務(wù)，現(xiàn)有很多算法都可以使用，如Q-learning。RL還可以預(yù)測(cè)動(dòng)態(tài)博弈中智能體的時(shí)間持續(xù)的交互動(dòng)態(tài)性。

圖9 (a)RL (b)level-k博弈 (c)迭代學(xué)習(xí)角度下的異步方案與(d)同步方法

(4)非完全信息博弈最常用的博弈模型是完全信息博弈，其假設(shè)每個(gè)人類駕駛員是理性的，彼此之間的信息（如效用函數(shù)、駕駛意圖或駕駛風(fēng)格）是可知的。然而在實(shí)際交通中，這些信息往往是無(wú)法獲得的，導(dǎo)致智能體間信息不對(duì)稱。所以，人們需要對(duì)他人的駕駛行為及對(duì)非理性行為進(jìn)行非同理心的評(píng)估。為了在與不理性的人類駕駛員交互時(shí)，自動(dòng)駕駛汽車能做出一個(gè)有安全保障的決策，Tian等人引入了一對(duì)社會(huì)參數(shù)（β,λ）來(lái)表征人類駕駛員的理性水平和角色，并在觀察到新信息后通過(guò)貝葉斯規(guī)則進(jìn)行更新。此外，當(dāng)環(huán)境狀態(tài)部分可觀時(shí)，相互作用可通過(guò)部分可觀隨機(jī)博弈（POSG）和部分可觀馬爾可夫決策過(guò)程（POMDP）表示，該問(wèn)題可以使用Q-learning等強(qiáng)化學(xué)習(xí)算法求解。(5)估計(jì)其他智能體信息的博弈可以參數(shù)化交互智能體的社會(huì)偏好，再將其嵌入到博弈中每個(gè)智能體的代價(jià)函數(shù)中。為了在決策時(shí)利用另一個(gè)人類智能體的行為，研究人員基于兩個(gè)假設(shè)建立了人類駕駛員之間的交互模型：所有的智能體都是理性的，都以尋找效用最大化的控制行為為目標(biāo)；本智能體可以得到另一個(gè)人類智能體的獎(jiǎng)勵(lì)/成本函數(shù)。然而，在現(xiàn)實(shí)環(huán)境中，上述假設(shè)難以直接獲得，所以使用可得到的數(shù)據(jù)估計(jì)更多的信息就變得很有必要。

獎(jiǎng)勵(lì)函數(shù)估計(jì)

第一個(gè)假設(shè)允許將另一個(gè)人類駕駛員的決策過(guò)程轉(zhuǎn)化為最優(yōu)最大化問(wèn)題。通常，研究人員將其他人類駕駛員的獎(jiǎng)勵(lì)函數(shù)作為當(dāng)前狀態(tài)的線性結(jié)構(gòu)加權(quán)特征。相關(guān)的權(quán)重向量

可以通過(guò)逆最優(yōu)控制理論（如IRL）和最大熵原理從交互范例中估計(jì)出來(lái)。IRL旨在學(xué)習(xí)在駕駛范例中編碼人類駕駛員駕駛偏好的基本代價(jià)函數(shù)。

未來(lái)行為預(yù)測(cè)

每個(gè)智能體的獎(jiǎng)勵(lì)函數(shù)可以在固定時(shí)域內(nèi)累積，而不是僅考慮未來(lái)的一步。這個(gè)操作需要本車在進(jìn)行交互時(shí)預(yù)測(cè)其他人類智能體在預(yù)測(cè)域內(nèi)可能的動(dòng)作和狀態(tài)。Level-k博弈論假設(shè)其他所有參與者都可以被建模為level-(k?1)推理者并采取相應(yīng)地動(dòng)作，使得在預(yù)測(cè)固定時(shí)域內(nèi)未來(lái)車輛動(dòng)作和狀態(tài)時(shí)，能夠考慮車輛對(duì)車輛的相互依賴性。3.單智能體馬爾科夫決策過(guò)程另外一種建立本智能體如何學(xué)習(xí)與他人交互的方法是采用單智能體MDPs方案。單智能體假設(shè)包含其他智能體的環(huán)境是靜止的，進(jìn)而可以用MDP構(gòu)建交互問(wèn)題。本智能體在與環(huán)境交互時(shí)，通過(guò)在腦海中動(dòng)態(tài)展開交互軌跡來(lái)考慮自身行為的影響，試圖選擇最優(yōu)規(guī)劃來(lái)最大化相關(guān)獎(jiǎng)勵(lì)。因此，可以把本車的駕駛?cè)蝿?wù)構(gòu)建為關(guān)于策略的最優(yōu)化問(wèn)題，選擇使從環(huán)境狀態(tài)s開始的未來(lái)固定時(shí)間域內(nèi)的值函數(shù)最大的策略。

單智能體理MDPs用于對(duì)本智能體（固定的）和其他智能體之間的交互進(jìn)行建模，許多現(xiàn)有的RL算法都可以用來(lái)求解。然而，基于異步方案的隨機(jī)博弈在每個(gè)階段博弈中交替地只將一個(gè)駕駛員作為本智能體。在真實(shí)的交通中，人類駕駛員可以在他們的頭腦中預(yù)測(cè)其他人類智能體的可能輸出，然后將這些潛在的可能整合到他們的實(shí)時(shí)規(guī)劃中，在交互場(chǎng)景中產(chǎn)生與社會(huì)兼容的決策和行動(dòng)。使用馬爾科夫決策過(guò)程構(gòu)建交互問(wèn)題會(huì)產(chǎn)生兩個(gè)基本問(wèn)題，即‘How does the ego agent make predictions of other agents’ future behavior?’和‘How does the ego agent utilize these predictions, i.e., integrate these estimated predictions into their planning? ’本智能體如何預(yù)測(cè)其他智能體的未來(lái)行為？又如何在未來(lái)的規(guī)劃中整合預(yù)測(cè)到的信息？對(duì)于行為如何預(yù)測(cè)的問(wèn)題，基于本智能體如何考慮其與其他智能體之間的影響，有反應(yīng)式和交互式兩種預(yù)測(cè)方法。單向影響：本車預(yù)測(cè)其他人類駕駛員行為時(shí)，不考慮本車當(dāng)前和未來(lái)動(dòng)作對(duì)其他智能體的影響，把其他智能體視為無(wú)反應(yīng)的智能體。其他智能體的行為既可以是確定的、也可以是隨機(jī)的，行為確定的智能體僅按照預(yù)定義的規(guī)則和情況（如固定的規(guī)劃速度、已知的先前狀態(tài)/意圖）行駛。對(duì)于行為隨機(jī)的智能體，本智能體無(wú)法明確地知道和預(yù)測(cè)其行為，但知道他們的意圖和目標(biāo)的不確定性的概率分布。簡(jiǎn)單來(lái)說(shuō)，在考慮單向影響的行為預(yù)測(cè)中，他車未來(lái)的行為只與自身有關(guān)，本車可以知道他車未來(lái)的行為/運(yùn)動(dòng)/意圖?？紤]了單向影響，本車可以做反應(yīng)式規(guī)劃reactive planning。

雙向影響：本車預(yù)測(cè)他車未來(lái)行為時(shí)，考慮本車當(dāng)前和未來(lái)的動(dòng)作對(duì)周圍車輛的影響，即假設(shè)其他智能體會(huì)對(duì)本車潛在的未來(lái)狀態(tài)做出理性的回應(yīng)。簡(jiǎn)單來(lái)說(shuō)，他車未來(lái)的行為除了與自身有關(guān)外，還受到本車過(guò)去、現(xiàn)在及未來(lái)動(dòng)作/狀態(tài)的影響。在這種考慮了不確定性的交互問(wèn)題中，廣泛采用的方法是POMDP?？紤]了雙向影響，本車可以做交互式規(guī)劃interactive planning。

部分可觀MDP

不確定性信息（其他智能體的意圖和重新規(guī)劃過(guò)程、觀測(cè)不確定性和遮擋）等通常是不可觀察的。一種常用的方法是建立當(dāng)前狀態(tài)的概率分布，形成一個(gè)可用的置信狀態(tài)。POMDP可以是離線的，也可以是在線的。離線意味著解決POMDP問(wèn)題關(guān)心最佳可能行動(dòng)，不是針對(duì)當(dāng)前、而是針對(duì)每一個(gè)可以想象的信念狀態(tài)。為了使問(wèn)題在計(jì)算上可解，POMDP都是在離散空間中(離散的狀態(tài)、離散的動(dòng)作、離散的觀測(cè)、或它們的組合)構(gòu)建的。

Q-學(xué)習(xí)

人類在自然界中的行為是通過(guò)強(qiáng)化而非自由意志塑造的，交互遵循這一規(guī)則。因?yàn)槿祟愔悄荏w通過(guò)與環(huán)境的持續(xù)交互來(lái)學(xué)習(xí)在動(dòng)態(tài)和不確定的環(huán)境中駕駛，因此，具有MDP形式的強(qiáng)化學(xué)習(xí)能夠制定交互問(wèn)題。因此，接下來(lái)的問(wèn)題將是‘How do we integrate the interactive influences between agents into RL algorithms?’ 我們?nèi)绾螌⒅悄荏w之間的交互影響集成到RL算法中?。在規(guī)劃時(shí)，可以通過(guò)相關(guān)的值迭代過(guò)程考慮其他智能體對(duì)本智能體的影響。已有研究采用Double Q-Learning(DQL)算法來(lái)考慮其他智能體的行為和狀態(tài)對(duì)智能體價(jià)值評(píng)價(jià)的影響。

隨機(jī)博弈

單智能體MDPs和隨機(jī)博弈可以捕獲多個(gè)智能體之間的相互作用，但它們之間存在一些區(qū)別。通常有兩種方式可以得到隨機(jī)博弈。一是將單智能體MDPs擴(kuò)展到多智能體MDPs，二者的區(qū)別在于每個(gè)駕駛員在做決策時(shí)是否必須考慮其他駕駛員來(lái)采取戰(zhàn)略行動(dòng)。二是將矩陣博弈擴(kuò)展到多個(gè)狀態(tài)，隨機(jī)博弈中每個(gè)狀態(tài)都可以看成是一個(gè)矩陣博弈，其獎(jiǎng)勵(lì)是所有人類駕駛員的聯(lián)合動(dòng)作產(chǎn)生的。在進(jìn)行完矩陣博弈、得到獎(jiǎng)勵(lì)后，所有智能體的狀態(tài)根據(jù)他們的聯(lián)合動(dòng)作轉(zhuǎn)移到另一個(gè)狀態(tài)（進(jìn)入另一個(gè)矩陣博弈）。因此，隨機(jī)博弈的架構(gòu)中包含了MDPs和矩陣博弈。4.從人類范例中學(xué)習(xí)群優(yōu)化和基于博弈論的方法均是事先設(shè)計(jì)好的，它們憑借認(rèn)知洞察力分析場(chǎng)景，然后設(shè)計(jì)一個(gè)與之相關(guān)的成本/目標(biāo)函數(shù)來(lái)模擬人類駕駛員之間的交互行為，通過(guò)啟發(fā)式地設(shè)置超參數(shù)方法來(lái)求解優(yōu)化問(wèn)題，而非用數(shù)據(jù)進(jìn)行優(yōu)化。這兩種方法把成本/目標(biāo)函數(shù)是作為待優(yōu)化的先驗(yàn)知識(shí)，然而人類駕駛員間社會(huì)交互背后的決策與運(yùn)動(dòng)機(jī)制是復(fù)雜的，難以用簡(jiǎn)單的、人為設(shè)置的規(guī)則描述。通常，展示交互行為比確定產(chǎn)生同樣行為的獎(jiǎng)勵(lì)函數(shù)要更容易。這就為建模和學(xué)習(xí)人類駕駛員間的交互提供了一種方法，即通過(guò)模仿學(xué)習(xí)直接從人類示例中學(xué)習(xí)交互行為?；趯W(xué)習(xí)到的是行為軌跡還是效用，分為行為克隆和效用復(fù)現(xiàn)兩種方法，前者直接學(xué)習(xí)從觀測(cè)(如圖像)到動(dòng)作(轉(zhuǎn)向角、油門)的映射，后者間接使用數(shù)據(jù)檢索獎(jiǎng)勵(lì)函數(shù)，用于規(guī)劃的交互行為盡可能接近地模仿范例。

行為克隆

行為克隆是最簡(jiǎn)單的模仿學(xué)習(xí)形式，專注于使用監(jiān)督學(xué)習(xí)復(fù)制智能體的策略。行為克隆旨在解決一個(gè)回歸問(wèn)題，在這個(gè)問(wèn)題中，優(yōu)化是通過(guò)最大化目標(biāo)函數(shù)(如訓(xùn)練數(shù)據(jù)中所采取行動(dòng)的可能性)或最小化損失(如模擬(即模型輸出)和真實(shí)數(shù)據(jù)(即演示)之間的行為派生)來(lái)實(shí)現(xiàn)的。行為克隆的成功依賴于足夠多的、能夠充分覆蓋訓(xùn)練和測(cè)試數(shù)據(jù)集的狀態(tài)和動(dòng)作空間的數(shù)據(jù)。然而行為克隆在訓(xùn)練過(guò)程中沒(méi)有利用級(jí)聯(lián)學(xué)習(xí)錯(cuò)誤。由行為克隆學(xué)到的模型在復(fù)雜的交互場(chǎng)景中通常表現(xiàn)的較差。

效用復(fù)現(xiàn)

IRL逆強(qiáng)化學(xué)習(xí)假定獎(jiǎng)勵(lì)函數(shù)在不同交通場(chǎng)景中是最簡(jiǎn)潔、魯棒性、可移植性的，其依賴從觀測(cè)到的交互行為/軌跡中提取/檢索代價(jià)函數(shù)。復(fù)現(xiàn)智能體間的交互過(guò)程通常假定環(huán)境的狀態(tài)要具有馬爾科夫性質(zhì)，這樣就可以將學(xué)習(xí)任務(wù)構(gòu)建為馬爾科夫過(guò)程。因此，用一個(gè)參數(shù)化模型去描述駕駛員的交互過(guò)程，模型中的參數(shù)可以通過(guò)一個(gè)設(shè)計(jì)好的目標(biāo)函數(shù)估計(jì)得到。標(biāo)準(zhǔn)的MDP：其他人類駕駛員作為環(huán)境中的一部分；部分可觀MDP：人類駕駛員感知能力受限、無(wú)法準(zhǔn)確感知到他們需要的信息。在該架構(gòu)下，可以用IRL或IOC逆最優(yōu)控制學(xué)習(xí)人類駕駛員的交互過(guò)程；值得提的一點(diǎn)是，在模仿學(xué)習(xí)與在基于博弈論的模型中，IRL的角色是不同的。前者中，IRL算法是學(xué)習(xí)本智能體的獎(jiǎng)勵(lì)函數(shù)、以模仿本智能體的駕駛行為，而在博弈論模型中，IRL用來(lái)學(xué)習(xí)其他智能體的獎(jiǎng)勵(lì)函數(shù)，以作為本智能體的輸入?？偨Y(jié)：理性的人類駕駛行為是在回應(yīng)動(dòng)態(tài)環(huán)境的所有可能答案中近最優(yōu)的或最優(yōu)的結(jié)果，這就可以將人類交互問(wèn)題構(gòu)建為數(shù)值可計(jì)算的最優(yōu)化模型，最大化某個(gè)目標(biāo)函數(shù)。然而，對(duì)于如此復(fù)雜的優(yōu)化問(wèn)題，實(shí)時(shí)求解的難度很大。參考文獻(xiàn)：

Wenshuo Wang, Letian Wang, Chengyuan Zhang, Changliu Liu and Lijun Sun (2022), “Social Interactions for Autonomous Driving: A Review and Perspectives”, Foundations and Trends® in Robotics: Vol. xx, No. xx, pp 1–183. DOI: 10.48550/arXiv.2208.07541.

第3頁(yè)/共3頁(yè) 首頁(yè) 下一頁(yè) 上一頁(yè) 尾頁(yè)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：基于多項(xiàng)式的智能車輛換道軌跡規(guī)劃
上一篇：磷酸鐵鋰軟包與鋁殼電池性能比較

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

自動(dòng)駕駛車輛的社會(huì)交互：回顧與展望

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工