日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

自動(dòng)駕駛車輛的社會(huì)交互:回顧與展望

2022-10-28 23:25:17·  來(lái)源:智能運(yùn)載裝備研究所  作者:王文碩劉暢流等  
 
CMetric使用中心性函數(shù),結(jié)合了計(jì)算圖論和社會(huì)交通心理學(xué),能實(shí)現(xiàn)實(shí)時(shí)的社會(huì)偏好估計(jì)。相比于基于博弈論的方法,CMetric不需要依賴本車知道其他人類駕駛員的代價(jià)函數(shù)這樣的假設(shè)。 

圖片

圖8 評(píng)估博弈論架構(gòu)下人類駕駛員間社會(huì)偏好的方法。(a) 線性加和為1 (b) 社會(huì)價(jià)值的環(huán)形測(cè)量 (c)  CMetric測(cè)量

除了通過(guò)上述提到的函數(shù)量化社會(huì)因素外,一些研究者還通過(guò)調(diào)整每個(gè)博弈智能體的行動(dòng)集和相關(guān)決策模型,考慮人類的其他社會(huì)因素(如禮貌水平、有限的感知能力)。

在現(xiàn)實(shí)交通中,許多不同的駕駛行為因素會(huì)影響人類駕駛員的合作程度。這便引出一個(gè)問(wèn)題 ‘how to leverage these factors into computational models and ensure their fidelity?’ 。答案在于行為理論描述的是怎么假設(shè)一個(gè)人類駕駛員對(duì)路上其他人類駕駛員做出的行動(dòng)和反應(yīng)。Hoogendoorn和Bovy總結(jié)了一系列由來(lái)源不同的經(jīng)驗(yàn)依據(jù)支持的行為假設(shè),為高級(jí)交互模型的推導(dǎo)提供了基礎(chǔ)。作者還提出了一種主觀努力最小化,在此基礎(chǔ)上使用微分博弈論建模通用駕駛行為。

(3)智能體自適應(yīng)性的博弈

人類是適應(yīng)性的智能體,能夠通過(guò)獎(jiǎng)勵(lì)強(qiáng)化機(jī)制學(xué)習(xí)駕駛。受此啟發(fā),結(jié)合強(qiáng)化學(xué)習(xí)和博弈論架構(gòu),可以設(shè)計(jì)與其他駕駛員交互的學(xué)習(xí)程序。把本智能體外的其他智能體視為環(huán)境的一部分,建模交互的博弈架構(gòu)可分為兩類:異步方案、同步方案。

  • 異步方案

該方案中,每個(gè)駕駛員都將周圍其他所有駕駛員視為環(huán)境的一部分,如圖9(a)所示??梢酝ㄟ^(guò)特定的博弈論方案(如level-k game)實(shí)現(xiàn)駕駛員之間的動(dòng)態(tài)交互,人類駕駛員的行為以迭代的方式被預(yù)測(cè)(圖9(c)),而不是被同時(shí)評(píng)估。具體來(lái)說(shuō),為了獲得一個(gè)level-k智能體的策略,其他所有智能體的策略都被設(shè)置為level-(k?1),使它們成為環(huán)境的一部分,而環(huán)境的動(dòng)態(tài)性是已知的。因此,level-k智能體的策略作為對(duì)其他智能體動(dòng)作的最佳響應(yīng)被估計(jì)出來(lái),如圖9(b)所示。注意,所有智能體的策略推理層可以保持相同、也可以彼此不同(動(dòng)態(tài)level-k策略),在策略空間上其可以是離散的、也可以是連續(xù)的。上述博弈問(wèn)題的解法是通過(guò)正確地定義狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)功能和環(huán)境動(dòng)態(tài),將迭代策略學(xué)習(xí)任務(wù)視為強(qiáng)化學(xué)習(xí)問(wèn)題,稱為單智能體強(qiáng)化學(xué)習(xí)。這種單智能體強(qiáng)化學(xué)習(xí)架構(gòu)往往導(dǎo)致控制策略不穩(wěn)定;即使經(jīng)過(guò)訓(xùn)練的策略收斂了,它們?nèi)匀蝗狈π阅鼙WC。另外,由于其他駕駛員的策略行為沒(méi)有改變,在每一層迭代時(shí)將不會(huì)影響本智能體的行為,使得單智能體強(qiáng)化學(xué)習(xí)方案可能導(dǎo)致冒險(xiǎn)行為甚至發(fā)生碰撞。

  • 同步方案

在多駕駛員交互的場(chǎng)景中,每個(gè)駕駛員都試圖通過(guò)反復(fù)試錯(cuò)的過(guò)程同時(shí)地解決順序決策問(wèn)題。環(huán)境狀態(tài)的演化和每個(gè)駕駛員獲得的獎(jiǎng)勵(lì)函數(shù)是由所有駕駛員的聯(lián)合動(dòng)作決定。因此,人類駕駛員需要考慮環(huán)境和其他人類駕駛員,并與之交互。同步方案可以通過(guò)馬爾可夫博弈(或隨機(jī)博弈)捕捉到包含多個(gè)人類駕駛員的決策過(guò)程。每個(gè)智能體被視為一個(gè)基于馬爾科夫決策過(guò)程的代理,基于此構(gòu)成多智能體強(qiáng)化學(xué)習(xí)(MARL)問(wèn)題。針對(duì)不同的交互任務(wù),可以設(shè)計(jì)多種不同的MARL算法學(xué)習(xí)范式?,F(xiàn)有部分研究中,所提方法被限制在預(yù)定義的交通場(chǎng)景中,每個(gè)交互駕駛員的社會(huì)偏好是預(yù)定義好的。而現(xiàn)實(shí)中,人類駕駛員可以利用其他駕駛員的社會(huì)合作來(lái)避免僵局,并主動(dòng)說(shuō)服他人改變自己的行為。受此啟發(fā),Hu基于帶課程學(xué)習(xí)策略的馬爾可夫博弈,開發(fā)了的MARL,以考慮合作程度和模擬匯入場(chǎng)景中道路通行權(quán)的社會(huì)優(yōu)先性。一旦Level-k博弈的單次交互level被視為RL任務(wù),現(xiàn)有很多算法都可以使用,如Q-learning。RL還可以預(yù)測(cè)動(dòng)態(tài)博弈中智能體的時(shí)間持續(xù)的交互動(dòng)態(tài)性。 

圖片

圖9 (a)RL (b)level-k博弈 (c)迭代學(xué)習(xí)角度下的異步方案與(d)同步方法

(4)非完全信息博弈最常用的博弈模型是完全信息博弈,其假設(shè)每個(gè)人類駕駛員是理性的,彼此之間的信息(如效用函數(shù)、駕駛意圖或駕駛風(fēng)格)是可知的。然而在實(shí)際交通中,這些信息往往是無(wú)法獲得的,導(dǎo)致智能體間信息不對(duì)稱。所以,人們需要對(duì)他人的駕駛行為及對(duì)非理性行為進(jìn)行非同理心的評(píng)估。為了在與不理性的人類駕駛員交互時(shí),自動(dòng)駕駛汽車能做出一個(gè)有安全保障的決策,Tian等人引入了一對(duì)社會(huì)參數(shù)(β,λ)來(lái)表征人類駕駛員的理性水平和角色,并在觀察到新信息后通過(guò)貝葉斯規(guī)則進(jìn)行更新。此外,當(dāng)環(huán)境狀態(tài)部分可觀時(shí),相互作用可通過(guò)部分可觀隨機(jī)博弈(POSG)和部分可觀馬爾可夫決策過(guò)程(POMDP)表示,該問(wèn)題可以使用Q-learning等強(qiáng)化學(xué)習(xí)算法求解。(5)估計(jì)其他智能體信息的博弈可以參數(shù)化交互智能體的社會(huì)偏好,再將其嵌入到博弈中每個(gè)智能體的代價(jià)函數(shù)中。為了在決策時(shí)利用另一個(gè)人類智能體的行為,研究人員基于兩個(gè)假設(shè)建立了人類駕駛員之間的交互模型:所有的智能體都是理性的,都以尋找效用最大化的控制行為為目標(biāo);本智能體可以得到另一個(gè)人類智能體的獎(jiǎng)勵(lì)/成本函數(shù)。然而,在現(xiàn)實(shí)環(huán)境中,上述假設(shè)難以直接獲得,所以使用可得到的數(shù)據(jù)估計(jì)更多的信息就變得很有必要。

  • 獎(jiǎng)勵(lì)函數(shù)估計(jì)

第一個(gè)假設(shè)允許將另一個(gè)人類駕駛員的決策過(guò)程轉(zhuǎn)化為最優(yōu)最大化問(wèn)題。通常,研究人員將其他人類駕駛員的獎(jiǎng)勵(lì)函數(shù)作為當(dāng)前狀態(tài)的線性結(jié)構(gòu)加權(quán)特征。相關(guān)的權(quán)重向量

圖片

可以通過(guò)逆最優(yōu)控制理論(如IRL)和最大熵原理從交互范例中估計(jì)出來(lái)。IRL旨在學(xué)習(xí)在駕駛范例中編碼人類駕駛員駕駛偏好的基本代價(jià)函數(shù)。

圖片

  • 未來(lái)行為預(yù)測(cè)

每個(gè)智能體的獎(jiǎng)勵(lì)函數(shù)可以在固定時(shí)域內(nèi)累積,而不是僅考慮未來(lái)的一步。這個(gè)操作需要本車在進(jìn)行交互時(shí)預(yù)測(cè)其他人類智能體在預(yù)測(cè)域內(nèi)可能的動(dòng)作和狀態(tài)。Level-k博弈論假設(shè)其他所有參與者都可以被建模為level-(k?1)推理者并采取相應(yīng)地動(dòng)作,使得在預(yù)測(cè)固定時(shí)域內(nèi)未來(lái)車輛動(dòng)作和狀態(tài)時(shí),能夠考慮車輛對(duì)車輛的相互依賴性。3.單智能體馬爾科夫決策過(guò)程另外一種建立本智能體如何學(xué)習(xí)與他人交互的方法是采用單智能體MDPs方案。單智能體假設(shè)包含其他智能體的環(huán)境是靜止的,進(jìn)而可以用MDP構(gòu)建交互問(wèn)題。本智能體在與環(huán)境交互時(shí),通過(guò)在腦海中動(dòng)態(tài)展開交互軌跡來(lái)考慮自身行為的影響,試圖選擇最優(yōu)規(guī)劃來(lái)最大化相關(guān)獎(jiǎng)勵(lì)。因此,可以把本車的駕駛?cè)蝿?wù)構(gòu)建為關(guān)于策略的最優(yōu)化問(wèn)題,選擇使從環(huán)境狀態(tài)s開始的未來(lái)固定時(shí)間域內(nèi)的值函數(shù)最大的策略。 

圖片

單智能體理MDPs用于對(duì)本智能體(固定的)和其他智能體之間的交互進(jìn)行建模,許多現(xiàn)有的RL算法都可以用來(lái)求解。然而,基于異步方案的隨機(jī)博弈在每個(gè)階段博弈中交替地只將一個(gè)駕駛員作為本智能體。在真實(shí)的交通中,人類駕駛員可以在他們的頭腦中預(yù)測(cè)其他人類智能體的可能輸出,然后將這些潛在的可能整合到他們的實(shí)時(shí)規(guī)劃中,在交互場(chǎng)景中產(chǎn)生與社會(huì)兼容的決策和行動(dòng)。使用馬爾科夫決策過(guò)程構(gòu)建交互問(wèn)題會(huì)產(chǎn)生兩個(gè)基本問(wèn)題,即‘How does the ego agent make predictions of other agents’ future behavior?’和‘How does the ego agent utilize these predictions, i.e., integrate these estimated predictions into their planning? ’本智能體如何預(yù)測(cè)其他智能體的未來(lái)行為?又如何在未來(lái)的規(guī)劃中整合預(yù)測(cè)到的信息?對(duì)于行為如何預(yù)測(cè)的問(wèn)題,基于本智能體如何考慮其與其他智能體之間的影響,有反應(yīng)式和交互式兩種預(yù)測(cè)方法。單向影響:本車預(yù)測(cè)其他人類駕駛員行為時(shí),不考慮本車當(dāng)前和未來(lái)動(dòng)作對(duì)其他智能體的影響,把其他智能體視為無(wú)反應(yīng)的智能體。其他智能體的行為既可以是確定的、也可以是隨機(jī)的,行為確定的智能體僅按照預(yù)定義的規(guī)則和情況(如固定的規(guī)劃速度、已知的先前狀態(tài)/意圖)行駛。對(duì)于行為隨機(jī)的智能體,本智能體無(wú)法明確地知道和預(yù)測(cè)其行為,但知道他們的意圖和目標(biāo)的不確定性的概率分布。簡(jiǎn)單來(lái)說(shuō),在考慮單向影響的行為預(yù)測(cè)中,他車未來(lái)的行為只與自身有關(guān),本車可以知道他車未來(lái)的行為/運(yùn)動(dòng)/意圖??紤]了單向影響,本車可以做反應(yīng)式規(guī)劃reactive planning。 

圖片

雙向影響:本車預(yù)測(cè)他車未來(lái)行為時(shí),考慮本車當(dāng)前和未來(lái)的動(dòng)作對(duì)周圍車輛的影響,即假設(shè)其他智能體會(huì)對(duì)本車潛在的未來(lái)狀態(tài)做出理性的回應(yīng)。簡(jiǎn)單來(lái)說(shuō),他車未來(lái)的行為除了與自身有關(guān)外,還受到本車過(guò)去、現(xiàn)在及未來(lái)動(dòng)作/狀態(tài)的影響。在這種考慮了不確定性的交互問(wèn)題中,廣泛采用的方法是POMDP??紤]了雙向影響,本車可以做交互式規(guī)劃interactive planning。 

圖片

  • 部分可觀MDP

不確定性信息(其他智能體的意圖和重新規(guī)劃過(guò)程、觀測(cè)不確定性和遮擋)等通常是不可觀察的。一種常用的方法是建立當(dāng)前狀態(tài)的概率分布,形成一個(gè)可用的置信狀態(tài)。POMDP可以是離線的,也可以是在線的。離線意味著解決POMDP問(wèn)題關(guān)心最佳可能行動(dòng),不是針對(duì)當(dāng)前、而是針對(duì)每一個(gè)可以想象的信念狀態(tài)。為了使問(wèn)題在計(jì)算上可解,POMDP都是在離散空間中(離散的狀態(tài)、離散的動(dòng)作、離散的觀測(cè)、或它們的組合)構(gòu)建的。

  • Q-學(xué)習(xí)

人類在自然界中的行為是通過(guò)強(qiáng)化而非自由意志塑造的,交互遵循這一規(guī)則。因?yàn)槿祟愔悄荏w通過(guò)與環(huán)境的持續(xù)交互來(lái)學(xué)習(xí)在動(dòng)態(tài)和不確定的環(huán)境中駕駛,因此,具有MDP形式的強(qiáng)化學(xué)習(xí)能夠制定交互問(wèn)題。因此,接下來(lái)的問(wèn)題將是‘How do we integrate the interactive influences between agents into RL algorithms?’ 我們?nèi)绾螌⒅悄荏w之間的交互影響集成到RL算法中?。在規(guī)劃時(shí),可以通過(guò)相關(guān)的值迭代過(guò)程考慮其他智能體對(duì)本智能體的影響。已有研究采用Double Q-Learning(DQL)算法來(lái)考慮其他智能體的行為和狀態(tài)對(duì)智能體價(jià)值評(píng)價(jià)的影響。

  • 隨機(jī)博弈

單智能體MDPs和隨機(jī)博弈可以捕獲多個(gè)智能體之間的相互作用,但它們之間存在一些區(qū)別。通常有兩種方式可以得到隨機(jī)博弈。一是將單智能體MDPs擴(kuò)展到多智能體MDPs,二者的區(qū)別在于每個(gè)駕駛員在做決策時(shí)是否必須考慮其他駕駛員來(lái)采取戰(zhàn)略行動(dòng)。二是將矩陣博弈擴(kuò)展到多個(gè)狀態(tài),隨機(jī)博弈中每個(gè)狀態(tài)都可以看成是一個(gè)矩陣博弈,其獎(jiǎng)勵(lì)是所有人類駕駛員的聯(lián)合動(dòng)作產(chǎn)生的。在進(jìn)行完矩陣博弈、得到獎(jiǎng)勵(lì)后,所有智能體的狀態(tài)根據(jù)他們的聯(lián)合動(dòng)作轉(zhuǎn)移到另一個(gè)狀態(tài)(進(jìn)入另一個(gè)矩陣博弈)。因此,隨機(jī)博弈的架構(gòu)中包含了MDPs和矩陣博弈。4.從人類范例中學(xué)習(xí)群優(yōu)化和基于博弈論的方法均是事先設(shè)計(jì)好的,它們憑借認(rèn)知洞察力分析場(chǎng)景,然后設(shè)計(jì)一個(gè)與之相關(guān)的成本/目標(biāo)函數(shù)來(lái)模擬人類駕駛員之間的交互行為,通過(guò)啟發(fā)式地設(shè)置超參數(shù)方法來(lái)求解優(yōu)化問(wèn)題,而非用數(shù)據(jù)進(jìn)行優(yōu)化。這兩種方法把成本/目標(biāo)函數(shù)是作為待優(yōu)化的先驗(yàn)知識(shí),然而人類駕駛員間社會(huì)交互背后的決策與運(yùn)動(dòng)機(jī)制是復(fù)雜的,難以用簡(jiǎn)單的、人為設(shè)置的規(guī)則描述。通常,展示交互行為比確定產(chǎn)生同樣行為的獎(jiǎng)勵(lì)函數(shù)要更容易。這就為建模和學(xué)習(xí)人類駕駛員間的交互提供了一種方法,即通過(guò)模仿學(xué)習(xí)直接從人類示例中學(xué)習(xí)交互行為?;趯W(xué)習(xí)到的是行為軌跡還是效用,分為行為克隆和效用復(fù)現(xiàn)兩種方法,前者直接學(xué)習(xí)從觀測(cè)(如圖像)到動(dòng)作(轉(zhuǎn)向角、油門)的映射,后者間接使用數(shù)據(jù)檢索獎(jiǎng)勵(lì)函數(shù),用于規(guī)劃的交互行為盡可能接近地模仿范例。 

  • 行為克隆

行為克隆是最簡(jiǎn)單的模仿學(xué)習(xí)形式,專注于使用監(jiān)督學(xué)習(xí)復(fù)制智能體的策略。行為克隆旨在解決一個(gè)回歸問(wèn)題,在這個(gè)問(wèn)題中,優(yōu)化是通過(guò)最大化目標(biāo)函數(shù)(如訓(xùn)練數(shù)據(jù)中所采取行動(dòng)的可能性)或最小化損失(如模擬(即模型輸出)和真實(shí)數(shù)據(jù)(即演示)之間的行為派生)來(lái)實(shí)現(xiàn)的。行為克隆的成功依賴于足夠多的、能夠充分覆蓋訓(xùn)練和測(cè)試數(shù)據(jù)集的狀態(tài)和動(dòng)作空間的數(shù)據(jù)。然而行為克隆在訓(xùn)練過(guò)程中沒(méi)有利用級(jí)聯(lián)學(xué)習(xí)錯(cuò)誤。由行為克隆學(xué)到的模型在復(fù)雜的交互場(chǎng)景中通常表現(xiàn)的較差。

  • 效用復(fù)現(xiàn)

IRL逆強(qiáng)化學(xué)習(xí)假定獎(jiǎng)勵(lì)函數(shù)在不同交通場(chǎng)景中是最簡(jiǎn)潔、魯棒性、可移植性的,其依賴從觀測(cè)到的交互行為/軌跡中提取/檢索代價(jià)函數(shù)。復(fù)現(xiàn)智能體間的交互過(guò)程通常假定環(huán)境的狀態(tài)要具有馬爾科夫性質(zhì),這樣就可以將學(xué)習(xí)任務(wù)構(gòu)建為馬爾科夫過(guò)程。因此,用一個(gè)參數(shù)化模型去描述駕駛員的交互過(guò)程,模型中的參數(shù)可以通過(guò)一個(gè)設(shè)計(jì)好的目標(biāo)函數(shù)估計(jì)得到。標(biāo)準(zhǔn)的MDP:其他人類駕駛員作為環(huán)境中的一部分;部分可觀MDP:人類駕駛員感知能力受限、無(wú)法準(zhǔn)確感知到他們需要的信息。在該架構(gòu)下,可以用IRL或IOC逆最優(yōu)控制學(xué)習(xí)人類駕駛員的交互過(guò)程;值得提的一點(diǎn)是,在模仿學(xué)習(xí)與在基于博弈論的模型中,IRL的角色是不同的。前者中,IRL算法是學(xué)習(xí)本智能體的獎(jiǎng)勵(lì)函數(shù)、以模仿本智能體的駕駛行為,而在博弈論模型中,IRL用來(lái)學(xué)習(xí)其他智能體的獎(jiǎng)勵(lì)函數(shù),以作為本智能體的輸入??偨Y(jié):理性的人類駕駛行為是在回應(yīng)動(dòng)態(tài)環(huán)境的所有可能答案中近最優(yōu)的或最優(yōu)的結(jié)果,這就可以將人類交互問(wèn)題構(gòu)建為數(shù)值可計(jì)算的最優(yōu)化模型,最大化某個(gè)目標(biāo)函數(shù)。然而,對(duì)于如此復(fù)雜的優(yōu)化問(wèn)題,實(shí)時(shí)求解的難度很大。參考文獻(xiàn):

Wenshuo Wang, Letian Wang, Chengyuan Zhang, Changliu Liu and Lijun Sun (2022), “Social Interactions for Autonomous Driving: A Review and Perspectives”, Foundations and Trends® in Robotics: Vol. xx, No. xx, pp 1–183. DOI: 10.48550/arXiv.2208.07541.

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
廣告
滬ICP備11026917號(hào)-25