日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線(xiàn)課堂

    • 電車(chē)測(cè)試

自動(dòng)駕駛車(chē)輛的社會(huì)交互:回顧與展望

2022-10-28 23:25:17·  來(lái)源:智能運(yùn)載裝備研究所  作者:王文碩劉暢流等  
 
(2)概率生成模型

社會(huì)交互情景描述的是一種條件,個(gè)體駕駛員的行為由其自身特征和由其他駕駛員的行為組成的環(huán)境決定,反之亦然。從條件概率的角度來(lái)看,人類(lèi)駕駛員間的交互影響可以解釋為一個(gè)駕駛員在感知到周?chē)渌?chē)輛的狀態(tài)后采取某個(gè)動(dòng)作的可能性有多大。這個(gè)問(wèn)題可以用條件概率分布或條件行為預(yù)測(cè)來(lái)表示,此概念是貝葉斯網(wǎng)絡(luò)的基礎(chǔ)。此外,Tolstaya等人用一種耳目一新的交互來(lái)量化智能體間的交互性,在這種交互中,智能體B由于觀測(cè)到智能體A的軌跡發(fā)生行為變化,計(jì)算公式為

圖片

圖片

變化較大代表智能體B很大程度上受到智能體A動(dòng)作的影響。如果在A的軌跡下,B的軌跡更可能發(fā)生,則

圖片

;如果不可能發(fā)生,則

圖片

;如果不變,

圖片

;這一思想使得在信息論中常用的相似性度量方法(如KL-divergence)變得容易應(yīng)用。

另一方面,可將交互視為潛在的概率生成過(guò)程或條件概率模型。如Anderson et al.提出一個(gè)概率圖模型,以捕捉前車(chē)未來(lái)狀態(tài)和動(dòng)態(tài)系統(tǒng)歷史狀態(tài)間的交互。但是該方法無(wú)法考慮匯入車(chē)輛對(duì)前后車(chē)交互的影響。González提出一個(gè)感知交互的概率駕駛員模型,以捕捉駕駛員的交互偏好,人類(lèi)駕駛員基于對(duì)周?chē){駛員行為的預(yù)測(cè),將在當(dāng)前時(shí)間步內(nèi)執(zhí)行動(dòng)作。在逆優(yōu)化框架下,通過(guò)加權(quán)特征(如導(dǎo)航和風(fēng)險(xiǎn)特征)的組合來(lái)表征交互偏好。

(3) 勢(shì)/風(fēng)險(xiǎn)場(chǎng)

基于人類(lèi)駕駛行為源自于基于風(fēng)險(xiǎn)場(chǎng)的假設(shè),提出了勢(shì)/風(fēng)險(xiǎn)場(chǎng)。采用勢(shì)函數(shù)建立交互模型已經(jīng)廣泛的應(yīng)用于人機(jī)交互、多車(chē)間的交互。與物理距離有關(guān)的指標(biāo)能有效地用某個(gè)可學(xué)習(xí)、可解釋的函數(shù)表征交互。該函數(shù)被稱(chēng)為勢(shì)函數(shù),其中還可以加入交通規(guī)則和駕駛場(chǎng)景信息。另外,勢(shì)函數(shù)對(duì)坐標(biāo)系x/y的導(dǎo)數(shù)即為虛擬力,推、拉車(chē)輛以實(shí)現(xiàn)交互過(guò)程中局部規(guī)劃成本最小化。還有研究者基于本車(chē)與周?chē)?chē)輛的相對(duì)距離(通常是兩車(chē)軌跡的最小值或最近點(diǎn))設(shè)計(jì)能量函數(shù)以捕捉車(chē)間交互?;谙鄬?duì)距離的量化方法無(wú)法保證始終正確捕捉人類(lèi)駕駛員間的交互。當(dāng)智能體間存在物理約束(高速隔離帶)時(shí),即使人類(lèi)駕駛員距離很近,但其交互很少或甚至沒(méi)有交互。

(4)認(rèn)知模型

研究人員基于心理理論、信息累計(jì)度量理論,使用相對(duì)距離表征駕駛風(fēng)格和解釋交互過(guò)程。研究者還從行為科學(xué)和心理學(xué)的角度出發(fā),開(kāi)發(fā)出其他類(lèi)型的交互模型以模仿人類(lèi)駕駛行為。

3. 建模社會(huì)交互中的影響因素

人類(lèi)可以通過(guò)利用交通場(chǎng)景中的顯式傳感器信息和對(duì)其他駕駛員行為的隱式社會(huì)推理來(lái)做出安全和社會(huì)可接受的動(dòng)作,從而非常出色地駕駛。將社會(huì)偏好、社會(huì)模仿和社會(huì)推理等因素賦予信息吸收能力和行為預(yù)期能力是人類(lèi)的天性,這是社會(huì)兼容駕駛行為的核心。對(duì)這些社會(huì)因素的定量評(píng)估需要計(jì)算認(rèn)知科學(xué)和技術(shù)。

(1)駕駛偏好中的社會(huì)價(jià)值取向SVO

SVO模型衡量一個(gè)駕駛員如何權(quán)衡自己的獎(jiǎng)勵(lì)與其他駕駛員的獎(jiǎng)勵(lì),在逆強(qiáng)化學(xué)習(xí)(IRL)的結(jié)構(gòu)下,它可以從觀察到的軌跡中學(xué)習(xí),再將可在線(xiàn)學(xué)習(xí)駕駛風(fēng)格的SVO模型整合到博弈場(chǎng)景中。

(2) 社會(huì)駕駛模仿中的社會(huì)凝聚力

人類(lèi)駕駛車(chē)輛的行為具有社會(huì)凝聚力,即駕駛員會(huì)采取與周?chē){駛員相似的動(dòng)作。受人類(lèi)駕駛員的社會(huì)凝聚力的啟發(fā),Landolfi和Dragan設(shè)計(jì)了一種凝聚力增強(qiáng)獎(jiǎng)勵(lì)函數(shù),使自動(dòng)駕駛汽車(chē)能夠通過(guò)確定跟隨其他車(chē)輛哪一方面、跟隨誰(shuí)以及何時(shí)跟隨來(lái)保證安全,從而自動(dòng)進(jìn)行社會(huì)性跟隨。

(3) 提高情景感知的社會(huì)感知

人類(lèi)可以積極地收集和提取有關(guān)環(huán)境的附加信息,從而創(chuàng)造一個(gè)相對(duì)完全的交通場(chǎng)景,從而提供足夠的信息,提高環(huán)境意識(shí),從而進(jìn)行安全高效的動(dòng)作。例如,當(dāng)駕駛員感知到相鄰車(chē)輛的減速和停車(chē)行為時(shí),無(wú)論他的視野是否被遮擋,他都能推斷出潛在的行人正在過(guò)馬路。人類(lèi)將其他駕駛員視為傳感器的這種社交能力已經(jīng)被制定并集成到自動(dòng)駕駛汽車(chē)中,以增強(qiáng)駕駛員的情景感知能力。Sun et al.和Afolabi et al.通過(guò)置信空間上的條件分布,形成對(duì)環(huán)境遮擋的認(rèn)知理解。

(4)駕駛風(fēng)格中的社會(huì)交互風(fēng)格

人類(lèi)駕駛員通過(guò)評(píng)估和平衡未來(lái)不同的獎(jiǎng)勵(lì)項(xiàng)來(lái)制定計(jì)劃并采取行動(dòng)。根據(jù)人類(lèi)的內(nèi)在模型、駕駛?cè)蝿?wù)和動(dòng)機(jī),人類(lèi)可能會(huì)對(duì)不同的獎(jiǎng)勵(lì)項(xiàng)給予不同的關(guān)注。這種方式就體現(xiàn)出他們與周?chē)h(huán)境互動(dòng)的不同風(fēng)格,如激進(jìn)、保守、禮貌、自私和非理性。因此,交互風(fēng)格可以表述為在生成軌跡時(shí)不同特征的加權(quán)結(jié)果。例如,研究人員將這些由社會(huì)因素誘發(fā)的互動(dòng)風(fēng)格量化為獎(jiǎng)勵(lì)特征。然后使用逆強(qiáng)化學(xué)習(xí)(IRL)來(lái)學(xué)習(xí)這些特征的權(quán)重或從軌跡中學(xué)習(xí)目標(biāo)函數(shù)排序。

五、建模和學(xué)習(xí)交互的方法

如圖5所示,常用的量化模型有五種:基于理性效用函數(shù)的模型、基于深度神經(jīng)網(wǎng)絡(luò)的模型、基于圖的模型、社會(huì)場(chǎng)/力、計(jì)算認(rèn)知模型。本文主要介紹基于理性效用函數(shù)的模型。

日常中最常遇到的交互場(chǎng)景是在城市環(huán)境和高速公路上的跟車(chē)、匯入/出與換道。研究人員將人類(lèi)駕駛員視為已知目標(biāo)函數(shù)的最優(yōu)控制器,以實(shí)現(xiàn)以預(yù)定義目標(biāo)為導(dǎo)向的任務(wù),從而決定在這些場(chǎng)景中的行為。然而,在自然交通場(chǎng)景中,駕駛員或其他人類(lèi)智能體間的交互受物理(如運(yùn)動(dòng)學(xué)和幾何)和社會(huì)(如意圖、注意力和責(zé)任)的約束。Luo等人開(kāi)發(fā)了一種通用的智能體交互模型(GAMMA),通過(guò)將交互運(yùn)動(dòng)視為帶有速度障礙的約束幾何優(yōu)化問(wèn)題,來(lái)預(yù)測(cè)人類(lèi)智能體的行為。該交互模型在高保真模擬器(SUMMIT)中得以實(shí)現(xiàn),用于模擬大規(guī)?;旌铣鞘薪煌?。此外,Lee et al.認(rèn)為人類(lèi)智能體在短期未來(lái)的交互中應(yīng)該獲得最優(yōu)的累積獎(jiǎng)勵(lì)。作者在一個(gè)優(yōu)化架構(gòu)下構(gòu)建了運(yùn)動(dòng)預(yù)測(cè)問(wèn)題,最大化一組預(yù)測(cè)假設(shè)的潛在未來(lái)獎(jiǎng)勵(lì)。通常,基于優(yōu)化的方法需要一個(gè)待優(yōu)化的特定目標(biāo)(車(chē)間期望間距和時(shí)距)和目標(biāo)函數(shù)。下面,將討論一些基于優(yōu)化某個(gè)成本函數(shù)或目標(biāo)函數(shù)思想而建立的模型,本文選擇了一些主流的方法,包括基于群的模型、博弈論模型、模仿學(xué)習(xí)和馬爾可夫決策過(guò)程。

圖片

5 建模和學(xué)習(xí)人類(lèi)駕駛員間交互的方法匯總

1.基于生物種群的仿生模型

應(yīng)用Reynolds規(guī)則的大多數(shù)實(shí)例是基于牛頓運(yùn)動(dòng)定律傳播的動(dòng)態(tài)模型,因此需要開(kāi)發(fā)一套反映Reynolds規(guī)則的完整分力集合,各分力(即凝聚力、分離力和一致力)與用于模擬行人交互的各部分社會(huì)力理論完全匹配。Reynolds規(guī)則揭示了交互的基本機(jī)制,比基于社會(huì)力的理論更具普遍性。盡管受群?jiǎn)l(fā)的規(guī)則成功地揭示了動(dòng)物(如鳥(niǎo)類(lèi)、魚(yú)類(lèi)和羊群)之間的群體交互機(jī)制,但它們只能在自由空間或有靜態(tài)障礙物的空間(如天空中的鳥(niǎo)類(lèi)和海洋中的魚(yú)類(lèi))中很好地工作。在交互式交通中,這些規(guī)則可能由于交通環(huán)境的約束和智能體本身的約束而失效。

圖片

圖6  自然界中的生物群聚現(xiàn)象

2.基于博弈論的模型

人類(lèi)駕駛行為本質(zhì)上是一個(gè)博弈問(wèn)題,人類(lèi)駕駛員通過(guò)相互耦合不斷地做出決策。因此,考慮基于優(yōu)化的狀態(tài)反饋策略,駕駛員之間的交互可以形成閉環(huán)動(dòng)態(tài)博弈。可以將人類(lèi)駕駛員間的交互建模為動(dòng)態(tài)馬爾可夫博弈,每個(gè)智能體都能適應(yīng)其他智能體的行為,以合作或競(jìng)爭(zhēng)的方式完成任務(wù),這種情況就形成了多智能體強(qiáng)化學(xué)習(xí)(MARL)。模仿人類(lèi)駕駛員交互的博弈論方法通常用于設(shè)計(jì)多自動(dòng)駕駛汽車(chē)間或自動(dòng)駕駛汽車(chē)與人駕駛汽車(chē)之間的交互策略。一些研究者僅用博弈論來(lái)建模交互過(guò)程中的離散決策過(guò)程,另外,一些研究人員將博弈論方法與其他學(xué)習(xí)方法(如強(qiáng)化學(xué)習(xí),逆強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí))、控制理論和線(xiàn)性二次高斯控制結(jié)合,以模擬由決策和控制組成的整個(gè)交互過(guò)程。

(1)博弈論智能體間如何影響

目前,研究者大多選擇動(dòng)態(tài)博弈將交互行為轉(zhuǎn)化為迭代優(yōu)化問(wèn)題。在博弈問(wèn)題中,人類(lèi)駕駛員角色的分配會(huì)影響模型性能。因此,動(dòng)態(tài)博弈中第一個(gè)問(wèn)題就是 ‘How should the ego vehicle consider the effects and roles of other human drivers in one single stage of sequential games?’ 通常有3種:視他車(chē)為障礙物、視他車(chē)為理智的跟隨者、相互影響的執(zhí)行者。

  • 視他車(chē)為障礙物

大多數(shù)早期研究都遵循一個(gè)流程:首先,預(yù)測(cè)其他人類(lèi)駕駛員的行駛軌跡,將其視為不變的運(yùn)動(dòng)障礙物,再將預(yù)測(cè)結(jié)果反饋給本車(chē)的規(guī)劃模塊。圖7解釋了本車(chē)和其他智能體之間的關(guān)系,值得一提的是,在自動(dòng)駕駛汽車(chē)與人類(lèi)駕駛汽車(chē)間的交互中,這種假設(shè)通常是有效的,因?yàn)橄啾扔谧詣?dòng)駕駛汽車(chē),人類(lèi)可能擁有更少的信息和更長(zhǎng)的反應(yīng)時(shí)間。因此,與機(jī)器人的規(guī)劃和控制頻率相比,人類(lèi)的行為不會(huì)突然改變,因此可以視為障礙。然而,對(duì)于同類(lèi)智能體間的交互,這種方法可能會(huì)導(dǎo)致過(guò)于保守的行為,甚至在某些情況(如僵局情形)下會(huì)導(dǎo)致不安全的行為。這種交互方案本質(zhì)上是一種單向互動(dòng),只有本車(chē)受到其他車(chē)輛的影響。

  • 理性的跟隨者

為了解決保守行為和僵局的情況,研究人員將其他人類(lèi)駕駛員視為理性的效用驅(qū)使智能體,他們會(huì)積極規(guī)劃自己的軌跡,以響應(yīng)(而不是影響)本車(chē)在序列博弈單階段中的內(nèi)部規(guī)劃,如圖7(b)所示。本車(chē)可以選擇一個(gè)禮貌的行為,從而引起其他人類(lèi)駕駛員的最佳行為/反應(yīng),這就是典型的Stackelberg game,因此,領(lǐng)導(dǎo)者對(duì)跟隨者的行為有間接的控制。Stackelberg game假設(shè)其他人類(lèi)駕駛員是理性的,通過(guò)考慮本車(chē)的規(guī)劃不變,采取其最佳動(dòng)作;本車(chē)知道其他人類(lèi)駕駛員的代價(jià)函數(shù)。在該架構(gòu)下,本車(chē)將其他人類(lèi)駕駛員視為被動(dòng)的追隨者,而不是主動(dòng)的追隨者。Stackelberg game被構(gòu)建為一個(gè)雙層優(yōu)化問(wèn)題,其有3種求解方法:將其重新表述為局部單層優(yōu)化問(wèn)題;近似跟隨者的最優(yōu)解;為每個(gè)優(yōu)化器的唯一性設(shè)置假設(shè),該方法的缺點(diǎn)為忽略了車(chē)間動(dòng)態(tài)相互影響,本車(chē)需要知道其他人類(lèi)駕駛員的內(nèi)部函數(shù),并且人類(lèi)駕駛員只是計(jì)算最佳的反應(yīng)而非試圖影響本車(chē);在實(shí)際中,沒(méi)有統(tǒng)一的方法確定leader和follower的角色。

  • 相互影響的執(zhí)行者

在每個(gè)時(shí)間步長(zhǎng)上,智能體間的交互都是彼此相互依賴(lài)的,如圖7(c)所示。這種動(dòng)態(tài)相互依賴(lài)性可通過(guò)由strategic和tactical規(guī)劃器組成的分層博弈架構(gòu)實(shí)現(xiàn),strategic planner被建模為閉環(huán)的動(dòng)態(tài)博弈,tactical planner被建模為開(kāi)環(huán)的軌跡優(yōu)化器。此外,還可以使用同時(shí)博弈來(lái)捕捉動(dòng)態(tài)交互依賴(lài)性,該博弈中所有車(chē)輛遵循同樣的推理策略,但每個(gè)車(chē)在選擇動(dòng)作時(shí)不知道其他智能體選擇的動(dòng)作。

博弈論框架為人類(lèi)駕駛員之間的動(dòng)態(tài)交互提供了一個(gè)可解釋的顯式解決方案。然而,盡管在簡(jiǎn)化系統(tǒng)動(dòng)力學(xué)和信息結(jié)構(gòu)方面做了很多努力,但仍難以滿(mǎn)足連續(xù)狀態(tài)空間和動(dòng)作空間上的計(jì)算可處理性、實(shí)時(shí)性難保證。大部分基于博弈論的模型都受限于智能體數(shù)目,所以被限制在雙智能體的模擬實(shí)驗(yàn)或兩兩處理多智能體場(chǎng)景。為了解決這個(gè)問(wèn)題,Liu等人提出了兩個(gè)實(shí)用、可靠、魯棒的框架,利用帶兩種求解算法的潛在博弈實(shí)現(xiàn)自動(dòng)駕駛汽車(chē)實(shí)時(shí)決策。

圖片

單階段博弈中兩智能體間的三種關(guān)系:將其他智能體視為(a) 障礙物, (b) 理性跟隨者, (c) 相互影響的執(zhí)行者

(2)考慮社會(huì)因素的博弈

社會(huì)價(jià)值反映了個(gè)體在交互過(guò)程中的經(jīng)驗(yàn),它可嵌入到智能體的效用函數(shù)中。每個(gè)駕駛員通過(guò)評(píng)估每個(gè)動(dòng)作組合來(lái)獲得獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)通常是自身獎(jiǎng)勵(lì)與其他智能體獎(jiǎng)勵(lì)的權(quán)重組合,即

圖片

其中,

圖片

表示駕駛員的社會(huì)偏好,社會(huì)偏好的平衡可以通過(guò)調(diào)整指標(biāo)

圖片

圖片

來(lái)反映。如圖8展示了評(píng)估人類(lèi)駕駛員社會(huì)偏好的方法:線(xiàn)性加和為1、社會(huì)價(jià)值的環(huán)形測(cè)量、CMetric

  • 線(xiàn)性加和為1

圖片

,如果

圖片

接近1,會(huì)導(dǎo)致本車(chē)的自私行為。該結(jié)構(gòu)已被應(yīng)用于自動(dòng)駕駛汽車(chē)在匯入行為等交互場(chǎng)景下的社會(huì)決策設(shè)計(jì)中。

  • 社會(huì)價(jià)值的環(huán)形測(cè)量

用環(huán)形測(cè)量將社會(huì)價(jià)值投射在二維空間上,這種方法是衡量個(gè)人人際效用最可靠的模型之一。基于這一定義,Schwarting等人通過(guò)使用SVO角度偏好來(lái)評(píng)估社會(huì)價(jià)值,角度偏好與社會(huì)價(jià)值關(guān)系為

圖片

其中,

圖片

表示本車(chē)的社會(huì)價(jià)值取向。然而,這些模型無(wú)法實(shí)時(shí)估計(jì)人類(lèi)的社交偏好,而是為每個(gè)智能體選擇并學(xué)習(xí)一個(gè)固定的參數(shù)。

  • CMetric

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25