自動(dòng)駕駛車(chē)輛的社會(huì)交互：回顧與展望

2022-10-28 23:25:17· 來(lái)源：智能運(yùn)載裝備研究所作者：王文碩劉暢流等

(2)概率生成模型

社會(huì)交互情景描述的是一種條件，個(gè)體駕駛員的行為由其自身特征和由其他駕駛員的行為組成的環(huán)境決定，反之亦然。從條件概率的角度來(lái)看，人類(lèi)駕駛員間的交互影響可以解釋為一個(gè)駕駛員在感知到周?chē)渌?chē)輛的狀態(tài)后采取某個(gè)動(dòng)作的可能性有多大。這個(gè)問(wèn)題可以用條件概率分布或條件行為預(yù)測(cè)來(lái)表示，此概念是貝葉斯網(wǎng)絡(luò)的基礎(chǔ)。此外，Tolstaya等人用一種耳目一新的交互來(lái)量化智能體間的交互性，在這種交互中，智能體B由于觀測(cè)到智能體A的軌跡發(fā)生行為變化，計(jì)算公式為

變化較大代表智能體B很大程度上受到智能體A動(dòng)作的影響。如果在A的軌跡下，B的軌跡更可能發(fā)生，則

；如果不可能發(fā)生，則

；如果不變，

；這一思想使得在信息理論中常用的相似性度量方法(如KL-divergence)變得容易應(yīng)用。

另一方面，可將交互視為潛在的概率生成過(guò)程或條件概率模型。如Anderson et al.提出一個(gè)概率圖模型，以捕捉前車(chē)未來(lái)狀態(tài)和動(dòng)態(tài)系統(tǒng)歷史狀態(tài)間的交互。但是該方法無(wú)法考慮匯入車(chē)輛對(duì)前后車(chē)交互的影響。González提出一個(gè)感知交互的概率駕駛員模型，以捕捉駕駛員的交互偏好，人類(lèi)駕駛員基于對(duì)周?chē){駛員行為的預(yù)測(cè)，將在當(dāng)前時(shí)間步內(nèi)執(zhí)行動(dòng)作。在逆優(yōu)化框架下，通過(guò)加權(quán)特征(如導(dǎo)航和風(fēng)險(xiǎn)特征)的組合來(lái)表征交互偏好。

(3) 勢(shì)/風(fēng)險(xiǎn)場(chǎng)

基于人類(lèi)駕駛行為源自于基于風(fēng)險(xiǎn)場(chǎng)的假設(shè)，提出了勢(shì)/風(fēng)險(xiǎn)場(chǎng)。采用勢(shì)函數(shù)建立交互模型已經(jīng)廣泛的應(yīng)用于人機(jī)交互、多車(chē)間的交互。與物理距離有關(guān)的指標(biāo)能有效地用某個(gè)可學(xué)習(xí)、可解釋的函數(shù)表征交互。該函數(shù)被稱(chēng)為勢(shì)函數(shù)，其中還可以加入交通規(guī)則和駕駛場(chǎng)景信息。另外，勢(shì)函數(shù)對(duì)坐標(biāo)系x/y的導(dǎo)數(shù)即為虛擬力，推、拉車(chē)輛以實(shí)現(xiàn)交互過(guò)程中局部規(guī)劃成本最小化。還有研究者基于本車(chē)與周?chē)?chē)輛的相對(duì)距離（通常是兩車(chē)軌跡的最小值或最近點(diǎn)）設(shè)計(jì)能量函數(shù)以捕捉車(chē)間交互?；谙鄬?duì)距離的量化方法無(wú)法保證始終正確捕捉人類(lèi)駕駛員間的交互。當(dāng)智能體間存在物理約束（高速隔離帶）時(shí)，即使人類(lèi)駕駛員距離很近，但其交互很少或甚至沒(méi)有交互。

(4)認(rèn)知模型

研究人員基于心理理論、信息累計(jì)度量理論，使用相對(duì)距離表征駕駛風(fēng)格和解釋交互過(guò)程。研究者還從行為科學(xué)和心理學(xué)的角度出發(fā)，開(kāi)發(fā)出其他類(lèi)型的交互模型以模仿人類(lèi)駕駛行為。

3. 建模社會(huì)交互中的影響因素

人類(lèi)可以通過(guò)利用交通場(chǎng)景中的顯式傳感器信息和對(duì)其他駕駛員行為的隱式社會(huì)推理來(lái)做出安全和社會(huì)可接受的動(dòng)作，從而非常出色地駕駛。將社會(huì)偏好、社會(huì)模仿和社會(huì)推理等因素賦予信息吸收能力和行為預(yù)期能力是人類(lèi)的天性，這是社會(huì)兼容駕駛行為的核心。對(duì)這些社會(huì)因素的定量評(píng)估需要計(jì)算認(rèn)知科學(xué)和技術(shù)。

(1)駕駛偏好中的社會(huì)價(jià)值取向SVO

SVO模型衡量一個(gè)駕駛員如何權(quán)衡自己的獎(jiǎng)勵(lì)與其他駕駛員的獎(jiǎng)勵(lì)，在逆強(qiáng)化學(xué)習(xí)(IRL)的結(jié)構(gòu)下，它可以從觀察到的軌跡中學(xué)習(xí)，再將可在線(xiàn)學(xué)習(xí)駕駛風(fēng)格的SVO模型整合到博弈場(chǎng)景中。

(2) 社會(huì)駕駛模仿中的社會(huì)凝聚力

人類(lèi)駕駛車(chē)輛的行為具有社會(huì)凝聚力，即駕駛員會(huì)采取與周?chē){駛員相似的動(dòng)作。受人類(lèi)駕駛員的社會(huì)凝聚力的啟發(fā)，Landolfi和Dragan設(shè)計(jì)了一種凝聚力增強(qiáng)獎(jiǎng)勵(lì)函數(shù)，使自動(dòng)駕駛汽車(chē)能夠通過(guò)確定跟隨其他車(chē)輛哪一方面、跟隨誰(shuí)以及何時(shí)跟隨來(lái)保證安全，從而自動(dòng)進(jìn)行社會(huì)性跟隨。

(3) 提高情景感知的社會(huì)感知

人類(lèi)可以積極地收集和提取有關(guān)環(huán)境的附加信息，從而創(chuàng)造一個(gè)相對(duì)完全的交通場(chǎng)景，從而提供足夠的信息，提高環(huán)境意識(shí)，從而進(jìn)行安全高效的動(dòng)作。例如，當(dāng)駕駛員感知到相鄰車(chē)輛的減速和停車(chē)行為時(shí)，無(wú)論他的視野是否被遮擋，他都能推斷出潛在的行人正在過(guò)馬路。人類(lèi)將其他駕駛員視為傳感器的這種社交能力已經(jīng)被制定并集成到自動(dòng)駕駛汽車(chē)中，以增強(qiáng)駕駛員的情景感知能力。Sun et al.和Afolabi et al.通過(guò)置信空間上的條件分布，形成對(duì)環(huán)境遮擋的認(rèn)知理解。

(4)駕駛風(fēng)格中的社會(huì)交互風(fēng)格

人類(lèi)駕駛員通過(guò)評(píng)估和平衡未來(lái)不同的獎(jiǎng)勵(lì)項(xiàng)來(lái)制定計(jì)劃并采取行動(dòng)。根據(jù)人類(lèi)的內(nèi)在模型、駕駛?cè)蝿?wù)和動(dòng)機(jī)，人類(lèi)可能會(huì)對(duì)不同的獎(jiǎng)勵(lì)項(xiàng)給予不同的關(guān)注。這種方式就體現(xiàn)出他們與周?chē)h(huán)境互動(dòng)的不同風(fēng)格，如激進(jìn)、保守、禮貌、自私和非理性。因此，交互風(fēng)格可以表述為在生成軌跡時(shí)不同特征的加權(quán)結(jié)果。例如，研究人員將這些由社會(huì)因素誘發(fā)的互動(dòng)風(fēng)格量化為獎(jiǎng)勵(lì)特征。然后使用逆強(qiáng)化學(xué)習(xí)(IRL)來(lái)學(xué)習(xí)這些特征的權(quán)重或從軌跡中學(xué)習(xí)目標(biāo)函數(shù)排序。

五、建模和學(xué)習(xí)交互的方法

如圖5所示，常用的量化模型有五種：基于理性效用函數(shù)的模型、基于深度神經(jīng)網(wǎng)絡(luò)的模型、基于圖的模型、社會(huì)場(chǎng)/力、計(jì)算認(rèn)知模型。本文主要介紹基于理性效用函數(shù)的模型。

日常中最常遇到的交互場(chǎng)景是在城市環(huán)境和高速公路上的跟車(chē)、匯入/出與換道。研究人員將人類(lèi)駕駛員視為已知目標(biāo)函數(shù)的最優(yōu)控制器，以實(shí)現(xiàn)以預(yù)定義目標(biāo)為導(dǎo)向的任務(wù)，從而決定在這些場(chǎng)景中的行為。然而，在自然交通場(chǎng)景中，駕駛員或其他人類(lèi)智能體間的交互受物理(如運(yùn)動(dòng)學(xué)和幾何)和社會(huì)(如意圖、注意力和責(zé)任)的約束。Luo等人開(kāi)發(fā)了一種通用的智能體交互模型(GAMMA)，通過(guò)將交互運(yùn)動(dòng)視為帶有速度障礙的約束幾何優(yōu)化問(wèn)題，來(lái)預(yù)測(cè)人類(lèi)智能體的行為。該交互模型在高保真模擬器(SUMMIT)中得以實(shí)現(xiàn)，用于模擬大規(guī)?；旌铣鞘薪煌?。此外，Lee et al.認(rèn)為人類(lèi)智能體在短期未來(lái)的交互中應(yīng)該獲得最優(yōu)的累積獎(jiǎng)勵(lì)。作者在一個(gè)優(yōu)化架構(gòu)下構(gòu)建了運(yùn)動(dòng)預(yù)測(cè)問(wèn)題，最大化一組預(yù)測(cè)假設(shè)的潛在未來(lái)獎(jiǎng)勵(lì)。通常，基于優(yōu)化的方法需要一個(gè)待優(yōu)化的特定目標(biāo)（車(chē)間期望間距和時(shí)距）和目標(biāo)函數(shù)。下面，將討論一些基于優(yōu)化某個(gè)成本函數(shù)或目標(biāo)函數(shù)思想而建立的模型，本文選擇了一些主流的方法，包括基于群的模型、博弈論模型、模仿學(xué)習(xí)和馬爾可夫決策過(guò)程。

圖5 建模和學(xué)習(xí)人類(lèi)駕駛員間交互的方法匯總

1.基于生物種群的仿生模型

應(yīng)用Reynolds規(guī)則的大多數(shù)實(shí)例是基于牛頓運(yùn)動(dòng)定律傳播的動(dòng)態(tài)模型，因此需要開(kāi)發(fā)一套反映Reynolds規(guī)則的完整分力集合，各分力（即凝聚力、分離力和一致力）與用于模擬行人交互的各部分社會(huì)力理論完全匹配。Reynolds規(guī)則揭示了交互的基本機(jī)制，比基于社會(huì)力的理論更具普遍性。盡管受群?jiǎn)l(fā)的規(guī)則成功地揭示了動(dòng)物（如鳥(niǎo)類(lèi)、魚(yú)類(lèi)和羊群）之間的群體交互機(jī)制，但它們只能在自由空間或有靜態(tài)障礙物的空間（如天空中的鳥(niǎo)類(lèi)和海洋中的魚(yú)類(lèi)）中很好地工作。在交互式交通中，這些規(guī)則可能由于交通環(huán)境的約束和智能體本身的約束而失效。

圖6 自然界中的生物群聚現(xiàn)象

2.基于博弈論的模型

人類(lèi)駕駛行為本質(zhì)上是一個(gè)博弈問(wèn)題，人類(lèi)駕駛員通過(guò)相互耦合不斷地做出決策。因此，考慮基于優(yōu)化的狀態(tài)反饋策略，駕駛員之間的交互可以形成閉環(huán)動(dòng)態(tài)博弈。可以將人類(lèi)駕駛員間的交互建模為動(dòng)態(tài)馬爾可夫博弈，每個(gè)智能體都能適應(yīng)其他智能體的行為，以合作或競(jìng)爭(zhēng)的方式完成任務(wù)，這種情況就形成了多智能體強(qiáng)化學(xué)習(xí)(MARL)。模仿人類(lèi)駕駛員交互的博弈論方法通常用于設(shè)計(jì)多自動(dòng)駕駛汽車(chē)間或自動(dòng)駕駛汽車(chē)與人駕駛汽車(chē)之間的交互策略。一些研究者僅用博弈論來(lái)建模交互過(guò)程中的離散決策過(guò)程，另外，一些研究人員將博弈論方法與其他學(xué)習(xí)方法（如強(qiáng)化學(xué)習(xí)，逆強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)）、控制理論和線(xiàn)性二次高斯控制結(jié)合，以模擬由決策和控制組成的整個(gè)交互過(guò)程。

(1)博弈論智能體間如何影響

目前，研究者大多選擇動(dòng)態(tài)博弈將交互行為轉(zhuǎn)化為迭代優(yōu)化問(wèn)題。在博弈問(wèn)題中，人類(lèi)駕駛員角色的分配會(huì)影響模型性能。因此，動(dòng)態(tài)博弈中第一個(gè)問(wèn)題就是 ‘How should the ego vehicle consider the effects and roles of other human drivers in one single stage of sequential games?’ 通常有3種：視他車(chē)為障礙物、視他車(chē)為理智的跟隨者、相互影響的執(zhí)行者。

視他車(chē)為障礙物

大多數(shù)早期研究都遵循一個(gè)流程：首先，預(yù)測(cè)其他人類(lèi)駕駛員的行駛軌跡，將其視為不變的運(yùn)動(dòng)障礙物，再將預(yù)測(cè)結(jié)果反饋給本車(chē)的規(guī)劃模塊。圖7解釋了本車(chē)和其他智能體之間的關(guān)系，值得一提的是，在自動(dòng)駕駛汽車(chē)與人類(lèi)駕駛汽車(chē)間的交互中，這種假設(shè)通常是有效的，因?yàn)橄啾扔谧詣?dòng)駕駛汽車(chē)，人類(lèi)可能擁有更少的信息和更長(zhǎng)的反應(yīng)時(shí)間。因此，與機(jī)器人的規(guī)劃和控制頻率相比，人類(lèi)的行為不會(huì)突然改變，因此可以視為障礙。然而，對(duì)于同類(lèi)智能體間的交互，這種方法可能會(huì)導(dǎo)致過(guò)于保守的行為，甚至在某些情況（如僵局情形）下會(huì)導(dǎo)致不安全的行為。這種交互方案本質(zhì)上是一種單向互動(dòng)，只有本車(chē)受到其他車(chē)輛的影響。

理性的跟隨者

為了解決保守行為和僵局的情況，研究人員將其他人類(lèi)駕駛員視為理性的效用驅(qū)使智能體，他們會(huì)積極規(guī)劃自己的軌跡，以響應(yīng)(而不是影響)本車(chē)在序列博弈單階段中的內(nèi)部規(guī)劃，如圖7(b)所示。本車(chē)可以選擇一個(gè)禮貌的行為，從而引起其他人類(lèi)駕駛員的最佳行為/反應(yīng)，這就是典型的Stackelberg game，因此，領(lǐng)導(dǎo)者對(duì)跟隨者的行為有間接的控制。Stackelberg game假設(shè)其他人類(lèi)駕駛員是理性的，通過(guò)考慮本車(chē)的規(guī)劃不變，采取其最佳動(dòng)作；本車(chē)知道其他人類(lèi)駕駛員的代價(jià)函數(shù)。在該架構(gòu)下，本車(chē)將其他人類(lèi)駕駛員視為被動(dòng)的追隨者，而不是主動(dòng)的追隨者。Stackelberg game被構(gòu)建為一個(gè)雙層優(yōu)化問(wèn)題，其有3種求解方法：將其重新表述為局部單層優(yōu)化問(wèn)題；近似跟隨者的最優(yōu)解；為每個(gè)優(yōu)化器的唯一性設(shè)置假設(shè)，該方法的缺點(diǎn)為忽略了車(chē)間動(dòng)態(tài)相互影響，本車(chē)需要知道其他人類(lèi)駕駛員的內(nèi)部函數(shù)，并且人類(lèi)駕駛員只是計(jì)算最佳的反應(yīng)而非試圖影響本車(chē)；在實(shí)際中，沒(méi)有統(tǒng)一的方法確定leader和follower的角色。

相互影響的執(zhí)行者

在每個(gè)時(shí)間步長(zhǎng)上，智能體間的交互都是彼此相互依賴(lài)的，如圖7(c)所示。這種動(dòng)態(tài)相互依賴(lài)性可通過(guò)由strategic和tactical規(guī)劃器組成的分層博弈架構(gòu)實(shí)現(xiàn)，strategic planner被建模為閉環(huán)的動(dòng)態(tài)博弈，tactical planner被建模為開(kāi)環(huán)的軌跡優(yōu)化器。此外，還可以使用同時(shí)博弈來(lái)捕捉動(dòng)態(tài)交互依賴(lài)性，該博弈中所有車(chē)輛遵循同樣的推理策略，但每個(gè)車(chē)在選擇動(dòng)作時(shí)不知道其他智能體選擇的動(dòng)作。

博弈論框架為人類(lèi)駕駛員之間的動(dòng)態(tài)交互提供了一個(gè)可解釋的顯式解決方案。然而，盡管在簡(jiǎn)化系統(tǒng)動(dòng)力學(xué)和信息結(jié)構(gòu)方面做了很多努力，但仍難以滿(mǎn)足連續(xù)狀態(tài)空間和動(dòng)作空間上的計(jì)算可處理性、實(shí)時(shí)性難保證。大部分基于博弈論的模型都受限于智能體數(shù)目，所以被限制在雙智能體的模擬實(shí)驗(yàn)或兩兩處理多智能體場(chǎng)景。為了解決這個(gè)問(wèn)題，Liu等人提出了兩個(gè)實(shí)用、可靠、魯棒的框架，利用帶兩種求解算法的潛在博弈實(shí)現(xiàn)自動(dòng)駕駛汽車(chē)實(shí)時(shí)決策。

圖7 單階段博弈中兩智能體間的三種關(guān)系：將其他智能體視為(a) 障礙物, (b) 理性跟隨者, (c) 相互影響的執(zhí)行者

(2)考慮社會(huì)因素的博弈

社會(huì)價(jià)值反映了個(gè)體在交互過(guò)程中的經(jīng)驗(yàn)，它可嵌入到智能體的效用函數(shù)中。每個(gè)駕駛員通過(guò)評(píng)估每個(gè)動(dòng)作組合來(lái)獲得獎(jiǎng)勵(lì)，該獎(jiǎng)勵(lì)通常是自身獎(jiǎng)勵(lì)與其他智能體獎(jiǎng)勵(lì)的權(quán)重組合，即

其中，

表示駕駛員的社會(huì)偏好，社會(huì)偏好的平衡可以通過(guò)調(diào)整指標(biāo)

和

來(lái)反映。如圖8展示了評(píng)估人類(lèi)駕駛員社會(huì)偏好的方法：線(xiàn)性加和為1、社會(huì)價(jià)值的環(huán)形測(cè)量、CMetric。

線(xiàn)性加和為1

，如果

接近1，會(huì)導(dǎo)致本車(chē)的自私行為。該結(jié)構(gòu)已被應(yīng)用于自動(dòng)駕駛汽車(chē)在匯入行為等交互場(chǎng)景下的社會(huì)決策設(shè)計(jì)中。

社會(huì)價(jià)值的環(huán)形測(cè)量

用環(huán)形測(cè)量將社會(huì)價(jià)值投射在二維空間上，這種方法是衡量個(gè)人人際效用最可靠的模型之一。基于這一定義，Schwarting等人通過(guò)使用SVO角度偏好來(lái)評(píng)估社會(huì)價(jià)值，角度偏好與社會(huì)價(jià)值關(guān)系為

其中，

表示本車(chē)的社會(huì)價(jià)值取向。然而，這些模型無(wú)法實(shí)時(shí)估計(jì)人類(lèi)的社交偏好，而是為每個(gè)智能體選擇并學(xué)習(xí)一個(gè)固定的參數(shù)。

CMetric

第2頁(yè)/共3頁(yè) 首頁(yè) 下一頁(yè) 上一頁(yè) 尾頁(yè)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：基于多項(xiàng)式的智能車(chē)輛換道軌跡規(guī)劃
上一篇：磷酸鐵鋰軟包與鋁殼電池性能比較

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車(chē)輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車(chē)→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車(chē)輛避撞專(zhuān)利公布	• 全球首個(gè)！電動(dòng)汽車(chē)電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

自動(dòng)駕駛車(chē)輛的社會(huì)交互：回顧與展望

微信公眾號(hào)

編輯推薦

最新資訊

“汽車(chē)爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車(chē)備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車(chē)前照燈配光性能的工