日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

一種考慮通信時(shí)延的協(xié)同感知系統(tǒng)

2023-08-30 19:46:04·  來(lái)源:同濟(jì)智能汽車研究所  
 

編者按:隨著智能網(wǎng)聯(lián)汽車的快速發(fā)展,單車智能的局限性日益突出,基于協(xié)同的自動(dòng)駕駛成為未來(lái)發(fā)展方向。多智能體協(xié)同感知系統(tǒng)基于多智能體不同視角的觀測(cè)數(shù)據(jù)對(duì)同一場(chǎng)景執(zhí)行感知,從根本上突破了單一智能體感知的物理限制如超視距、遮擋。基于智能體共享數(shù)據(jù)類型與融合策略,協(xié)同感知可劃分為三類:原始數(shù)據(jù)級(jí)融合、中間特征級(jí)融合與感知目標(biāo)級(jí)融合??紤]感知數(shù)據(jù)通信傳輸損耗與感知性能之間的平衡,并得益于近年來(lái)深度學(xué)習(xí)的快速發(fā)展,中間特征級(jí)融合是目前協(xié)同感知領(lǐng)域的主要研究方向。協(xié)同感知系統(tǒng)的一大關(guān)鍵是通信系統(tǒng),然而目前大部分協(xié)同感知方法均假設(shè)一個(gè)理想的通信條件,比如不考慮數(shù)據(jù)傳輸時(shí)延、不考慮通信損耗,這使得許多特征級(jí)協(xié)同感知方法只能停留在數(shù)據(jù)集仿真上。本文則考慮協(xié)同感知系統(tǒng)在實(shí)際應(yīng)用中面臨的帶缺陷通信問(wèn)題,首次提出考慮傳輸時(shí)延的特征級(jí)協(xié)同感知系統(tǒng)。通過(guò)利用深度學(xué)習(xí)方法,主動(dòng)地將周圍智能體的時(shí)延異步感知特征與自車當(dāng)前時(shí)刻的特征進(jìn)行同步,以提高協(xié)同感知系統(tǒng)在通信延遲下的魯棒性和有效性。

本文譯自:

《Latency-Aware Collaborative Perception》

文章來(lái)源:

European Conference on Computer Vision (ECCV), 2022

作者:

Zixing Lei, Shunli Ren, Yue Hu, Wenjun Zhang, Siheng Chen

原文鏈接:

https://arxiv.org/pdf/2207.08560.pdf

代碼鏈接

https://github.com/MediaBrain-SJTU/SyncNet


摘要:相比于單智能體感知,最近多智能體協(xié)同感知在提升感知性能方面顯示出巨大潛力?,F(xiàn)有協(xié)同感知方法通常考慮理想的通信環(huán)境。然而,在實(shí)際應(yīng)用中,通信系統(tǒng)不可避免地會(huì)產(chǎn)生傳輸時(shí)延問(wèn)題,導(dǎo)致潛在的性能下降,并給自動(dòng)駕駛等安全關(guān)鍵型應(yīng)用帶來(lái)高風(fēng)險(xiǎn)。為了減輕不可避免的通信時(shí)延所造成的影響,我們從機(jī)器學(xué)習(xí)的角度出發(fā),提出了第一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng),它能主動(dòng)將多個(gè)智能體的異步感知特征同步于同一時(shí)間戳上,從而提高協(xié)同的魯棒性和有效性。為了實(shí)現(xiàn)這種特征級(jí)同步,我們提出了一種名為 SyncNet 的新型時(shí)延補(bǔ)償模塊,該模塊主要應(yīng)用了特征-注意力共生估計(jì)和時(shí)間調(diào)制技術(shù)。實(shí)驗(yàn)結(jié)果表明,在考慮通信時(shí)延設(shè)置下,采用 SyncNet 的帶時(shí)延意識(shí)的協(xié)同感知方法比最先進(jìn)的協(xié)同感知方法高出 15.6%,并在嚴(yán)重時(shí)延情況下保持協(xié)同感知優(yōu)于單智能體感知。

關(guān)鍵詞:協(xié)同感知,車車通訊,自動(dòng)駕駛,深度學(xué)習(xí)


1 引言 


協(xié)同感知系統(tǒng)考慮基于多智能體感知同一場(chǎng)景,多個(gè)智能體通過(guò)通信網(wǎng)絡(luò)執(zhí)行協(xié)同[4,6,8,15,17,27,34,35,37,40]?;诙鄠€(gè)智能體的觀測(cè),協(xié)同感知可以從根本上克服單智能體感知的物理限制,如超視距和遮擋。這種協(xié)同感知系統(tǒng)可廣泛應(yīng)用于自動(dòng)駕駛和機(jī)器人測(cè)繪等實(shí)際應(yīng)用中。以往的協(xié)同感知方法[15,7,27] 已在多種感知任務(wù)中取得了顯著的成功,包括2D/3D目標(biāo)檢測(cè)[21,22,36]和語(yǔ)義分割[5,20,33,41]。其中[16,17]側(cè)重于無(wú)人機(jī)的語(yǔ)義分割,[15,27]則討論了基于車車通信輔助的自動(dòng)駕駛的3D目標(biāo)檢測(cè)??紤]到通信帶寬與感知性能之間的權(quán)衡,以往許多工作在中間特征級(jí)實(shí)現(xiàn)協(xié)同,并利用注意力機(jī)制來(lái)融合協(xié)同特征。

圖片

圖1 協(xié)同3D目標(biāo)檢測(cè)。紅色:檢測(cè)值,綠色:真值。當(dāng)存在傳輸時(shí)延時(shí),無(wú)時(shí)延考慮的協(xié)同感知模型可能比單智能體感知模型效果更差。

然而,這些先前的協(xié)同感知方法都沒(méi)有考慮現(xiàn)實(shí)通信環(huán)境中不可避免的時(shí)延問(wèn)題。如文獻(xiàn)[13]所述,在實(shí)時(shí)LTE-V2X通信系統(tǒng)中,通信延遲時(shí)間平均可達(dá)131.30 ms(498個(gè)通信周期)。此外,不同通信通道的不同延遲時(shí)間會(huì)導(dǎo)致嚴(yán)重的時(shí)間異步問(wèn)題。實(shí)驗(yàn)表明,時(shí)延問(wèn)題嚴(yán)重?fù)p害了協(xié)同感知系統(tǒng),導(dǎo)致其性能甚至比單智能體感知更差。從圖1中我們可以看到:1)(a)中紫色框內(nèi)經(jīng)協(xié)同感知檢測(cè)到的車輛在(b)中缺失;2) (c)中藍(lán)框內(nèi)由單智能體感知正確檢測(cè)到的車輛在(b)中沒(méi)有被正確檢測(cè)。原因是自車接收到的他車具有時(shí)延的協(xié)同數(shù)據(jù)代表了1s前的情況,它會(huì)誤導(dǎo)檢測(cè)器輸出具有顯著偏差的邊界框。這促使我們考慮設(shè)計(jì)一種對(duì)不可避免的通信延遲具有魯棒性的協(xié)同感知系統(tǒng)。

為了解決時(shí)延問(wèn)題,我們從機(jī)器學(xué)習(xí)的角度提出了第一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng),該系統(tǒng)主動(dòng)地將多個(gè)智能體的異步感知特征同步于同一時(shí)間戳,提高了協(xié)同感知的魯棒性和有效性。如圖2所示,我們的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)沿用一個(gè)先進(jìn)的中間特征級(jí)協(xié)同感知框架[15],并由五個(gè)部分組成:1)編碼模塊:從原始數(shù)據(jù)中提取感知特征;2)通信模塊:在變化的通信時(shí)延條件下傳輸智能體之間的感知特征;3)時(shí)延補(bǔ)償模塊:將傳輸至自主智能體下周圍多個(gè)智能體的時(shí)延特征同步于當(dāng)前時(shí)間戳;4)融合模塊:聚合所有經(jīng)同步后的各智能體特征并生成融合特征;5)解碼模塊:利用融合特征得到最終感知輸出。我們的協(xié)同感知系統(tǒng)的主要優(yōu)點(diǎn)是,它能夠在聚合協(xié)同特征之前同步各智能體特征,而不是直接融合接收到的異步特征,以減輕通信時(shí)延造成的影響。

我們所提系統(tǒng)的關(guān)鍵是時(shí)延補(bǔ)償模塊,該模塊旨在對(duì)周圍智能體所傳輸?shù)臅r(shí)滯特征執(zhí)行特征級(jí)補(bǔ)償,進(jìn)而與自主智能體當(dāng)前時(shí)刻特征同步。為了實(shí)現(xiàn)這一點(diǎn),我們提出了一個(gè)新穎的同步補(bǔ)償網(wǎng)絡(luò)SyncNet,它利用周圍智能體歷史協(xié)同信息來(lái)同時(shí)估計(jì)當(dāng)前協(xié)同特征及對(duì)應(yīng)的協(xié)同注意力權(quán)重,這兩者由于通信時(shí)延在當(dāng)前時(shí)刻都是而未知的。協(xié)同過(guò)程中成對(duì)智能體之間的注意力權(quán)重與協(xié)同特征圖具有相同的空間分辨率,表示所接收協(xié)同特征中各空間區(qū)域的信息水平。因此,它為協(xié)同伙伴提供了關(guān)于如何利用協(xié)同特征的信息提示。直觀地說(shuō),協(xié)同特征和相應(yīng)的協(xié)同注意力權(quán)重是耦合在一起的?;诖嗽O(shè)計(jì)原理,本文提出的SyncNet采用特征-注意力共生估計(jì)結(jié)構(gòu),同時(shí)推斷出當(dāng)前時(shí)刻其他智能體由于時(shí)延而未知的協(xié)同特征和協(xié)同注意力權(quán)重,二者相互增強(qiáng)并避免了級(jí)聯(lián)誤差。

圖片

圖2 本文提出的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)框架:關(guān)鍵模塊是時(shí)延補(bǔ)償模塊。為了實(shí)現(xiàn)這一點(diǎn),我們提出了SyncNet,它利用歷史協(xié)同信息來(lái)同步由通信時(shí)延引起的多個(gè)智能體的異步信息。

與常用的時(shí)間序列預(yù)測(cè)方法相比,本文提出的SyncNet有兩個(gè)主要區(qū)別:1)執(zhí)行特征級(jí)估計(jì)而不是輸出級(jí)預(yù)測(cè);2)耦合式估計(jì)協(xié)同特征和協(xié)同注意力權(quán)重,而不是預(yù)測(cè)單個(gè)輸出。

我們?cè)赩2X-Sim數(shù)據(jù)集[14]上廣泛評(píng)估了基于SyncNet的新型協(xié)同感知模型,用于自動(dòng)駕駛的協(xié)同3D目標(biāo)檢測(cè)。結(jié)果驗(yàn)證了我們的系統(tǒng)的魯棒性,并比最先進(jìn)的方法有了實(shí)質(zhì)性的改進(jìn)。通過(guò)使用SyncNet,我們的協(xié)同感知系統(tǒng)在不同的通信延遲下始終顯著地優(yōu)于單智能體感知。

綜上所述,我們的貢獻(xiàn)如下:

1.本文首次提出了協(xié)同感知中的通信時(shí)延挑戰(zhàn),提出了一種新的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng),該系統(tǒng)通過(guò)減輕不可避免的通信延遲影響來(lái)促進(jìn)多智能體協(xié)同的魯棒感知。

2.我們提出了一種新的時(shí)延補(bǔ)償模塊,稱為SyncNet,以實(shí)現(xiàn)特征級(jí)同步。該模塊實(shí)現(xiàn)了中間特征和協(xié)同注意力兩類關(guān)鍵協(xié)同信息的共生估計(jì)、相互促進(jìn)。

3.我們進(jìn)行了廣泛的實(shí)驗(yàn),并驗(yàn)證了我們所提SyncNet在時(shí)延場(chǎng)景下比以前的方法取得了巨大的性能提升,在嚴(yán)重時(shí)延條件下我們依然保持了協(xié)同感知優(yōu)于單智能體感知。


2 相關(guān)工作


2.1 V2V 通信: V2V通信主要有兩大協(xié)議:IEEE 802.11p協(xié)議和蜂窩網(wǎng)絡(luò)標(biāo)準(zhǔn)[18]。在IEEE 802.11p協(xié)議中,有一個(gè)無(wú)線車載環(huán)境接入模式(Wireless Access in Vehicular Environment,簡(jiǎn)稱WAVE),允許用戶跳過(guò)基本服務(wù)集(Basic Service Set,簡(jiǎn)稱BSS),從而減少了連接建立的開銷[11]。在蜂窩網(wǎng)絡(luò)中,長(zhǎng)期演進(jìn)(Long Term Evolution,簡(jiǎn)稱LTE)標(biāo)準(zhǔn)衍生出LTE-V2X[1]。雖然V2V網(wǎng)絡(luò)取得了進(jìn)展,但仍然面臨通信延遲問(wèn)題,這對(duì)協(xié)同感知來(lái)說(shuō)風(fēng)險(xiǎn)極大,通信時(shí)延時(shí)間平均高達(dá) 131.30 ms(498個(gè)通信周期))[13]。我們旨在從機(jī)器學(xué)習(xí)的角度減輕不可避免的通信延遲所帶來(lái)的影響,而不是從通信的角度避免延遲,從而設(shè)計(jì)一種新的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)。

2.2 協(xié)同感知:協(xié)同感知使智能體能夠通過(guò)通信網(wǎng)絡(luò)共享感知到的信息,從根本上提升了單智能體感知能力。[16,17]使用握手(handshake)機(jī)制來(lái)確定哪兩個(gè)智能體應(yīng)該通信。[27]引入了一種多輪消息傳遞的圖神經(jīng)網(wǎng)絡(luò)。[15]則提出了一種基于圖的協(xié)同感知系統(tǒng),通過(guò)知識(shí)蒸餾來(lái)平衡通信傳輸損耗和感知性能。以往的研究大多集中在理想情境下的協(xié)同策略學(xué)習(xí)。最近,人們開始考慮更現(xiàn)實(shí)的情況。[25]利用位姿誤差回歸模塊來(lái)校正接收到的噪聲位姿誤差。然而,以往的研究都沒(méi)有考慮到實(shí)際協(xié)同系統(tǒng)中帶缺陷的通信的影響。為了填補(bǔ)這一空白,我們考慮協(xié)同感知通信中不可避免的時(shí)延問(wèn)題,這對(duì)協(xié)同系統(tǒng)來(lái)說(shuō)是非常危險(xiǎn)的,并構(gòu)建了一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)來(lái)減輕通信延遲帶來(lái)的影響。

2.3 時(shí)間序列預(yù)測(cè):時(shí)間序列預(yù)測(cè)的目標(biāo)是根據(jù)歷史數(shù)據(jù)預(yù)測(cè)未來(lái)的信號(hào)。[23]在臨近降水預(yù)報(bào)(now-casting)中提出了一種conv-LSTM架構(gòu)。視頻預(yù)測(cè)作為一種具有普遍性和代表性的時(shí)間序列預(yù)測(cè)類型,一直受到人們的積極研究[19,24,28,31]。通過(guò)利用預(yù)測(cè)技術(shù),我們的工作從歷史協(xié)同信息中恢復(fù)由于時(shí)延而丟失的信息。然而,與標(biāo)準(zhǔn)預(yù)測(cè)不同,我們的目標(biāo)是最大化最終感知性能,而不是精確估計(jì)當(dāng)前狀態(tài)。


3 本文方法


為了解決時(shí)延問(wèn)題,我們?cè)?.1節(jié)中提出了一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)。3.2節(jié)介紹時(shí)延補(bǔ)償模塊SyncNet,這也是整個(gè)系統(tǒng)的關(guān)鍵。最后,3.3節(jié)介紹了網(wǎng)絡(luò)監(jiān)督訓(xùn)練的損失函數(shù)。

3.1 具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)

協(xié)同感知系統(tǒng)中多個(gè)智能體基于由通信網(wǎng)絡(luò)共享的數(shù)據(jù)來(lái)共同感知一個(gè)場(chǎng)景。由于通信延遲在現(xiàn)實(shí)通信系統(tǒng)中是不可避免的,因此我們重點(diǎn)研究考慮時(shí)延設(shè)置下的協(xié)同感知系統(tǒng)。也就是說(shuō),給定一個(gè)通信延遲不可控的非理想通信信道,我們的目標(biāo)是通過(guò)減輕時(shí)延的影響來(lái)優(yōu)化協(xié)同系統(tǒng)下智能體的感知能力。

我們考慮在一個(gè)場(chǎng)景中有個(gè)在執(zhí)行環(huán)境感知的智能體。設(shè)、和分別為第個(gè)智能體在時(shí)間戳的原始觀測(cè)、中間感知特征和最終感知輸出。表示特征從智能體傳輸?shù)街悄荏w的延遲時(shí)間。 是智能體和智能體在時(shí)刻的協(xié)同注意力權(quán)重。協(xié)同注意力權(quán)重由可學(xué)習(xí)網(wǎng)絡(luò)計(jì)算:對(duì)協(xié)同感知系統(tǒng)中所有協(xié)同特征執(zhí)行點(diǎn)素級(jí)注意力分配。需注意的是:1)延遲時(shí)間本身是時(shí)變的,為了簡(jiǎn)化符號(hào),從這里開始我們將省略它的上標(biāo)。2)本工作認(rèn)為多智能體協(xié)同發(fā)生在離散時(shí)間戳,并且也是離散的,因?yàn)槊總€(gè)智能體都有確定的觀測(cè)采樣率。實(shí)驗(yàn)結(jié)果也驗(yàn)證了在合理小的時(shí)間間隔內(nèi)對(duì)連續(xù)時(shí)間進(jìn)行離散時(shí),產(chǎn)生較少不匹配。然后,我們將提出的考慮時(shí)延的協(xié)同感知表述為:

圖片

其中為所估計(jì)的智能體在時(shí)刻同步后的特征,是智能體與智能體在時(shí)刻的協(xié)同注意力權(quán)重,是智能體在當(dāng)前時(shí)間戳對(duì)所有周圍智能體估計(jì)的同步特征執(zhí)行聚合后的特征,表示智能體的鄰域智能體集,是一超參數(shù)。

步驟(1a)考慮從原始觀測(cè)數(shù)據(jù)中提取感知特征,其中為編碼網(wǎng)絡(luò)。在步驟(1b)中,我們從其他智能體接收具有不同傳輸延遲時(shí)間的感知特征。為了補(bǔ)償時(shí)延,步驟(1c)通過(guò)利用來(lái)自各智能體的歷史特征和主體智能體感知的實(shí)時(shí)特征來(lái)估計(jì)當(dāng)前時(shí)間戳下其他智能體的協(xié)同特征和協(xié)同注意力,其中表示該估計(jì)網(wǎng)絡(luò)。這里我們假設(shè)每個(gè)智能體可以在內(nèi)存中存儲(chǔ)前幀的歷史特征。步驟(1d)則融合所有經(jīng)時(shí)延補(bǔ)償后的協(xié)同信息。最后,步驟(1e)輸出最終感知輸出,其中為解碼器網(wǎng)絡(luò)。對(duì)應(yīng)于圖2,步驟(1a)和(1b)構(gòu)成編碼模塊,步驟(1c)屬于時(shí)延補(bǔ)償模塊,步驟(1d)為時(shí)延融合模塊,步驟(1e)構(gòu)成解碼模塊。

我們提出的時(shí)延協(xié)同感知系統(tǒng)有四個(gè)優(yōu)點(diǎn):1)我們明確地將通信時(shí)延納入?yún)f(xié)同感知系統(tǒng)的設(shè)計(jì)中(見(1b)、 (1c)),這在以前的工作中從未做過(guò)。2)我們通過(guò)從歷史協(xié)同信息中估計(jì)當(dāng)前信息來(lái)減輕傳輸時(shí)延的影響(見(1 c))。對(duì)此,我們考慮特征級(jí)同步,而不是同步感知輸出,因?yàn)樗试S端到端學(xué)習(xí)框架具有更高的學(xué)習(xí)靈活性。3)在(1c)中,我們同時(shí)推理協(xié)同特征和協(xié)同注意力權(quán)重。如果我們只估計(jì)特征,我們將需要基于估計(jì)的特征來(lái)計(jì)算協(xié)同注意力,這將放大估計(jì)誤差,導(dǎo)致級(jí)聯(lián)錯(cuò)誤。4)我們采用基于注意力的估計(jì),利用(1c)中的協(xié)同注意力權(quán)重促進(jìn)對(duì)感知敏感區(qū)域的更精確的估計(jì)(見(1d))。

3.2 SyncNet :時(shí)延補(bǔ)償模塊

由于時(shí)延補(bǔ)償模塊是本文所提協(xié)同感知系統(tǒng)的關(guān)鍵,我們專門設(shè)計(jì)了估計(jì)網(wǎng)絡(luò),并提出了新穎的同步補(bǔ)償網(wǎng)絡(luò)SyncNet。它的功能是利用各周圍智能體歷史協(xié)同信息來(lái)對(duì)其所傳輸特征執(zhí)行時(shí)延補(bǔ)償。SyncNet包括兩個(gè)部分:特征-注意力共生估計(jì)模塊,其采用雙分支金字塔LSTM來(lái)同時(shí)估計(jì)實(shí)時(shí)特征和協(xié)同注意力;時(shí)間調(diào)制模塊,其利用時(shí)延時(shí)間自適應(yīng)調(diào)整協(xié)同特征的最終估計(jì)。

圖片

圖3 SyncNet結(jié)構(gòu):SyncNet包括特征-注意力共生估計(jì)(FASE)模塊和時(shí)間調(diào)制(TM)模塊。前者是共享相同輸入的雙分支金字塔LSTM(圖中P-LSTM),即特征和注意力的聚合。時(shí)間調(diào)制模塊則用于在估計(jì)的特征和接收的原始異步特征之間分配時(shí)域注意力。

特征 - 注意力共生估計(jì):特征-注意力共生估計(jì)(FASE)利用一種新的雙分支結(jié)構(gòu),由特征估計(jì)分支和注意力估計(jì)分支組成,進(jìn)而同時(shí)估計(jì)當(dāng)前時(shí)刻特征及其協(xié)同注意力權(quán)重。雙LSTM網(wǎng)絡(luò)的兩個(gè)分支共享相同的輸入,包括主體智能體感知的實(shí)時(shí)特征和其他協(xié)同智能體感知的前幀歷史特征。每個(gè)分支由一個(gè)金字塔LSTM網(wǎng)絡(luò)實(shí)現(xiàn),該LSTM對(duì)一系列歷史協(xié)作信息建模并估計(jì)當(dāng)前狀態(tài)。金字塔LSTM網(wǎng)絡(luò)專門用于捕獲空間相關(guān)的協(xié)同特征。如圖4所示,當(dāng)紅框內(nèi)的車輛相對(duì)于中心車輛右移時(shí),特征圖上的對(duì)應(yīng)區(qū)域也會(huì)發(fā)生相同的移動(dòng)。事實(shí)表明,空間信息對(duì)我們的估計(jì)任務(wù)是重要的。我們將LSTM[10]中的矩陣乘法修改為多尺度卷積結(jié)構(gòu),詳見圖5a。本文提出的金字塔LSTM與普通LSTM的主要區(qū)別在于:標(biāo)準(zhǔn)LSTM[10]沒(méi)有專門考慮提取空間特征,而[23]則僅提取單尺度空間特征。本文所提出的金字塔LSTM則是在多個(gè)尺度上捕捉局部到全局的特征。

圖片

圖片

圖4 特征域的空間相關(guān)性。上半部分圖中綠框代表真值目標(biāo)。下半部分熱力圖由特征沿特征通道求和得到。

圖片

圖5 (a)為金字塔LSTM的多分辨率空間卷積, (b)表示時(shí)間調(diào)制,最終估計(jì)特征為。

特征估計(jì)分支旨在獲取當(dāng)前協(xié)同中最具信息的特征。為了實(shí)現(xiàn)這一點(diǎn),特征估計(jì)分支應(yīng)該是具有注意力意識(shí)的。而注意力估計(jì)分支的目的是尋找當(dāng)前信息量最大的特征區(qū)域,同時(shí)還要抑制估計(jì)誤差較大的區(qū)域。為了實(shí)現(xiàn)這一點(diǎn),注意力估計(jì)分支應(yīng)該是具有特征意識(shí)的。為了允許所估計(jì)的特征和相應(yīng)的注意力能相互關(guān)注到彼此,我們循環(huán)地利用來(lái)自前一個(gè)時(shí)間戳估計(jì)的特征和協(xié)同注意力作為兩個(gè)分支下一個(gè)時(shí)間戳的輸入。

整個(gè)過(guò)程如算法1所示,是特征傳輸延遲時(shí)間,代表歷史幀,表示當(dāng)前時(shí)間戳,和分別表示在時(shí)刻自主智能體接收到其他智能體的協(xié)同注意力權(quán)重和協(xié)同感知特征,和則分別表示時(shí)刻經(jīng)時(shí)延補(bǔ)償估計(jì)的協(xié)同特征和協(xié)同注意力,是時(shí)刻金字塔LSTM 的輸入,,,和分別是金字塔LSTM在每個(gè)分支中的隱藏狀態(tài)和元胞狀態(tài)。

我們所提出的特征-注意力共生估計(jì)網(wǎng)絡(luò)具有三個(gè)特點(diǎn):1)雙分支結(jié)構(gòu)同時(shí)推斷協(xié)同特征和相應(yīng)的協(xié)同注意力,保持二者的獨(dú)立性并消除級(jí)聯(lián)錯(cuò)誤。2)該估計(jì)網(wǎng)絡(luò)將協(xié)同注意力作為輸入,從而聚焦于具有更多信息的區(qū)域,促進(jìn)更有效的估計(jì)。3)可學(xué)習(xí)的注意力估計(jì)網(wǎng)絡(luò)獲取協(xié)同特征的信息,并基于理想無(wú)時(shí)延環(huán)境下獲取的協(xié)同注意力和融合特征進(jìn)行監(jiān)督訓(xùn)練。在端到端優(yōu)化過(guò)程中,它不僅可以模擬計(jì)算出無(wú)延遲的權(quán)重分布,還可以主動(dòng)學(xué)習(xí)減少對(duì)特征中噪聲較大的空間區(qū)域的關(guān)注。

算法 1:特征-注意力共生估計(jì)

圖片

時(shí)間調(diào)制:雖然FASE實(shí)現(xiàn)了的基本功能,但我們發(fā)現(xiàn),當(dāng)時(shí)延較小時(shí),傳輸時(shí)延引起的協(xié)同感知性能下降相對(duì)于FASE導(dǎo)致的估計(jì)噪聲要小。為了解決這個(gè)問(wèn)題,我們提出了時(shí)間調(diào)制模塊,它將原始傳輸?shù)闹虚g特征(在低時(shí)延下工作良好)和基于FASE估計(jì)的特征(在高延遲下工作良好)融合在一起,結(jié)合延遲時(shí)間,產(chǎn)生更全面和可靠的估計(jì)。

設(shè),為反映各空間區(qū)域估計(jì)不確定程度的置信度矩陣。和分別為延遲時(shí)間經(jīng)擴(kuò)展得到的時(shí)延張量,二者形狀分別與和相同。時(shí)間調(diào)制模塊的工作原理如下:

圖片

圖片

圖片

圖片

其中和均為配有sigmoid激活函數(shù)的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),為所有元素均為的矩陣。步驟(2a)將FASE估計(jì)的協(xié)同特征/注意力、當(dāng)前接收的時(shí)滯特征/注意力和時(shí)延擴(kuò)展張量進(jìn)行對(duì)應(yīng)拼接,得到代表每個(gè)空間區(qū)域下所估計(jì)的協(xié)同特征與協(xié)同注意力的置信度。根據(jù)置信度矩陣,步驟(2b)分別將估計(jì)的特征/注意力和原始異步特征/注意力組合起來(lái)。我們期望當(dāng)時(shí)延較大時(shí),置信度矩陣的權(quán)重會(huì)更高,表示此時(shí)經(jīng)時(shí)延補(bǔ)償估計(jì)的特征/注意力對(duì)最終估計(jì)的貢獻(xiàn)會(huì)更大。具體過(guò)程同樣可見圖5b。

3.3 損失函數(shù)

設(shè)為智能體在時(shí)刻的最終感知輸出的真值目標(biāo)信息,為智能體在時(shí)刻融合各智能體協(xié)同特征后的真值特征,為智能體在時(shí)刻的真值協(xié)同特征,是時(shí)刻智能體到智能體的真值協(xié)同注意力權(quán)重。我們考慮最小化以下目標(biāo)以優(yōu)化整個(gè)考慮時(shí)延的協(xié)同感知系統(tǒng):

圖片

其中表示每個(gè)項(xiàng)目的權(quán)重,是最終目標(biāo)檢測(cè)損失項(xiàng),, , 分別為融合特征、中間估計(jì)特征和估計(jì)協(xié)同注意力損失項(xiàng)。第一項(xiàng)監(jiān)督目標(biāo)檢測(cè)輸出,第二項(xiàng)監(jiān)督估計(jì)的融合特征。第三和第四項(xiàng)提供了對(duì)中間特征映射和協(xié)同注意力的監(jiān)督,以促進(jìn)更快的收斂。


 4 實(shí)驗(yàn)


4.1 多智能體 3D 目標(biāo)檢測(cè)數(shù)據(jù)集

我們使用多智能體數(shù)據(jù)集V2X-Sim[14]驗(yàn)證了SyncNet在基于lidar的3D目標(biāo)檢測(cè)任務(wù)[3,9]上的效果。V2X-Sim是由SUMO[12]和CARLA[7]聯(lián)合仿真構(gòu)建的數(shù)據(jù)集。V2X-Sim訓(xùn)練集包含80個(gè)場(chǎng)景,測(cè)試集包含11個(gè)場(chǎng)景。數(shù)據(jù)集中每個(gè)樣本平均包含2.67個(gè)智能體,并具有3D點(diǎn)云輸入和3D邊界框注釋。3D點(diǎn)云由32通道、最大距離70m、旋轉(zhuǎn)頻率20Hz、記錄頻率5Hz的激光雷達(dá)生成。為了模擬時(shí)延場(chǎng)景下的協(xié)同感知,我們異步加載其他智能體感知數(shù)據(jù)。延遲時(shí)間是根據(jù)指數(shù)分布隨機(jī)生成的并最終四舍五入為整數(shù)。

4.2 實(shí)現(xiàn)細(xì)節(jié)

實(shí)驗(yàn)設(shè)置:基于自車笛卡爾坐標(biāo)系,我們對(duì)3D點(diǎn)云執(zhí)行范圍裁剪,只取位于[?32m,32m] ×[?32m,32m]×[0.5m]范圍下的點(diǎn)云。考慮對(duì)點(diǎn)云執(zhí)行體素化處理,我們?cè)O(shè)置每個(gè)體素柵格的大小為0.25m×0.25m×0.4m。對(duì)點(diǎn)云執(zhí)行范圍裁剪和體素化之后,我們得到了一個(gè)尺寸為256×256×13的鳥瞰圖。各智能體需傳輸?shù)木幋a特征的尺寸為32×32×256。兩個(gè)智能體之間的時(shí)延時(shí)間由指數(shù)分布四舍五入生成,可以是固定或隨機(jī)整數(shù)。我們使用NVIDIA RTX 3090 GPU和Pytorch訓(xùn)練我們的模型。評(píng)估指標(biāo)選用IoU閾值為0.5和0.7的平均精度(AP)。

基準(zhǔn):我們提出的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)沿用DiscoNet[15]框架,這是目前最先進(jìn)的協(xié)同感知框架之一。此外我們利用所提出的SyncNet作為時(shí)延補(bǔ)償模塊來(lái)處理各種時(shí)延設(shè)置。為了驗(yàn)證我們的協(xié)同感知系統(tǒng)Disconet + SyncNet,我們與三個(gè)基準(zhǔn)進(jìn)行比較:1)單智能體感知系統(tǒng),即無(wú)協(xié)同感知;2)無(wú)時(shí)延意識(shí)的協(xié)同感知系統(tǒng),DiscoNet[15];3)基于卡爾曼濾波[32]的具有樸素時(shí)延意識(shí)的后融合協(xié)同感知系統(tǒng),Late collaboration + Kalman Filter。需要注意的是,SyncNet也可以作為其他中間特征級(jí)協(xié)同感知框架(如V2VNet)的時(shí)延補(bǔ)償插件模塊[27]。SyncNet相當(dāng)于特征-注意力共生估計(jì)(FASE)+時(shí)間調(diào)制(TM)。與雙分支結(jié)構(gòu)的FASE相對(duì)應(yīng),一種簡(jiǎn)化的變體是簡(jiǎn)單估計(jì)(Vanilla Estimation, VE),它只采用單分支LSTM來(lái)估計(jì)協(xié)同特征。在消融研究中,我們將比較DiscoNet、Disconet + FASE、Disconet + VE和Disconet + SyncNet的性能。

訓(xùn)練策略:我們?cè)谟?xùn)練階段采用課程學(xué)習(xí)(Curriculum Learning)[2]策略。課程學(xué)習(xí)從簡(jiǎn)單的樣本開始,然后逐漸增加難度。為了處理變化的延遲時(shí)間,我們?cè)诓煌臅r(shí)延設(shè)置下訓(xùn)練模型。然而,隨著延遲時(shí)間的增加,訓(xùn)練損失急劇增加,導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定,容易受到攻擊。為了解決這個(gè)問(wèn)題,我們采用課程學(xué)習(xí)技術(shù),每10個(gè)epoch逐漸增加1個(gè)延遲時(shí)間,直到增加到第10個(gè)延遲時(shí)間。然后,我們以平均為5的指數(shù)分布隨機(jī)采樣延遲時(shí)間,以進(jìn)一步升級(jí)模型以適應(yīng)靈活的通信延遲。

4.3 定量評(píng)價(jià)

圖6比較了我們的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)、無(wú)協(xié)同感知、無(wú)時(shí)延補(bǔ)償?shù)腄iscoNet以及基于卡爾曼濾波的后融合協(xié)同感知系統(tǒng)的性能。我們可以發(fā)現(xiàn):1)DiscoNet易受傳輸時(shí)延的影響,在高時(shí)延條件下其性能甚至低于無(wú)協(xié)同感知模型。2)我們的Disconet + SyncNet對(duì)時(shí)延具有魯棒性,即使在通信延遲高達(dá)10幀的糟糕通信條件下也優(yōu)于無(wú)協(xié)同感知模型。3)我們的Disconet + SyncNet在不同的通信延遲下始終優(yōu)于DiscoNet,并將AP@0.5/0.7的性能對(duì)應(yīng)提高了15.6%和12.6%。

圖片

圖6 無(wú)協(xié)同感知、DiscoNet[15]、卡爾曼濾波的后融合協(xié)同感知、Disconet + SyncNet在1-10幀延遲下的性能比較。

圖7顯示了其他框架(包括V2VNet和基于Transformer的融合模塊)在使用和不使用SyncNet時(shí)的性能對(duì)比?;赥ransformer的融合模塊采用多頭注意力[26]來(lái)融合每個(gè)空間位置的協(xié)同特征。SyncNet模塊在AP@0.5上的性能分別提高了11.8%和8.7%。研究表明,各種協(xié)同感知模型都容易受到通信時(shí)延的影響,而我們所提出的時(shí)延補(bǔ)償模塊一致且顯著地改善了這些框架。

圖片

圖7 SyncNet在AP@0.5中集成于不同的協(xié)同感知框架的性能對(duì)比。

4.4 消融研究

我們首先在圖8中展示了時(shí)延補(bǔ)償時(shí)所考慮歷史幀數(shù)對(duì)協(xié)同感知性能的影響。我們看到,明顯優(yōu)于,但相比于僅帶來(lái)較小的增益。因此本文默認(rèn)選擇,以實(shí)現(xiàn)計(jì)算效率和性能之間的平衡。我們進(jìn)一步驗(yàn)證了我們提出的同步補(bǔ)償網(wǎng)絡(luò)(SyncNet)的兩個(gè)主要組件(FASE和TM)的有效性。簡(jiǎn)單估計(jì)(Vanilla Estimation, VE)采用單分支結(jié)構(gòu),只對(duì)協(xié)同特征進(jìn)行估計(jì)。圖9是DiscoNet、Disconet + FASE、Disconet + VE和Disconet + SyncNet隨延遲時(shí)間的變化對(duì)比圖。我們可以看到:1)對(duì)比綠線和藍(lán)線,我們的協(xié)同感知系統(tǒng)只需要一個(gè)普通的LSTM補(bǔ)償模塊就可以在時(shí)延場(chǎng)景下實(shí)現(xiàn)顯著的性能提升。2)對(duì)比紅線和藍(lán)線,F(xiàn)ASE架構(gòu)可以提高AP@0.7指標(biāo)的性能。3)對(duì)比紅線和黃線,當(dāng)時(shí)延較小時(shí),TM可以提高性能。表1進(jìn)一步討論了補(bǔ)償模塊、多尺度卷積和時(shí)間調(diào)制模塊在低時(shí)延和高時(shí)延下的效果。我們可以看到:1)D優(yōu)于A, E優(yōu)于B, F優(yōu)于C,反映FASE在AP@0.7指標(biāo)中始終有效;2)C優(yōu)于B, F優(yōu)于E,反映TM在高時(shí)延時(shí)始終有效。

圖片

圖8 歷史幀數(shù)k的消融研究。

圖片

圖9 消融研究:比較DiscoNet, Disconet + FASE,Disconet + VE + TM,Disconet + SyncNet隨時(shí)延變化的性能。FASE在AP@0.7中有明顯改進(jìn)作用,TM在小時(shí)延時(shí)具有改進(jìn)作用。

表1 AP@0.5/0.7指標(biāo)下SyncNet消融研究

圖片

4.5 定性評(píng)價(jià)

圖10為無(wú)時(shí)延設(shè)置下的DiscoNet、有時(shí)延設(shè)置的DiscoNet、有時(shí)延設(shè)置的Disconet + VE和有時(shí)延設(shè)置的Disconet + SyncNet的檢測(cè)結(jié)果。對(duì)比(a)和(b),我們可以看到(a)中紫色框中正確檢測(cè)到的車輛由于傳輸時(shí)延而在(b)中被遺漏或被錯(cuò)誤檢測(cè)到。(c)表明,簡(jiǎn)單估計(jì)VE(無(wú)FASE)部分補(bǔ)償了藍(lán)框中的延遲誤差,但在橙色框中無(wú)法實(shí)現(xiàn)準(zhǔn)確估計(jì),而我們的SyncNet可以精確地恢復(fù)兩輛車的真實(shí)位置,如圖(d)的紫色框所示。從圖(d)可以看出,SyncNet實(shí)現(xiàn)了最佳補(bǔ)償,并精確地恢復(fù)了車輛的真實(shí)位置。

圖片

圖片

圖10 FASE架構(gòu)定性地提高了通信延遲下的性能。(a)為無(wú)時(shí)延設(shè)置的DiscoNet[15]檢測(cè)結(jié)果。(b) (c) (d)顯示平均時(shí)延設(shè)置為5幀下的檢測(cè)結(jié)果。

圖片

圖片

圖11這里展示了圖10中四組模型第一行場(chǎng)景中自車對(duì)周圍某個(gè)智能體所傳輸特征的協(xié)同注意力權(quán)重。(b) (c) (d)為平均延遲5幀設(shè)置下的結(jié)果。對(duì)比(b)、(c)和(d)我們可以看到SyncNet得到了一個(gè)更接近(a)的特征(無(wú)時(shí)延設(shè)置),并且主動(dòng)降低了紅框中有噪聲位置的權(quán)重。

圖11顯示了圖10中四組模型第一行場(chǎng)景所示示例中來(lái)自周圍智能體所傳輸特征的注意力權(quán)重。我們可以看到:(b)、(c)在紅框中都有類似的大權(quán)重,這表明它們將噪聲引入到協(xié)同特征中。得益于SyncNet中的協(xié)同注意力估計(jì)分支(基于真值協(xié)同注意力權(quán)重的監(jiān)督訓(xùn)練),(d)在紅框有類似(a)的小權(quán)重,其關(guān)注真實(shí)的具有更多有效信息的區(qū)域并避免由于特征估計(jì)不準(zhǔn)確而導(dǎo)致的級(jí)聯(lián)誤差。這些定性結(jié)果驗(yàn)證了SyncNet的有效性。



   5 結(jié)論    

我們引入了一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng),并提出了一種新的時(shí)延特征補(bǔ)償模塊SyncNet,用于時(shí)域同步,適合現(xiàn)有的中間特征級(jí)協(xié)同感知方法。 SyncNet采用了一種新型的共生估計(jì)結(jié)構(gòu),該結(jié)構(gòu)聯(lián)合估計(jì)中間特征和注意力權(quán)重。SyncNet基于特征-注意力共生估計(jì)和時(shí)間調(diào)制模塊,顯著提高了較小時(shí)延范圍內(nèi)的協(xié)同感知性能。系統(tǒng)性的定量和定性實(shí)驗(yàn)表明,所提出的SyncNet可以提高通信延遲場(chǎng)景下的感知性能,有效解決協(xié)同感知中的時(shí)延問(wèn)題。


參考文獻(xiàn)


圖片

圖片

圖片

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25