一種考慮通信時(shí)延的協(xié)同感知系統(tǒng)

2023-08-30 19:46:04· 來(lái)源：同濟(jì)智能汽車研究所

編者按：隨著智能網(wǎng)聯(lián)汽車的快速發(fā)展，單車智能的局限性日益突出，基于協(xié)同的自動(dòng)駕駛成為未來(lái)發(fā)展方向。多智能體協(xié)同感知系統(tǒng)基于多智能體不同視角的觀測(cè)數(shù)據(jù)對(duì)同一場(chǎng)景執(zhí)行感知，從根本上突破了單一智能體感知的物理限制如超視距、遮擋。基于智能體共享數(shù)據(jù)類型與融合策略，協(xié)同感知可劃分為三類：原始數(shù)據(jù)級(jí)融合、中間特征級(jí)融合與感知目標(biāo)級(jí)融合?？紤]感知數(shù)據(jù)通信傳輸損耗與感知性能之間的平衡，并得益于近年來(lái)深度學(xué)習(xí)的快速發(fā)展，中間特征級(jí)融合是目前協(xié)同感知領(lǐng)域的主要研究方向。協(xié)同感知系統(tǒng)的一大關(guān)鍵是通信系統(tǒng)，然而目前大部分協(xié)同感知方法均假設(shè)一個(gè)理想的通信條件，比如不考慮數(shù)據(jù)傳輸時(shí)延、不考慮通信損耗，這使得許多特征級(jí)協(xié)同感知方法只能停留在數(shù)據(jù)集仿真上。本文則考慮協(xié)同感知系統(tǒng)在實(shí)際應(yīng)用中面臨的帶缺陷通信問(wèn)題，首次提出考慮傳輸時(shí)延的特征級(jí)協(xié)同感知系統(tǒng)。通過(guò)利用深度學(xué)習(xí)方法，主動(dòng)地將周圍智能體的時(shí)延異步感知特征與自車當(dāng)前時(shí)刻的特征進(jìn)行同步，以提高協(xié)同感知系統(tǒng)在通信延遲下的魯棒性和有效性。

本文譯自：

《Latency-Aware Collaborative Perception》

文章來(lái)源：

European Conference on Computer Vision (ECCV), 2022

作者：

Zixing Lei, Shunli Ren, Yue Hu, Wenjun Zhang, Siheng Chen

原文鏈接：

https://arxiv.org/pdf/2207.08560.pdf

代碼鏈接：

https://github.com/MediaBrain-SJTU/SyncNet

摘要：相比于單智能體感知，最近多智能體協(xié)同感知在提升感知性能方面顯示出巨大潛力?，F(xiàn)有協(xié)同感知方法通常考慮理想的通信環(huán)境。然而，在實(shí)際應(yīng)用中，通信系統(tǒng)不可避免地會(huì)產(chǎn)生傳輸時(shí)延問(wèn)題，導(dǎo)致潛在的性能下降，并給自動(dòng)駕駛等安全關(guān)鍵型應(yīng)用帶來(lái)高風(fēng)險(xiǎn)。為了減輕不可避免的通信時(shí)延所造成的影響，我們從機(jī)器學(xué)習(xí)的角度出發(fā)，提出了第一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)，它能主動(dòng)將多個(gè)智能體的異步感知特征同步于同一時(shí)間戳上，從而提高協(xié)同的魯棒性和有效性。為了實(shí)現(xiàn)這種特征級(jí)同步，我們提出了一種名為 SyncNet 的新型時(shí)延補(bǔ)償模塊，該模塊主要應(yīng)用了特征-注意力共生估計(jì)和時(shí)間調(diào)制技術(shù)。實(shí)驗(yàn)結(jié)果表明，在考慮通信時(shí)延設(shè)置下，采用 SyncNet 的帶時(shí)延意識(shí)的協(xié)同感知方法比最先進(jìn)的協(xié)同感知方法高出 15.6%，并在嚴(yán)重時(shí)延情況下保持協(xié)同感知優(yōu)于單智能體感知。

關(guān)鍵詞：協(xié)同感知，車車通訊，自動(dòng)駕駛，深度學(xué)習(xí)

1 引言

協(xié)同感知系統(tǒng)考慮基于多智能體感知同一場(chǎng)景，多個(gè)智能體通過(guò)通信網(wǎng)絡(luò)執(zhí)行協(xié)同[4，6，8，15，17，27，34，35，37，40]?；诙鄠€(gè)智能體的觀測(cè)，協(xié)同感知可以從根本上克服單智能體感知的物理限制，如超視距和遮擋。這種協(xié)同感知系統(tǒng)可廣泛應(yīng)用于自動(dòng)駕駛和機(jī)器人測(cè)繪等實(shí)際應(yīng)用中。以往的協(xié)同感知方法[15，7，27] 已在多種感知任務(wù)中取得了顯著的成功，包括2D/3D目標(biāo)檢測(cè)[21，22，36]和語(yǔ)義分割[5，20，33，41]。其中[16，17]側(cè)重于無(wú)人機(jī)的語(yǔ)義分割，[15，27]則討論了基于車車通信輔助的自動(dòng)駕駛的3D目標(biāo)檢測(cè)?？紤]到通信帶寬與感知性能之間的權(quán)衡，以往許多工作在中間特征級(jí)實(shí)現(xiàn)協(xié)同，并利用注意力機(jī)制來(lái)融合協(xié)同特征。

圖1 協(xié)同3D目標(biāo)檢測(cè)。紅色：檢測(cè)值，綠色：真值。當(dāng)存在傳輸時(shí)延時(shí)，無(wú)時(shí)延考慮的協(xié)同感知模型可能比單智能體感知模型效果更差。

然而，這些先前的協(xié)同感知方法都沒(méi)有考慮現(xiàn)實(shí)通信環(huán)境中不可避免的時(shí)延問(wèn)題。如文獻(xiàn)[13]所述，在實(shí)時(shí)LTE-V2X通信系統(tǒng)中，通信延遲時(shí)間平均可達(dá)131.30 ms（498個(gè)通信周期）。此外，不同通信通道的不同延遲時(shí)間會(huì)導(dǎo)致嚴(yán)重的時(shí)間異步問(wèn)題。實(shí)驗(yàn)表明，時(shí)延問(wèn)題嚴(yán)重?fù)p害了協(xié)同感知系統(tǒng)，導(dǎo)致其性能甚至比單智能體感知更差。從圖1中我們可以看到：1）(a)中紫色框內(nèi)經(jīng)協(xié)同感知檢測(cè)到的車輛在(b)中缺失；2） (c)中藍(lán)框內(nèi)由單智能體感知正確檢測(cè)到的車輛在(b)中沒(méi)有被正確檢測(cè)。原因是自車接收到的他車具有時(shí)延的協(xié)同數(shù)據(jù)代表了1s前的情況，它會(huì)誤導(dǎo)檢測(cè)器輸出具有顯著偏差的邊界框。這促使我們考慮設(shè)計(jì)一種對(duì)不可避免的通信延遲具有魯棒性的協(xié)同感知系統(tǒng)。

為了解決時(shí)延問(wèn)題，我們從機(jī)器學(xué)習(xí)的角度提出了第一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)，該系統(tǒng)主動(dòng)地將多個(gè)智能體的異步感知特征同步于同一時(shí)間戳，提高了協(xié)同感知的魯棒性和有效性。如圖2所示，我們的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)沿用一個(gè)先進(jìn)的中間特征級(jí)協(xié)同感知框架[15]，并由五個(gè)部分組成：1）編碼模塊：從原始數(shù)據(jù)中提取感知特征；2）通信模塊：在變化的通信時(shí)延條件下傳輸智能體之間的感知特征；3）時(shí)延補(bǔ)償模塊：將傳輸至自主智能體下周圍多個(gè)智能體的時(shí)延特征同步于當(dāng)前時(shí)間戳；4）融合模塊：聚合所有經(jīng)同步后的各智能體特征并生成融合特征；5）解碼模塊：利用融合特征得到最終感知輸出。我們的協(xié)同感知系統(tǒng)的主要優(yōu)點(diǎn)是，它能夠在聚合協(xié)同特征之前同步各智能體特征，而不是直接融合接收到的異步特征，以減輕通信時(shí)延造成的影響。

我們所提系統(tǒng)的關(guān)鍵是時(shí)延補(bǔ)償模塊，該模塊旨在對(duì)周圍智能體所傳輸?shù)臅r(shí)滯特征執(zhí)行特征級(jí)補(bǔ)償，進(jìn)而與自主智能體當(dāng)前時(shí)刻特征同步。為了實(shí)現(xiàn)這一點(diǎn)，我們提出了一個(gè)新穎的同步補(bǔ)償網(wǎng)絡(luò)SyncNet，它利用周圍智能體歷史協(xié)同信息來(lái)同時(shí)估計(jì)當(dāng)前協(xié)同特征及對(duì)應(yīng)的協(xié)同注意力權(quán)重，這兩者由于通信時(shí)延在當(dāng)前時(shí)刻都是而未知的。協(xié)同過(guò)程中成對(duì)智能體之間的注意力權(quán)重與協(xié)同特征圖具有相同的空間分辨率，表示所接收協(xié)同特征中各空間區(qū)域的信息水平。因此，它為協(xié)同伙伴提供了關(guān)于如何利用協(xié)同特征的信息提示。直觀地說(shuō)，協(xié)同特征和相應(yīng)的協(xié)同注意力權(quán)重是耦合在一起的?；诖嗽O(shè)計(jì)原理，本文提出的SyncNet采用特征-注意力共生估計(jì)結(jié)構(gòu)，同時(shí)推斷出當(dāng)前時(shí)刻其他智能體由于時(shí)延而未知的協(xié)同特征和協(xié)同注意力權(quán)重，二者相互增強(qiáng)并避免了級(jí)聯(lián)誤差。

圖2 本文提出的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)框架：關(guān)鍵模塊是時(shí)延補(bǔ)償模塊。為了實(shí)現(xiàn)這一點(diǎn)，我們提出了SyncNet，它利用歷史協(xié)同信息來(lái)同步由通信時(shí)延引起的多個(gè)智能體的異步信息。

與常用的時(shí)間序列預(yù)測(cè)方法相比，本文提出的SyncNet有兩個(gè)主要區(qū)別：1）執(zhí)行特征級(jí)估計(jì)而不是輸出級(jí)預(yù)測(cè)；2）耦合式估計(jì)協(xié)同特征和協(xié)同注意力權(quán)重，而不是預(yù)測(cè)單個(gè)輸出。

我們?cè)赩2X-Sim數(shù)據(jù)集[14]上廣泛評(píng)估了基于SyncNet的新型協(xié)同感知模型，用于自動(dòng)駕駛的協(xié)同3D目標(biāo)檢測(cè)。結(jié)果驗(yàn)證了我們的系統(tǒng)的魯棒性，并比最先進(jìn)的方法有了實(shí)質(zhì)性的改進(jìn)。通過(guò)使用SyncNet，我們的協(xié)同感知系統(tǒng)在不同的通信延遲下始終顯著地優(yōu)于單智能體感知。

綜上所述，我們的貢獻(xiàn)如下：

1.本文首次提出了協(xié)同感知中的通信時(shí)延挑戰(zhàn)，提出了一種新的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)，該系統(tǒng)通過(guò)減輕不可避免的通信延遲影響來(lái)促進(jìn)多智能體協(xié)同的魯棒感知。

2.我們提出了一種新的時(shí)延補(bǔ)償模塊，稱為SyncNet，以實(shí)現(xiàn)特征級(jí)同步。該模塊實(shí)現(xiàn)了中間特征和協(xié)同注意力兩類關(guān)鍵協(xié)同信息的共生估計(jì)、相互促進(jìn)。

3.我們進(jìn)行了廣泛的實(shí)驗(yàn)，并驗(yàn)證了我們所提SyncNet在時(shí)延場(chǎng)景下比以前的方法取得了巨大的性能提升，在嚴(yán)重時(shí)延條件下我們依然保持了協(xié)同感知優(yōu)于單智能體感知。

2 相關(guān)工作

2.1 V2V 通信： V2V通信主要有兩大協(xié)議：IEEE 802.11p協(xié)議和蜂窩網(wǎng)絡(luò)標(biāo)準(zhǔn)[18]。在IEEE 802.11p協(xié)議中，有一個(gè)無(wú)線車載環(huán)境接入模式（Wireless Access in Vehicular Environment，簡(jiǎn)稱WAVE），允許用戶跳過(guò)基本服務(wù)集（Basic Service Set，簡(jiǎn)稱BSS），從而減少了連接建立的開銷[11]。在蜂窩網(wǎng)絡(luò)中，長(zhǎng)期演進(jìn)（Long Term Evolution，簡(jiǎn)稱LTE）標(biāo)準(zhǔn)衍生出LTE-V2X[1]。雖然V2V網(wǎng)絡(luò)取得了進(jìn)展，但仍然面臨通信延遲問(wèn)題，這對(duì)協(xié)同感知來(lái)說(shuō)風(fēng)險(xiǎn)極大，通信時(shí)延時(shí)間平均高達(dá) 131.30 ms（498個(gè)通信周期)）[13]。我們旨在從機(jī)器學(xué)習(xí)的角度減輕不可避免的通信延遲所帶來(lái)的影響，而不是從通信的角度避免延遲，從而設(shè)計(jì)一種新的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)。

2.2 協(xié)同感知：協(xié)同感知使智能體能夠通過(guò)通信網(wǎng)絡(luò)共享感知到的信息，從根本上提升了單智能體感知能力。[16，17]使用握手（handshake）機(jī)制來(lái)確定哪兩個(gè)智能體應(yīng)該通信。[27]引入了一種多輪消息傳遞的圖神經(jīng)網(wǎng)絡(luò)。[15]則提出了一種基于圖的協(xié)同感知系統(tǒng)，通過(guò)知識(shí)蒸餾來(lái)平衡通信傳輸損耗和感知性能。以往的研究大多集中在理想情境下的協(xié)同策略學(xué)習(xí)。最近，人們開始考慮更現(xiàn)實(shí)的情況。[25]利用位姿誤差回歸模塊來(lái)校正接收到的噪聲位姿誤差。然而，以往的研究都沒(méi)有考慮到實(shí)際協(xié)同系統(tǒng)中帶缺陷的通信的影響。為了填補(bǔ)這一空白，我們考慮協(xié)同感知通信中不可避免的時(shí)延問(wèn)題，這對(duì)協(xié)同系統(tǒng)來(lái)說(shuō)是非常危險(xiǎn)的，并構(gòu)建了一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)來(lái)減輕通信延遲帶來(lái)的影響。

2.3 時(shí)間序列預(yù)測(cè)：時(shí)間序列預(yù)測(cè)的目標(biāo)是根據(jù)歷史數(shù)據(jù)預(yù)測(cè)未來(lái)的信號(hào)。[23]在臨近降水預(yù)報(bào)（now-casting）中提出了一種conv-LSTM架構(gòu)。視頻預(yù)測(cè)作為一種具有普遍性和代表性的時(shí)間序列預(yù)測(cè)類型，一直受到人們的積極研究[19，24，28，31]。通過(guò)利用預(yù)測(cè)技術(shù)，我們的工作從歷史協(xié)同信息中恢復(fù)由于時(shí)延而丟失的信息。然而，與標(biāo)準(zhǔn)預(yù)測(cè)不同，我們的目標(biāo)是最大化最終感知性能，而不是精確估計(jì)當(dāng)前狀態(tài)。

3 本文方法

為了解決時(shí)延問(wèn)題，我們?cè)?.1節(jié)中提出了一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)。3.2節(jié)介紹時(shí)延補(bǔ)償模塊SyncNet，這也是整個(gè)系統(tǒng)的關(guān)鍵。最后，3.3節(jié)介紹了網(wǎng)絡(luò)監(jiān)督訓(xùn)練的損失函數(shù)。

3.1 具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)

協(xié)同感知系統(tǒng)中多個(gè)智能體基于由通信網(wǎng)絡(luò)共享的數(shù)據(jù)來(lái)共同感知一個(gè)場(chǎng)景。由于通信延遲在現(xiàn)實(shí)通信系統(tǒng)中是不可避免的，因此我們重點(diǎn)研究考慮時(shí)延設(shè)置下的協(xié)同感知系統(tǒng)。也就是說(shuō)，給定一個(gè)通信延遲不可控的非理想通信信道，我們的目標(biāo)是通過(guò)減輕時(shí)延的影響來(lái)優(yōu)化協(xié)同系統(tǒng)下智能體的感知能力。

我們考慮在一個(gè)場(chǎng)景中有個(gè)在執(zhí)行環(huán)境感知的智能體。設(shè)、和分別為第個(gè)智能體在時(shí)間戳的原始觀測(cè)、中間感知特征和最終感知輸出。表示特征從智能體傳輸?shù)街悄荏w的延遲時(shí)間。是智能體和智能體在時(shí)刻的協(xié)同注意力權(quán)重。協(xié)同注意力權(quán)重由可學(xué)習(xí)網(wǎng)絡(luò)計(jì)算：對(duì)協(xié)同感知系統(tǒng)中所有協(xié)同特征執(zhí)行點(diǎn)素級(jí)注意力分配。需注意的是：1）延遲時(shí)間本身是時(shí)變的，為了簡(jiǎn)化符號(hào)，從這里開始我們將省略它的上標(biāo)。2）本工作認(rèn)為多智能體協(xié)同發(fā)生在離散時(shí)間戳，并且也是離散的，因?yàn)槊總€(gè)智能體都有確定的觀測(cè)采樣率。實(shí)驗(yàn)結(jié)果也驗(yàn)證了在合理小的時(shí)間間隔內(nèi)對(duì)連續(xù)時(shí)間進(jìn)行離散時(shí)，產(chǎn)生較少不匹配。然后，我們將提出的考慮時(shí)延的協(xié)同感知表述為:

其中為所估計(jì)的智能體在時(shí)刻同步后的特征，是智能體與智能體在時(shí)刻的協(xié)同注意力權(quán)重，是智能體在當(dāng)前時(shí)間戳對(duì)所有周圍智能體估計(jì)的同步特征執(zhí)行聚合后的特征，表示智能體的鄰域智能體集，是一超參數(shù)。

步驟(1a)考慮從原始觀測(cè)數(shù)據(jù)中提取感知特征，其中為編碼網(wǎng)絡(luò)。在步驟(1b)中，我們從其他智能體接收具有不同傳輸延遲時(shí)間的感知特征。為了補(bǔ)償時(shí)延，步驟(1c)通過(guò)利用來(lái)自各智能體的歷史特征和主體智能體感知的實(shí)時(shí)特征來(lái)估計(jì)當(dāng)前時(shí)間戳下其他智能體的協(xié)同特征和協(xié)同注意力，其中表示該估計(jì)網(wǎng)絡(luò)。這里我們假設(shè)每個(gè)智能體可以在內(nèi)存中存儲(chǔ)前幀的歷史特征。步驟(1d)則融合所有經(jīng)時(shí)延補(bǔ)償后的協(xié)同信息。最后，步驟(1e)輸出最終感知輸出，其中為解碼器網(wǎng)絡(luò)。對(duì)應(yīng)于圖2，步驟(1a)和(1b)構(gòu)成編碼模塊，步驟(1c)屬于時(shí)延補(bǔ)償模塊，步驟(1d)為時(shí)延融合模塊，步驟(1e)構(gòu)成解碼模塊。

我們提出的時(shí)延協(xié)同感知系統(tǒng)有四個(gè)優(yōu)點(diǎn)：1）我們明確地將通信時(shí)延納入?yún)f(xié)同感知系統(tǒng)的設(shè)計(jì)中（見(1b)、 (1c)），這在以前的工作中從未做過(guò)。2）我們通過(guò)從歷史協(xié)同信息中估計(jì)當(dāng)前信息來(lái)減輕傳輸時(shí)延的影響（見(1 c)）。對(duì)此，我們考慮特征級(jí)同步，而不是同步感知輸出，因?yàn)樗试S端到端學(xué)習(xí)框架具有更高的學(xué)習(xí)靈活性。3）在(1c)中，我們同時(shí)推理協(xié)同特征和協(xié)同注意力權(quán)重。如果我們只估計(jì)特征，我們將需要基于估計(jì)的特征來(lái)計(jì)算協(xié)同注意力，這將放大估計(jì)誤差，導(dǎo)致級(jí)聯(lián)錯(cuò)誤。4）我們采用基于注意力的估計(jì)，利用(1c)中的協(xié)同注意力權(quán)重促進(jìn)對(duì)感知敏感區(qū)域的更精確的估計(jì)（見(1d)）。

3.2 SyncNet ：時(shí)延補(bǔ)償模塊

由于時(shí)延補(bǔ)償模塊是本文所提協(xié)同感知系統(tǒng)的關(guān)鍵，我們專門設(shè)計(jì)了估計(jì)網(wǎng)絡(luò)，并提出了新穎的同步補(bǔ)償網(wǎng)絡(luò)SyncNet。它的功能是利用各周圍智能體歷史協(xié)同信息來(lái)對(duì)其所傳輸特征執(zhí)行時(shí)延補(bǔ)償。SyncNet包括兩個(gè)部分：特征-注意力共生估計(jì)模塊，其采用雙分支金字塔LSTM來(lái)同時(shí)估計(jì)實(shí)時(shí)特征和協(xié)同注意力；時(shí)間調(diào)制模塊，其利用時(shí)延時(shí)間自適應(yīng)調(diào)整協(xié)同特征的最終估計(jì)。

圖3 SyncNet結(jié)構(gòu)：SyncNet包括特征-注意力共生估計(jì)（FASE）模塊和時(shí)間調(diào)制（TM）模塊。前者是共享相同輸入的雙分支金字塔LSTM（圖中P-LSTM），即特征和注意力的聚合。時(shí)間調(diào)制模塊則用于在估計(jì)的特征和接收的原始異步特征之間分配時(shí)域注意力。

特征 - 注意力共生估計(jì)：特征-注意力共生估計(jì)(FASE)利用一種新的雙分支結(jié)構(gòu)，由特征估計(jì)分支和注意力估計(jì)分支組成，進(jìn)而同時(shí)估計(jì)當(dāng)前時(shí)刻特征及其協(xié)同注意力權(quán)重。雙LSTM網(wǎng)絡(luò)的兩個(gè)分支共享相同的輸入，包括主體智能體感知的實(shí)時(shí)特征和其他協(xié)同智能體感知的前幀歷史特征。每個(gè)分支由一個(gè)金字塔LSTM網(wǎng)絡(luò)實(shí)現(xiàn)，該LSTM對(duì)一系列歷史協(xié)作信息建模并估計(jì)當(dāng)前狀態(tài)。金字塔LSTM網(wǎng)絡(luò)專門用于捕獲空間相關(guān)的協(xié)同特征。如圖4所示，當(dāng)紅框內(nèi)的車輛相對(duì)于中心車輛右移時(shí)，特征圖上的對(duì)應(yīng)區(qū)域也會(huì)發(fā)生相同的移動(dòng)。事實(shí)表明，空間信息對(duì)我們的估計(jì)任務(wù)是重要的。我們將LSTM[10]中的矩陣乘法修改為多尺度卷積結(jié)構(gòu)，詳見圖5a。本文提出的金字塔LSTM與普通LSTM的主要區(qū)別在于：標(biāo)準(zhǔn)LSTM[10]沒(méi)有專門考慮提取空間特征，而[23]則僅提取單尺度空間特征。本文所提出的金字塔LSTM則是在多個(gè)尺度上捕捉局部到全局的特征。

圖4 特征域的空間相關(guān)性。上半部分圖中綠框代表真值目標(biāo)。下半部分熱力圖由特征沿特征通道求和得到。

圖5 (a)為金字塔LSTM的多分辨率空間卷積， (b)表示時(shí)間調(diào)制，最終估計(jì)特征為。

特征估計(jì)分支旨在獲取當(dāng)前協(xié)同中最具信息的特征。為了實(shí)現(xiàn)這一點(diǎn)，特征估計(jì)分支應(yīng)該是具有注意力意識(shí)的。而注意力估計(jì)分支的目的是尋找當(dāng)前信息量最大的特征區(qū)域，同時(shí)還要抑制估計(jì)誤差較大的區(qū)域。為了實(shí)現(xiàn)這一點(diǎn)，注意力估計(jì)分支應(yīng)該是具有特征意識(shí)的。為了允許所估計(jì)的特征和相應(yīng)的注意力能相互關(guān)注到彼此，我們循環(huán)地利用來(lái)自前一個(gè)時(shí)間戳估計(jì)的特征和協(xié)同注意力作為兩個(gè)分支下一個(gè)時(shí)間戳的輸入。

整個(gè)過(guò)程如算法1所示，是特征傳輸延遲時(shí)間，代表歷史幀，表示當(dāng)前時(shí)間戳，和分別表示在時(shí)刻自主智能體接收到其他智能體的協(xié)同注意力權(quán)重和協(xié)同感知特征，和則分別表示時(shí)刻經(jīng)時(shí)延補(bǔ)償估計(jì)的協(xié)同特征和協(xié)同注意力，是時(shí)刻金字塔LSTM 的輸入，,,和分別是金字塔LSTM在每個(gè)分支中的隱藏狀態(tài)和元胞狀態(tài)。

我們所提出的特征-注意力共生估計(jì)網(wǎng)絡(luò)具有三個(gè)特點(diǎn)：1）雙分支結(jié)構(gòu)同時(shí)推斷協(xié)同特征和相應(yīng)的協(xié)同注意力，保持二者的獨(dú)立性并消除級(jí)聯(lián)錯(cuò)誤。2）該估計(jì)網(wǎng)絡(luò)將協(xié)同注意力作為輸入，從而聚焦于具有更多信息的區(qū)域，促進(jìn)更有效的估計(jì)。3）可學(xué)習(xí)的注意力估計(jì)網(wǎng)絡(luò)獲取協(xié)同特征的信息，并基于理想無(wú)時(shí)延環(huán)境下獲取的協(xié)同注意力和融合特征進(jìn)行監(jiān)督訓(xùn)練。在端到端優(yōu)化過(guò)程中，它不僅可以模擬計(jì)算出無(wú)延遲的權(quán)重分布，還可以主動(dòng)學(xué)習(xí)減少對(duì)特征中噪聲較大的空間區(qū)域的關(guān)注。

算法 1：特征-注意力共生估計(jì)

時(shí)間調(diào)制：雖然FASE實(shí)現(xiàn)了的基本功能，但我們發(fā)現(xiàn)，當(dāng)時(shí)延較小時(shí)，傳輸時(shí)延引起的協(xié)同感知性能下降相對(duì)于FASE導(dǎo)致的估計(jì)噪聲要小。為了解決這個(gè)問(wèn)題，我們提出了時(shí)間調(diào)制模塊，它將原始傳輸?shù)闹虚g特征(在低時(shí)延下工作良好)和基于FASE估計(jì)的特征(在高延遲下工作良好)融合在一起，結(jié)合延遲時(shí)間，產(chǎn)生更全面和可靠的估計(jì)。

設(shè),為反映各空間區(qū)域估計(jì)不確定程度的置信度矩陣。和分別為延遲時(shí)間經(jīng)擴(kuò)展得到的時(shí)延張量，二者形狀分別與和相同。時(shí)間調(diào)制模塊的工作原理如下：

其中和均為配有sigmoid激活函數(shù)的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)，為所有元素均為的矩陣。步驟(2a)將FASE估計(jì)的協(xié)同特征/注意力、當(dāng)前接收的時(shí)滯特征/注意力和時(shí)延擴(kuò)展張量進(jìn)行對(duì)應(yīng)拼接，得到代表每個(gè)空間區(qū)域下所估計(jì)的協(xié)同特征與協(xié)同注意力的置信度。根據(jù)置信度矩陣，步驟(2b)分別將估計(jì)的特征/注意力和原始異步特征/注意力組合起來(lái)。我們期望當(dāng)時(shí)延較大時(shí)，置信度矩陣的權(quán)重會(huì)更高，表示此時(shí)經(jīng)時(shí)延補(bǔ)償估計(jì)的特征/注意力對(duì)最終估計(jì)的貢獻(xiàn)會(huì)更大。具體過(guò)程同樣可見圖5b。

3.3 損失函數(shù)

設(shè)為智能體在時(shí)刻的最終感知輸出的真值目標(biāo)信息，為智能體在時(shí)刻融合各智能體協(xié)同特征后的真值特征，為智能體在時(shí)刻的真值協(xié)同特征，是時(shí)刻智能體到智能體的真值協(xié)同注意力權(quán)重。我們考慮最小化以下目標(biāo)以優(yōu)化整個(gè)考慮時(shí)延的協(xié)同感知系統(tǒng)：

其中表示每個(gè)項(xiàng)目的權(quán)重，是最終目標(biāo)檢測(cè)損失項(xiàng)，, , 分別為融合特征、中間估計(jì)特征和估計(jì)協(xié)同注意力損失項(xiàng)。第一項(xiàng)監(jiān)督目標(biāo)檢測(cè)輸出，第二項(xiàng)監(jiān)督估計(jì)的融合特征。第三和第四項(xiàng)提供了對(duì)中間特征映射和協(xié)同注意力的監(jiān)督，以促進(jìn)更快的收斂。

4 實(shí)驗(yàn)

4.1 多智能體 3D 目標(biāo)檢測(cè)數(shù)據(jù)集

我們使用多智能體數(shù)據(jù)集V2X-Sim[14]驗(yàn)證了SyncNet在基于lidar的3D目標(biāo)檢測(cè)任務(wù)[3，9]上的效果。V2X-Sim是由SUMO[12]和CARLA[7]聯(lián)合仿真構(gòu)建的數(shù)據(jù)集。V2X-Sim訓(xùn)練集包含80個(gè)場(chǎng)景，測(cè)試集包含11個(gè)場(chǎng)景。數(shù)據(jù)集中每個(gè)樣本平均包含2.67個(gè)智能體，并具有3D點(diǎn)云輸入和3D邊界框注釋。3D點(diǎn)云由32通道、最大距離70m、旋轉(zhuǎn)頻率20Hz、記錄頻率5Hz的激光雷達(dá)生成。為了模擬時(shí)延場(chǎng)景下的協(xié)同感知，我們異步加載其他智能體感知數(shù)據(jù)。延遲時(shí)間是根據(jù)指數(shù)分布隨機(jī)生成的并最終四舍五入為整數(shù)。

4.2 實(shí)現(xiàn)細(xì)節(jié)

實(shí)驗(yàn)設(shè)置：基于自車笛卡爾坐標(biāo)系，我們對(duì)3D點(diǎn)云執(zhí)行范圍裁剪，只取位于[?32m,32m] ×[?32m,32m]×[0.5m]范圍下的點(diǎn)云。考慮對(duì)點(diǎn)云執(zhí)行體素化處理，我們?cè)O(shè)置每個(gè)體素柵格的大小為0.25m×0.25m×0.4m。對(duì)點(diǎn)云執(zhí)行范圍裁剪和體素化之后，我們得到了一個(gè)尺寸為256×256×13的鳥瞰圖。各智能體需傳輸?shù)木幋a特征的尺寸為32×32×256。兩個(gè)智能體之間的時(shí)延時(shí)間由指數(shù)分布四舍五入生成，可以是固定或隨機(jī)整數(shù)。我們使用NVIDIA RTX 3090 GPU和Pytorch訓(xùn)練我們的模型。評(píng)估指標(biāo)選用IoU閾值為0.5和0.7的平均精度(AP)。

基準(zhǔn)：我們提出的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)沿用DiscoNet[15]框架，這是目前最先進(jìn)的協(xié)同感知框架之一。此外我們利用所提出的SyncNet作為時(shí)延補(bǔ)償模塊來(lái)處理各種時(shí)延設(shè)置。為了驗(yàn)證我們的協(xié)同感知系統(tǒng)Disconet + SyncNet，我們與三個(gè)基準(zhǔn)進(jìn)行比較：1）單智能體感知系統(tǒng)，即無(wú)協(xié)同感知；2）無(wú)時(shí)延意識(shí)的協(xié)同感知系統(tǒng)，DiscoNet[15]；3）基于卡爾曼濾波[32]的具有樸素時(shí)延意識(shí)的后融合協(xié)同感知系統(tǒng)，Late collaboration + Kalman Filter。需要注意的是，SyncNet也可以作為其他中間特征級(jí)協(xié)同感知框架(如V2VNet)的時(shí)延補(bǔ)償插件模塊[27]。SyncNet相當(dāng)于特征-注意力共生估計(jì)(FASE)+時(shí)間調(diào)制(TM)。與雙分支結(jié)構(gòu)的FASE相對(duì)應(yīng)，一種簡(jiǎn)化的變體是簡(jiǎn)單估計(jì)(Vanilla Estimation, VE)，它只采用單分支LSTM來(lái)估計(jì)協(xié)同特征。在消融研究中，我們將比較DiscoNet、Disconet + FASE、Disconet + VE和Disconet + SyncNet的性能。

訓(xùn)練策略：我們?cè)谟?xùn)練階段采用課程學(xué)習(xí)（Curriculum Learning）[2]策略。課程學(xué)習(xí)從簡(jiǎn)單的樣本開始，然后逐漸增加難度。為了處理變化的延遲時(shí)間，我們?cè)诓煌臅r(shí)延設(shè)置下訓(xùn)練模型。然而，隨著延遲時(shí)間的增加，訓(xùn)練損失急劇增加，導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定，容易受到攻擊。為了解決這個(gè)問(wèn)題，我們采用課程學(xué)習(xí)技術(shù)，每10個(gè)epoch逐漸增加1個(gè)延遲時(shí)間，直到增加到第10個(gè)延遲時(shí)間。然后，我們以平均為5的指數(shù)分布隨機(jī)采樣延遲時(shí)間，以進(jìn)一步升級(jí)模型以適應(yīng)靈活的通信延遲。

4.3 定量評(píng)價(jià)

圖6比較了我們的具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)、無(wú)協(xié)同感知、無(wú)時(shí)延補(bǔ)償?shù)腄iscoNet以及基于卡爾曼濾波的后融合協(xié)同感知系統(tǒng)的性能。我們可以發(fā)現(xiàn)：1）DiscoNet易受傳輸時(shí)延的影響，在高時(shí)延條件下其性能甚至低于無(wú)協(xié)同感知模型。2）我們的Disconet + SyncNet對(duì)時(shí)延具有魯棒性，即使在通信延遲高達(dá)10幀的糟糕通信條件下也優(yōu)于無(wú)協(xié)同感知模型。3）我們的Disconet + SyncNet在不同的通信延遲下始終優(yōu)于DiscoNet，并將AP@0.5/0.7的性能對(duì)應(yīng)提高了15.6%和12.6%。

圖6 無(wú)協(xié)同感知、DiscoNet[15]、卡爾曼濾波的后融合協(xié)同感知、Disconet + SyncNet在1-10幀延遲下的性能比較。

圖7顯示了其他框架(包括V2VNet和基于Transformer的融合模塊)在使用和不使用SyncNet時(shí)的性能對(duì)比?；赥ransformer的融合模塊采用多頭注意力[26]來(lái)融合每個(gè)空間位置的協(xié)同特征。SyncNet模塊在AP@0.5上的性能分別提高了11.8%和8.7%。研究表明，各種協(xié)同感知模型都容易受到通信時(shí)延的影響，而我們所提出的時(shí)延補(bǔ)償模塊一致且顯著地改善了這些框架。

圖7 SyncNet在AP@0.5中集成于不同的協(xié)同感知框架的性能對(duì)比。

4.4 消融研究

我們首先在圖8中展示了時(shí)延補(bǔ)償時(shí)所考慮歷史幀數(shù)對(duì)協(xié)同感知性能的影響。我們看到，明顯優(yōu)于，但相比于僅帶來(lái)較小的增益。因此本文默認(rèn)選擇，以實(shí)現(xiàn)計(jì)算效率和性能之間的平衡。我們進(jìn)一步驗(yàn)證了我們提出的同步補(bǔ)償網(wǎng)絡(luò)(SyncNet)的兩個(gè)主要組件（FASE和TM）的有效性。簡(jiǎn)單估計(jì)(Vanilla Estimation, VE)采用單分支結(jié)構(gòu)，只對(duì)協(xié)同特征進(jìn)行估計(jì)。圖9是DiscoNet、Disconet + FASE、Disconet + VE和Disconet + SyncNet隨延遲時(shí)間的變化對(duì)比圖。我們可以看到：1）對(duì)比綠線和藍(lán)線，我們的協(xié)同感知系統(tǒng)只需要一個(gè)普通的LSTM補(bǔ)償模塊就可以在時(shí)延場(chǎng)景下實(shí)現(xiàn)顯著的性能提升。2）對(duì)比紅線和藍(lán)線，F(xiàn)ASE架構(gòu)可以提高AP@0.7指標(biāo)的性能。3）對(duì)比紅線和黃線，當(dāng)時(shí)延較小時(shí)，TM可以提高性能。表1進(jìn)一步討論了補(bǔ)償模塊、多尺度卷積和時(shí)間調(diào)制模塊在低時(shí)延和高時(shí)延下的效果。我們可以看到：1）D優(yōu)于A, E優(yōu)于B, F優(yōu)于C，反映FASE在AP@0.7指標(biāo)中始終有效；2）C優(yōu)于B, F優(yōu)于E，反映TM在高時(shí)延時(shí)始終有效。

圖8 歷史幀數(shù)k的消融研究。

圖9 消融研究：比較DiscoNet, Disconet + FASE，Disconet + VE + TM，Disconet + SyncNet隨時(shí)延變化的性能。FASE在AP@0.7中有明顯改進(jìn)作用，TM在小時(shí)延時(shí)具有改進(jìn)作用。

表1 AP@0.5/0.7指標(biāo)下SyncNet消融研究

4.5 定性評(píng)價(jià)

圖10為無(wú)時(shí)延設(shè)置下的DiscoNet、有時(shí)延設(shè)置的DiscoNet、有時(shí)延設(shè)置的Disconet + VE和有時(shí)延設(shè)置的Disconet + SyncNet的檢測(cè)結(jié)果。對(duì)比(a)和(b)，我們可以看到(a)中紫色框中正確檢測(cè)到的車輛由于傳輸時(shí)延而在(b)中被遺漏或被錯(cuò)誤檢測(cè)到。(c)表明，簡(jiǎn)單估計(jì)VE(無(wú)FASE)部分補(bǔ)償了藍(lán)框中的延遲誤差，但在橙色框中無(wú)法實(shí)現(xiàn)準(zhǔn)確估計(jì)，而我們的SyncNet可以精確地恢復(fù)兩輛車的真實(shí)位置，如圖(d)的紫色框所示。從圖(d)可以看出，SyncNet實(shí)現(xiàn)了最佳補(bǔ)償，并精確地恢復(fù)了車輛的真實(shí)位置。

圖10 FASE架構(gòu)定性地提高了通信延遲下的性能。(a)為無(wú)時(shí)延設(shè)置的DiscoNet[15]檢測(cè)結(jié)果。(b) (c) (d)顯示平均時(shí)延設(shè)置為5幀下的檢測(cè)結(jié)果。

圖11這里展示了圖10中四組模型第一行場(chǎng)景中自車對(duì)周圍某個(gè)智能體所傳輸特征的協(xié)同注意力權(quán)重。(b) (c) (d)為平均延遲5幀設(shè)置下的結(jié)果。對(duì)比(b)、(c)和(d)我們可以看到SyncNet得到了一個(gè)更接近(a)的特征（無(wú)時(shí)延設(shè)置），并且主動(dòng)降低了紅框中有噪聲位置的權(quán)重。

圖11顯示了圖10中四組模型第一行場(chǎng)景所示示例中來(lái)自周圍智能體所傳輸特征的注意力權(quán)重。我們可以看到：(b)、(c)在紅框中都有類似的大權(quán)重，這表明它們將噪聲引入到協(xié)同特征中。得益于SyncNet中的協(xié)同注意力估計(jì)分支（基于真值協(xié)同注意力權(quán)重的監(jiān)督訓(xùn)練），(d)在紅框有類似(a)的小權(quán)重，其關(guān)注真實(shí)的具有更多有效信息的區(qū)域并避免由于特征估計(jì)不準(zhǔn)確而導(dǎo)致的級(jí)聯(lián)誤差。這些定性結(jié)果驗(yàn)證了SyncNet的有效性。

5 結(jié)論

我們引入了一個(gè)具有時(shí)延意識(shí)的協(xié)同感知系統(tǒng)，并提出了一種新的時(shí)延特征補(bǔ)償模塊SyncNet，用于時(shí)域同步，適合現(xiàn)有的中間特征級(jí)協(xié)同感知方法。 SyncNet采用了一種新型的共生估計(jì)結(jié)構(gòu)，該結(jié)構(gòu)聯(lián)合估計(jì)中間特征和注意力權(quán)重。SyncNet基于特征-注意力共生估計(jì)和時(shí)間調(diào)制模塊，顯著提高了較小時(shí)延范圍內(nèi)的協(xié)同感知性能。系統(tǒng)性的定量和定性實(shí)驗(yàn)表明，所提出的SyncNet可以提高通信延遲場(chǎng)景下的感知性能，有效解決協(xié)同感知中的時(shí)延問(wèn)題。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：國(guó)家汽車質(zhì)量檢驗(yàn)檢測(cè)中心（廣西）獲得整車CCC指定實(shí)驗(yàn)室系列資質(zhì)
上一篇：車身本體結(jié)構(gòu)的耐久性分析

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一種考慮通信時(shí)延的協(xié)同感知系統(tǒng)

微信公眾號(hào)

1 引言

2 相關(guān)工作

3 本文方法

4 實(shí)驗(yàn)

5 結(jié)論

參考文獻(xiàn)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工