自動(dòng)駕駛中基于深度學(xué)習(xí)的雷達(dá)與視覺融合用于三維物體檢測(cè)的綜述

2025-11-19 12:36:23· 來源：同濟(jì)智能汽車研究所

編者按：清華大學(xué)Mars Lab團(tuán)隊(duì)提出SLAM-Former，首次將完整SLAM系統(tǒng)集成于單一Transformer中。該模型通過前端實(shí)時(shí)跟蹤建圖與后端全局優(yōu)化交替協(xié)同，有效解決傳統(tǒng)方法中累積誤差與全局不一致的問題。實(shí)驗(yàn)顯示，其在TUM、7-Scenes等多個(gè)基準(zhǔn)上取得領(lǐng)先的追蹤與重建精度，為視覺SLAM的統(tǒng)一神經(jīng)網(wǎng)絡(luò)架構(gòu)提供了新方向。

本文譯自：

《SLAM-Former: Putting SLAM into One Transformer》

文章來源：

arXiv preprint arXiv:2509.16909 (2025).

作者：

Yuan, Yijun, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

作者單位：

清華大學(xué)

原文鏈接：

https://arxiv.org/abs/2509.16909

摘要：我們提出了 SLAM-Former，這是一種將完整的 SLAM 功能集成到單個(gè) Transformer 中的新型神經(jīng)方法。與傳統(tǒng)的 SLAM 系統(tǒng)類似，SLAM-Former 同樣包含前端和后端，二者協(xié)同工作。前端實(shí)時(shí)處理連續(xù)的單目圖像，以實(shí)現(xiàn)增量式建圖和定位，而后端則進(jìn)行全局優(yōu)化，以確保幾何一致性。這種交替執(zhí)行的方式使得前端和后端能夠相互促進(jìn)，從而提升整體系統(tǒng)性能。全面的實(shí)驗(yàn)結(jié)果表明，SLAM-Former 的性能優(yōu)于或可與最先進(jìn)的稠密 SLAM 方法相媲美。

關(guān)鍵詞：傳感器融合，雷達(dá)，攝像頭，物體檢測(cè)，計(jì)算機(jī)視覺，攝像頭雷達(dá)融合，雷達(dá)-視覺，自動(dòng)駕駛，綜述，調(diào)查

Ⅰ 簡(jiǎn)介

在機(jī)器人感知領(lǐng)域，同時(shí)定位與建圖（SLAM）具有重要意義。它使機(jī)器人能夠在未知環(huán)境中構(gòu)建地圖的同時(shí)追蹤自身位置。這種能力對(duì)于機(jī)器人在各種環(huán)境中自主導(dǎo)航和執(zhí)行任務(wù)至關(guān)重要。早期的 SLAM 算法主要側(cè)重于使用稀疏點(diǎn)進(jìn)行定位和建圖，例如 ORB-SLAM 和 LSD-SLAM。這些方法高效且穩(wěn)健，但可能無法提供周圍環(huán)境的詳細(xì)信息。相比之下，密集建圖技術(shù)旨在創(chuàng)建更詳細(xì)且連續(xù)的環(huán)境表示，主要依賴于激光雷達(dá)和 RGB-D。隨著光流和多視角深度估計(jì)技術(shù)的迅速發(fā)展，近期的研究?jī)H通過圖像輸入就實(shí)現(xiàn)了高質(zhì)量的密集單目 SLAM。這些方法利用神經(jīng)網(wǎng)絡(luò)和計(jì)算機(jī)視覺算法的能力，從單個(gè)相機(jī)中估計(jì)深度和運(yùn)動(dòng)，從而無需額外傳感器即可創(chuàng)建密集地圖。尤其值得注意的是，利用幾何基礎(chǔ)模型的趨勢(shì)。這些模型展現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的 3D 結(jié)構(gòu)預(yù)測(cè)的巨大潛力。其流式變體通過精心設(shè)計(jì)，進(jìn)一步提升了性能。

通過老化注意力鍵值緩存（KV 緩存），使模型能夠處理增量視覺輸入。我們注意到，諸如 MASt3R-SLAM 和 VGGT-SLAM 這類使用幾何基礎(chǔ)模型作為重建模塊的 SLAM 方法存在全局一致性問題，因?yàn)樗鼈円蕾囉诰植孔拥貓D的對(duì)齊。另一方面，像 StreamVGGT 和 Stream3R 這樣的流式方法處理增量輸入時(shí)不會(huì)重新映射過去的數(shù)據(jù)，這可能會(huì)導(dǎo)致過去數(shù)據(jù)與新輸入數(shù)據(jù)之間出現(xiàn)顯著的不匹配。

在這項(xiàng)工作中，我們提出了一種在單一統(tǒng)一的 Transformer 架構(gòu)中實(shí)現(xiàn)的視覺同步定位與建圖（SLAM）框架，命名為 SLAM-Former。SLAM-Former 在同一個(gè) Transformer 中包含前端和后端，二者協(xié)同工作。前端對(duì)連續(xù)的 RGB 圖像進(jìn)行實(shí)時(shí)處理，用于關(guān)鍵幀選擇以及增量式地圖和位姿更新。前端的增量輸出會(huì)定期由后端以較低的頻率進(jìn)行全局地圖和位姿的優(yōu)化。

在這一交替過程中，前端和后端相互促進(jìn)。每次后端運(yùn)行后，都會(huì)將轉(zhuǎn)換器的 KV 緩存更新到前端以進(jìn)行進(jìn)一步的增量操作。作為回報(bào)，前端提供初始結(jié)果和順序，幫助后端進(jìn)行優(yōu)化。為了使單個(gè)轉(zhuǎn)換器具備所有 SLAM 功能，我們?yōu)?SLAM-Former 提出了三種訓(xùn)練模式。

與傳統(tǒng)的 SLAM 管道相比，后者需要額外的回環(huán)檢測(cè)模塊來閉合其位姿圖，而 SLAM-Former 的后端通過全注意力機(jī)制實(shí)現(xiàn)了這一功能，相當(dāng)于在密集因子圖上進(jìn)行回環(huán)檢測(cè)。與現(xiàn)有的校準(zhǔn)和未校準(zhǔn)的先進(jìn)方法相比，SLAM-Former 在廣泛使用的密集單目 SLAM 基準(zhǔn)測(cè)試中實(shí)現(xiàn)了顯著更優(yōu)的重建效果和最先進(jìn)的跟蹤性能。

圖 1.SLAM-Former 是用于 SLAM 的統(tǒng)一 Transformer。傳統(tǒng)的 SLAM 采用多模型流水線來處理前端和后端任務(wù)。相比之下，SLAM-Former 將完整的 SLAM 功能整合到一個(gè) Transformer 中，實(shí)現(xiàn)了連貫的姿態(tài)估計(jì)和密集的地圖構(gòu)建。

Ⅱ 相關(guān)工作

A. 密集型RGB SLAM

近年來，基于單目相機(jī)的稠密 SLAM 研究取得了顯著進(jìn)展，這得益于深度學(xué)習(xí)技術(shù)的應(yīng)用。由于沒有深度傳感器，稠密的 RGB SLAM 需要將整個(gè)幾何序列和相機(jī)作為一個(gè)整體進(jìn)行優(yōu)化。

早期的研究工作側(cè)重于降低深度估計(jì)的計(jì)算成本。例如，CodeSLAM 和 DeepFactors 通過優(yōu)化深度潛在變量作為替代方案。借鑒 MVSNet 的優(yōu)勢(shì)，Tandem 依賴于外部模型，但打破了協(xié)同優(yōu)化的結(jié)構(gòu)。相反，DROIDSLAM 和 Scene-Factory 將深度光流模型整合到流程中，并通過速度密集的束調(diào)整協(xié)同優(yōu)化兩者。另一方面，基于 NeRF 和高斯點(diǎn)陣的方法已成為重塑密集 SLAM 的趨勢(shì)。NeRF-SLAM 方法和 GS-SLAM 方法以高度逼真的新視圖合成目標(biāo)為整體優(yōu)化場(chǎng)景。然而，這些基于渲染的 SLAM 方法通常耗時(shí)較長(zhǎng)，無法滿足重建需求，且對(duì)模糊和噪聲高度敏感，這極大地限制了它們?cè)趯?shí)際生活中的應(yīng)用。

隨著諸如 DUSt3R 和 VGGT 等近期基礎(chǔ)幾何技術(shù)的出現(xiàn)，研究人員獲得了新的靈感。MASt3R-SLAM 利用先進(jìn)的成對(duì)模型 MASt3R 進(jìn)行高質(zhì)量的免校準(zhǔn)匹配和幾何構(gòu)建，在傳統(tǒng)的 SLAM 流程中展現(xiàn)了最先進(jìn)的性能。另一方面，VGGT-SLAM 將子地圖輸入到 VGGT 中，并使用新穎的 SL(4) 流形將它們連接起來，首次對(duì)基礎(chǔ)幾何中的幾何失真進(jìn)行了建模。然而，這些方法依賴于成對(duì)或子地圖級(jí)別的幾何優(yōu)化，這常常導(dǎo)致幀之間的沖突結(jié)構(gòu)。MASt3R-SLAM 試圖通過 TSDF 融合來解決這個(gè)問題，但這種方法只能修復(fù)小的不匹配。同時(shí)，VGGT-SLAM 無法解決這個(gè)問題，因?yàn)樗鼉H在前端和末端節(jié)點(diǎn)之間建立了子地圖的連接。

這激勵(lì)我們開發(fā)一種前端后端結(jié)合的同步定位與建圖（SLAM）結(jié)構(gòu)，以妥善且清晰地解決這一問題。

B. 前饋三維重建

近年來，DUSt3R引領(lǐng)了一種直接利用可擴(kuò)展訓(xùn)練數(shù)據(jù)回歸3D結(jié)構(gòu)的趨勢(shì)。然而，在處理圖像對(duì)時(shí)，DUSt3R對(duì)于較大場(chǎng)景需要進(jìn)行全局優(yōu)化，這降低了推理效率。為解決這一局限性，已有多項(xiàng)研究提出相應(yīng)方案。Fast3R、VGGT和Pi3均在單次前向傳播中處理多視角圖像，避免了耗時(shí)的后處理全局優(yōu)化。這三種模型均為基于Transformer的多視角點(diǎn)云估計(jì)模型。Fast3R強(qiáng)調(diào)了能夠高效處理數(shù)千張圖像的能力，而VGGT則表明，通過采用簡(jiǎn)單的架構(gòu)結(jié)合3D多任務(wù)學(xué)習(xí)和可擴(kuò)展訓(xùn)練數(shù)據(jù)，能夠取得最先進(jìn)的成果。Pi3進(jìn)一步引入了置換等變?cè)O(shè)計(jì)，消除了對(duì)固定參考視圖的依賴，增強(qiáng)了對(duì)輸入順序的魯棒性和可擴(kuò)展性。

除了前饋多視圖方法之外，近期的前饋流式方法實(shí)現(xiàn)了在線3D重建。Spann3R通過維護(hù)和與空間記憶進(jìn)行交互將Dust3R擴(kuò)展到流式處理。CUT3R引入了基于轉(zhuǎn)換器的持久狀態(tài)標(biāo)記。

在線重建的反復(fù)更新。LONG3R 采用 3D 空時(shí)記憶和由粗到細(xì)的流水線來處理長(zhǎng)序列流式重建。StreamVGGT 和 Stream3R 進(jìn)一步引入因果注意力機(jī)制，借鑒現(xiàn)代語言模型，以實(shí)現(xiàn)實(shí)時(shí)流式重建。

然而，現(xiàn)有的流式方法僅專注于增量更新，而不重新審視過去的估計(jì)值，這會(huì)導(dǎo)致漂移和全局一致性受限。為了解決這個(gè)問題，我們提出了 SLAM-Former，這是一種統(tǒng)一的神經(jīng) SLAM 管道，它將前端和后端相結(jié)合，以實(shí)現(xiàn)高效的增量更新和周期性的全局優(yōu)化。

Ⅲ SLAM-Former

本節(jié)介紹我們提出的 SLAM-Former。首先描述其底層的 Transformer 架構(gòu)，然后分別詳細(xì)闡述其在 SLAM 前端和后端的作用。接著介紹一種聯(lián)合訓(xùn)練策略，將這些任務(wù)統(tǒng)一在一個(gè)模型中，最后介紹推理流程。

A. Transformer架構(gòu)

SLAM-Former 基于單個(gè) Transformer 模型構(gòu)建，其中 Transformer 主干能夠聚合幀內(nèi)和幀間信息，而特定任務(wù)的頭部則用于解碼場(chǎng)景幾何和相機(jī)姿態(tài)。為清晰起見，我們假設(shè)圖像特征已預(yù)先編碼，輸入的是一組圖像補(bǔ)丁標(biāo)記，其中添加了注冊(cè)標(biāo)記。與 Pi3 類似的設(shè)計(jì)一樣，我們?cè)谒袔惺褂霉蚕淼淖?cè)標(biāo)記，從而無需指定參考幀。主干包含層，每層都配備了幀內(nèi)和幀間注意力機(jī)制，以共同捕獲局部圖像上下文和時(shí)間對(duì)應(yīng)關(guān)系。

SLAM-Former 將用于增量幀處理的前端和用于全局地圖及姿態(tài)優(yōu)化的后端集成在一個(gè)共享的 Transformer 主干網(wǎng)絡(luò)中。

B. 前端

我們?cè)趫D 2 中展示了前端處理過程。當(dāng)新一幀圖像到達(dá)時(shí)，前端首先判斷其是否應(yīng)作為新的關(guān)鍵幀。如果是，則系統(tǒng)繼續(xù)進(jìn)行跟蹤和建圖。

圖 2.SLAM-Former 的工作流程。前端檢測(cè)關(guān)鍵幀并執(zhí)行增量位姿和地圖更新，而后端執(zhí)行全局位姿和地圖更新。共享的地圖標(biāo)記內(nèi)存和 KV 緩存更新機(jī)制確保前端和后端相互促進(jìn)，這一過程由藍(lán)色箭頭標(biāo)記。

形式上，給定一個(gè)圖像序列，前端將每一幀映射為一組地圖標(biāo)記：

其中表示先前關(guān)鍵幀的 KV 緩存，存儲(chǔ)了在幀間注意力層。關(guān)鍵幀索引為，其基數(shù)為，以及幀的生成映射標(biāo)記，這些標(biāo)記作為場(chǎng)景的隱式神經(jīng)表示。在此過程中生成的新 KV 緩存也將擴(kuò)展到以備后用。

關(guān)鍵幀檢測(cè)。生成地圖標(biāo)記后，前端使用姿態(tài)頭估計(jì)相機(jī)姿態(tài)。

如果某一幀相對(duì)于最新關(guān)鍵幀的相對(duì)姿態(tài),超過了某個(gè)閾值，則將其標(biāo)記為新的關(guān)鍵幀。

在實(shí)際操作中，對(duì)于關(guān)鍵幀檢測(cè)，我們不依賴 KV 緩存；而是直接將應(yīng)用于幀對(duì)，這提高了效率，并且無需指定參考幀。

前端跟蹤與映射。如果確認(rèn)了新的關(guān)鍵幀，將使用完整的 KV 緩存重新計(jì)算，并更新標(biāo)記映射：

前端僅依賴于過去的幀，因此具有因果性，適合在線跟蹤。然而，這種因果關(guān)系不可避免地會(huì)導(dǎo)致誤差累積和局部不一致。為了緩解這一問題，我們引入了一個(gè)后端模塊來進(jìn)行全局優(yōu)化。

C. 后端

后端負(fù)責(zé)對(duì)地圖標(biāo)記進(jìn)行優(yōu)化以確保全局一致性。如圖 2 所示，傳統(tǒng)的 SLAM 管道通常依靠閉環(huán)檢測(cè)和圖優(yōu)化來實(shí)現(xiàn)這一目的。相比之下，我們的方法采用了一個(gè)基于 Transformer 的后端，它能夠一次性直接優(yōu)化所有地圖標(biāo)記：

這種設(shè)計(jì)的有效性在于內(nèi)部的全注意力機(jī)制，它在所有地圖標(biāo)記之間建立了密集的連接。這種全局感受野使后端能夠校正累積的偏差，并在重建的場(chǎng)景中強(qiáng)制執(zhí)行結(jié)構(gòu)一致性。

緩存共享。為了繼承后端優(yōu)化帶來的好處，前端會(huì)復(fù)用來自后端的共享鍵值緩存：

通過這種方式，后續(xù)幀會(huì)根據(jù)優(yōu)化后的全局結(jié)構(gòu)進(jìn)行跟蹤和映射，從而降低長(zhǎng)序列中誤差累積的風(fēng)險(xiǎn)。

D. 訓(xùn)練策略

訓(xùn)練策略旨在使單個(gè)Transformer能夠同時(shí)處理前端和后端的SLAM功能。我們對(duì)SLAM進(jìn)行聯(lián)合訓(xùn)練，在單次迭代中跨越三種模式，每種模式對(duì)應(yīng)不同的輸入輸出關(guān)系。

圖 3.SLAM-Former 的三種訓(xùn)練模式。和分別代表一幀圖像的圖像塊標(biāo)記和地圖標(biāo)記。在每種模式下，要么輸入標(biāo)記，要么輸入標(biāo)記，或者同時(shí)輸入兩者。輸入到包含層幀注意力和各種幀間注意力的變壓器骨干網(wǎng)絡(luò) 中。最后，通過頭部回歸姿態(tài)和點(diǎn)圖。

訓(xùn)練前端。前端使用因果注意力掩碼進(jìn)行訓(xùn)練。在推理時(shí)，它會(huì)復(fù)用先前幀的KV緩存，從而實(shí)現(xiàn)高效、端到端的單次學(xué)習(xí)。

然而，純因果注意力機(jī)制本質(zhì)上將第一幀指定為參考幀。當(dāng)對(duì)兩個(gè)或多個(gè)幀進(jìn)行聯(lián)合操作時(shí)，我們采用沒有單個(gè)幀定義坐標(biāo)的設(shè)計(jì)，從而消除了對(duì)固定參考視圖的依賴。因此，我們對(duì)前兩幀應(yīng)用全注意力機(jī)制，而對(duì)所有后續(xù)幀仍使用因果注意力機(jī)制。通過這種設(shè)計(jì)，在推理過程中，關(guān)鍵幀檢測(cè)是通過將最后一個(gè)關(guān)鍵幀和傳入幀一起處理進(jìn)行的。對(duì)于跟蹤和映射，前兩個(gè)關(guān)鍵幀被聯(lián)合處理以確定全局坐標(biāo)。

通過前后端協(xié)作訓(xùn)練前端。為了連接前后端操作，我們訓(xùn)練模型采用混合注意力機(jī)制，以同時(shí)處理后端和緩存共享功能。具體而言，后端使用全注意力機(jī)制細(xì)化地圖標(biāo)記，而前端在與后端相同的前向傳播中處理新圖像，使用因果注意力，這等同于基于后端優(yōu)化的KV緩存進(jìn)行條件處理。

訓(xùn)練后端。后端對(duì)來自不同運(yùn)行或KV緩存狀態(tài)的地圖標(biāo)記進(jìn)行優(yōu)化。在此模式下始終應(yīng)用全注意力機(jī)制，使模型能夠解決漂移問題并確保全局一致性。

聯(lián)合訓(xùn)練。在所有模式下，生成的標(biāo)記都隱式地表示幾何形狀和相機(jī)姿態(tài)。特定任務(wù)的頭部預(yù)測(cè)點(diǎn)圖、置信度和相機(jī)姿態(tài)。

與預(yù)測(cè)全局幾何結(jié)構(gòu)的 VGGT 不同，SLAM-Former 為每一幀生成局部點(diǎn)圖，從而避免了定義特定世界坐標(biāo)系的需求。整體損失結(jié)合了深度、點(diǎn)圖和相機(jī)監(jiān)督：

對(duì)于深度損失，預(yù)測(cè)深度與真實(shí)深度進(jìn)行監(jiān)督，權(quán)重為置信度，其中表示逐元素乘法，表示空間梯度，為尺度因子。

對(duì)于點(diǎn)圖損失，類似于深度損失，但定義在與第一幀對(duì)齊的變換局部點(diǎn)圖上：，損失設(shè)計(jì)為。

對(duì)于相機(jī)損失，相對(duì)位姿一致性通過縮放的 Huber 損失進(jìn)行監(jiān)督：，其中表示縮放平移，表示 Huber 范數(shù)。

這三種模式在單次迭代中按順序執(zhí)行，且共享權(quán)重。最終的訓(xùn)練目標(biāo)為上述損失的加權(quán)組合。

E. 執(zhí)行管道

執(zhí)行流水線將前端和后端集成起來以執(zhí)行在線SLAM推理。

前端處理。每個(gè)傳入的幀首先傳遞給關(guān)鍵幀檢測(cè)器。如果被識(shí)別為關(guān)鍵幀，則會(huì)進(jìn)行進(jìn)一步處理。前兩個(gè)關(guān)鍵幀會(huì)聯(lián)合處理以進(jìn)行初始化，生成地圖標(biāo)記和KV緩存，并將其存儲(chǔ)。對(duì)于第個(gè)關(guān)鍵幀（），前端利用緩存的標(biāo)記生成及其緩存，并將其添加到存儲(chǔ)中。

后端優(yōu)化。每經(jīng)過個(gè)關(guān)鍵幀后，后端就會(huì)被觸發(fā)。累積的地圖標(biāo)記會(huì)被優(yōu)化，生成的鍵值緩存用于更新前T個(gè)前端緩存。

Ⅳ 實(shí)驗(yàn)

我們?cè)诙鄠€(gè)任務(wù)上對(duì)SLAM-Former進(jìn)行評(píng)估，包括相機(jī)跟蹤和密集三維重建。隨后，我們分析了前端-后端設(shè)計(jì)的影響，并評(píng)估了時(shí)間效率。

A. 實(shí)驗(yàn)設(shè)置

實(shí)現(xiàn)細(xì)節(jié)：SLAM-Former總共有36層同時(shí)具備幀注意力和全局注意力的Transformer層。我們使用Pi3預(yù)訓(xùn)練權(quán)重初始化SLAM-Former，并以32為批次大小訓(xùn)練10個(gè)周期（不包括凍結(jié)的圖像編碼器和相機(jī)頭）。在訓(xùn)練過程中，我們采用AdamW優(yōu)化器，學(xué)習(xí)率為1e-5，并使用余弦學(xué)習(xí)率調(diào)度器。在損失函數(shù)中，超參數(shù)設(shè)置為和。關(guān)于數(shù)據(jù)集：SLAM-Former在ARKitScenes、ScanNet、ScanNet++、HyperSim、Blended-MVS、MegaDepth和MVS-Synth上進(jìn)行訓(xùn)練。在每次迭代中，單個(gè)SLAM-Former的所有三種模式都會(huì)被訓(xùn)練。整個(gè)訓(xùn)練過程在11小時(shí)內(nèi)完成。

基線。我們?cè)趯?shí)驗(yàn)中使用的基線分為校準(zhǔn)基線和未校準(zhǔn)基線：已校準(zhǔn)方法包括ORB-SLAM3、DeepV2D、DeepFactors、DPV-SLAM、DPV-SLAM++、GO-SLAM、DROID-SLAM、MASt3R-SLAM以及NICER-SLAM。未校準(zhǔn)方法包括DROID-SLAM和MASt3R-SLAM、VGGT-SLAM、SLAM3R以及我們的方法SLAM-Former。此外，我們還使用我們的關(guān)鍵幀對(duì)相關(guān)方法CUT3R和StreamVGGT進(jìn)行了測(cè)試。

B. 3D 跟蹤評(píng)估

我們首先在TUM RGB-D、7-Scenes和Replica數(shù)據(jù)集上評(píng)估SLAM-Former的跟蹤性能。我們計(jì)算了在已校準(zhǔn)和未校準(zhǔn)兩種設(shè)置下各種方法的絕對(duì)軌跡誤差的均方根誤差。

在TUM RGB-D數(shù)據(jù)集的測(cè)試中，評(píng)估是在廣泛使用的場(chǎng)景子集上進(jìn)行的。結(jié)果總結(jié)在表1中。如圖所示，在未校準(zhǔn)設(shè)置下，我們的模型始終優(yōu)于大多數(shù)基線模型。在涉及顯著相機(jī)旋轉(zhuǎn)和可能閉環(huán)的房間和地板等更復(fù)雜的序列中表現(xiàn)出色，表明我們的后端全局優(yōu)化在減輕累積漂移方面特別有效。更重要的是，與校準(zhǔn)基線相比，它顯著降低了誤差，達(dá)到了極具競(jìng)爭(zhēng)力的水平。

表1.TUM RGB-D數(shù)據(jù)集上絕對(duì)軌跡誤差的均方根誤差（單位：米）。*符號(hào)表示基線是在未校準(zhǔn)模式下從VGGT-SLAM論文中評(píng)估得出的，+符號(hào)表示基線是在我們的機(jī)器上測(cè)試得出的。

與TUM RGB-D軌跡的評(píng)估方式類似，我們?cè)诒?中展示了對(duì)7-Scenes數(shù)據(jù)集的評(píng)估結(jié)果。在未校準(zhǔn)和校準(zhǔn)兩種設(shè)置下，我們的方法均優(yōu)于大多數(shù)基線方法。在辦公室、南瓜和廚房等更復(fù)雜的場(chǎng)景中，我們的模型與其余方法相比性能差距更為顯著?？傮w而言，我們的方法優(yōu)于所有基線方法。

表2.7-Scenes數(shù)據(jù)集上絕對(duì)軌跡誤差的均方根誤差（單位：米）。*符號(hào)表示基線是在未校準(zhǔn)模式下從VGGT-SLAM論文中評(píng)估的，+符號(hào)表示基線是在我們的機(jī)器上測(cè)試的。

在Replica數(shù)據(jù)集上的軌跡評(píng)估。之前的跟蹤實(shí)驗(yàn)是使用真實(shí)捕獲的數(shù)據(jù)進(jìn)行的，而Replica數(shù)據(jù)集是合成的。在未校準(zhǔn)的情況下，我們的方法取得了顯著的改進(jìn)，與SLAM3R相比平均軌跡誤差降低了約50%，并且優(yōu)于所有基線，如表3所示。然而，我們的方法與NICER-SLAM處于同一水平，但仍落后于傳統(tǒng)的SLAM方法DROID-SLAM。這是因?yàn)楹铣蓴?shù)據(jù)缺乏噪聲和模糊，使得匹配足夠準(zhǔn)確，足以在光束平差中求解位姿。相比之下，在之前的實(shí)際數(shù)據(jù)測(cè)試中，DROID-SLAM的表現(xiàn)與我們的方法相當(dāng)。

表3.Replica上的絕對(duì)軌跡誤差的均方根誤差（單位：米）。加號(hào)表示基線是在我們的機(jī)器上測(cè)試的。

C. 重建評(píng)估

我們?cè)?-Scenes數(shù)據(jù)集上按照VGGT-SLAM的協(xié)議評(píng)估了SLAM-Former的重建性能，并在Replica數(shù)據(jù)集上按照相應(yīng)協(xié)議進(jìn)行了評(píng)估。

在7-Scenes數(shù)據(jù)集上的密集重建結(jié)果如表5所示。與其他最先進(jìn)的密集SLAM方法相比，我們的方法展現(xiàn)出顯著優(yōu)勢(shì)。在重建質(zhì)量方面，我們的方法實(shí)現(xiàn)了0.017米的最高重建精度，而其他方法均在0.05米以上。在完整性和切比雪夫距離方面，我們的方法分別實(shí)現(xiàn)了0.037米和0.027米，仍比所有基線方法高出約50%。

表5.7-Scenes上的重建評(píng)估（單位：米）。表示每幅圖像選取一個(gè)關(guān)鍵幀。

在我們的重建演示圖4中，這種在所有主要重建指標(biāo)上始終表現(xiàn)出色的情況也得到了體現(xiàn)。如圖中前兩行所示，基線方法在紅色窗口區(qū)域內(nèi)的幀之間存在表面不匹配的情況。相比之下，我們的SLAM-Former重建始終呈現(xiàn)出連貫且準(zhǔn)確的結(jié)構(gòu)。

圖4.定性重建對(duì)比。請(qǐng)注意基線方法存在明顯的結(jié)構(gòu)錯(cuò)誤，例如錯(cuò)位，而這些錯(cuò)誤通過SLAM-Former的全局一致性優(yōu)化得到了修正。

在Replica數(shù)據(jù)集上的密集重建結(jié)果列于表4中。我們的方法在所有基準(zhǔn)測(cè)試中均在準(zhǔn)確性和完整性方面表現(xiàn)最佳。具體而言，我們的2.09/1.56的準(zhǔn)確度/完整性分別比第二好的結(jié)果至少高出1厘米。

表4.Replica數(shù)據(jù)集上的重建結(jié)果。星號(hào)表示NICER-SLAM報(bào)告的結(jié)果。短橫線顯示的是SLAM3R的結(jié)果。加號(hào)代表我們運(yùn)行的結(jié)果。

我們還在圖4的第三行展示了重建效果。在這里，StreamVGGT展示了房間內(nèi)的多層表面，如紅色窗口區(qū)域所突出顯示的那樣。更嚴(yán)重的是，VGGT-SLAM展示的層存在明顯的尺度差異。而SLAM-Former則與真實(shí)情況高度吻合。由于測(cè)試時(shí)對(duì)點(diǎn)云的采樣數(shù)量是固定的，基線方法生成的點(diǎn)云密度較低，這是由于層的不匹配造成的。

D. 前端與后端協(xié)作

為了探究SLAM-Former后端設(shè)計(jì)如何對(duì)整體系統(tǒng)性能做出貢獻(xiàn)，我們進(jìn)行了一系列消融實(shí)驗(yàn)。結(jié)果總結(jié)在表6中。這里，F(xiàn)、MB和EB分別表示我們架構(gòu)的前端、中間后端和末端后端組件。所有評(píng)估均在TUM RGB-D基準(zhǔn)上進(jìn)行，使用絕對(duì)軌跡誤差的均方根誤差作為度量標(biāo)準(zhǔn)。

表6.在TUM RGB-D數(shù)據(jù)集上通過絕對(duì)軌跡誤差的均方根誤差評(píng)估模塊協(xié)作情況。

結(jié)果表明，加入后端模塊相較于僅使用前端，準(zhǔn)確率顯著提高，這證實(shí)了我們所提出的前端與后端相結(jié)合設(shè)計(jì)的有效性。

后端如何協(xié)助前端

盡管MB和EB的個(gè)體貢獻(xiàn)在平均處理效應(yīng)方面看似相當(dāng)，且兩者聯(lián)合使用在整體指標(biāo)上并未顯示出顯著提升，但需要強(qiáng)調(diào)的是，MB所發(fā)揮的作用遠(yuǎn)不止體現(xiàn)在最終的平均處理效應(yīng)上。我們?cè)谝恍?shù)據(jù)集中最具挑戰(zhàn)性的序列上展示了中間結(jié)果，包括Replica room1、ICLNUIM-ofkt1和TUM room，所有這些序列如圖5所示為室內(nèi)環(huán)境的內(nèi)向外捕捉。最初，前端單獨(dú)處理的結(jié)果誤差相對(duì)較小，如紅色窗口所示。然而，隨著時(shí)間的推移，前端單獨(dú)處理的重建結(jié)果變得嚴(yán)重失真。這種失真出現(xiàn)的原因在于前端單獨(dú)處理會(huì)隨著時(shí)間的推移累積誤差，從而在后期導(dǎo)致較大的不準(zhǔn)確。相比之下，我們的模型結(jié)合了后端處理，在整個(gè)過程中保持了一致性，有效地緩解了這些問題。

圖5.有無后端輔助的定性重建對(duì)比。第一行顯示了相應(yīng)時(shí)間戳下僅前端的結(jié)果，而第二行則展示了有后端KV緩存輔助的結(jié)果。

后端如何從前端獲益

上述測(cè)試表明，前端能夠得益于后端的支持，從而實(shí)現(xiàn)性能的長(zhǎng)期穩(wěn)定。然而，后端如何從前端獲益？這是否等同于僅僅將所有關(guān)鍵幀圖像通過一次VGGT或Pi3處理？

為回答這個(gè)問題，我們使用ICL-NUIM場(chǎng)景中的ofkt0序列進(jìn)行演示。如圖6所示，左邊的兩張圖展示了在將所有關(guān)鍵幀圖像作為輸入且不使用任何序列信息時(shí)VGGT和Pi3的結(jié)果。右邊的圖則是我們的結(jié)果。很明顯，在沒有我們前端提供的序列信息的情況下，VGGT和Pi3生成的重建結(jié)果雜亂無章。相比之下，我們的后端利用前端提供的隱含順序?qū)崿F(xiàn)了更連貫、更準(zhǔn)確的重建。

圖6 在ICL-NUIM數(shù)據(jù)集上對(duì)kt1進(jìn)行的定性重建對(duì)比。從左至右依次展示了VGGT、Pi3和我們方法的結(jié)果。VGGT和Pi3均存在姿態(tài)漂移問題，導(dǎo)致幾何不準(zhǔn)確，而我們的方法則表現(xiàn)出一致且準(zhǔn)確的重建效果。

E. 執(zhí)行速度

我們還記錄了該方法的時(shí)間成本，如表7所示。我們展示了在不同數(shù)據(jù)集上模塊的執(zhí)行時(shí)間。關(guān)鍵幀檢測(cè)和前端平均運(yùn)行時(shí)間不到100毫秒，而后端雖然較慢，但執(zhí)行頻率較低。整體速度大于10Hz，這表明我們的方法能夠?qū)崟r(shí)運(yùn)行。

表7.數(shù)據(jù)集上的時(shí)間成本。TPE表示每次執(zhí)行的時(shí)間，F(xiàn)PS表示每秒幀數(shù)。

Ⅴ 結(jié)論

在這項(xiàng)工作中，我們引入了SLAM-Former，將完整的SLAM功能集成到一個(gè)單一的Transformer中。通過交替進(jìn)行增量前端處理和全局后端處理，SLAM-Former使前端和后端能夠相互協(xié)作、相互增強(qiáng)，從而實(shí)現(xiàn)了整體性能的提升。結(jié)果表明，SLAM-Former在跟蹤和重建方面均顯著優(yōu)于傳統(tǒng)的基于幾何基礎(chǔ)的SLAM方法。此外，在使用真實(shí)世界數(shù)據(jù)進(jìn)行測(cè)試時(shí)，它在跟蹤性能方面達(dá)到了高度競(jìng)爭(zhēng)水平，在重建方面則遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法。

SLAM-Former仍存在一些局限性。首先，我們?cè)诤蠖耸褂昧巳⒁饬C(jī)制來替代傳統(tǒng)SLAM中的回環(huán)檢測(cè)與優(yōu)化。然而，全注意力機(jī)制由于O(n2)的時(shí)間復(fù)雜度而帶來了一些問題。我們認(rèn)為，這一問題在未來的工作中可以通過SLAM的方法或通過Transformer技術(shù)如稀疏注意力和標(biāo)記合并來解決。其次，SLAM-Former不支持本地前端模式；在推理過程中，所有先前的鍵值緩存都應(yīng)輸入到模型中。

參考文獻(xiàn)

責(zé)編丨高炳釗

分享到：

微信“掃一掃”
分享到朋友圈

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

自動(dòng)駕駛中基于深度學(xué)習(xí)的雷達(dá)與視覺融合用于三維物體檢測(cè)的綜述

微信公眾號(hào)

Ⅲ SLAM-Former

Ⅳ 實(shí)驗(yàn)

Ⅴ 結(jié)論

參考文獻(xiàn)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工