日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

自動(dòng)駕駛中基于深度學(xué)習(xí)的雷達(dá)與視覺融合用于三維物體檢測(cè)的綜述

2025-11-19 12:36:23·  來源:同濟(jì)智能汽車研究所  
 

編者按:清華大學(xué)Mars Lab團(tuán)隊(duì)提出SLAM-Former,首次將完整SLAM系統(tǒng)集成于單一Transformer中。該模型通過前端實(shí)時(shí)跟蹤建圖與后端全局優(yōu)化交替協(xié)同,有效解決傳統(tǒng)方法中累積誤差與全局不一致的問題。實(shí)驗(yàn)顯示,其在TUM、7-Scenes等多個(gè)基準(zhǔn)上取得領(lǐng)先的追蹤與重建精度,為視覺SLAM的統(tǒng)一神經(jīng)網(wǎng)絡(luò)架構(gòu)提供了新方向。


本文譯自:

《SLAM-Former: Putting SLAM into One Transformer》

文章來源:


arXiv preprint arXiv:2509.16909 (2025).


作者:

Yuan, Yijun, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

作者單位:

清華大學(xué)

原文鏈接:

https://arxiv.org/abs/2509.16909


摘要:我們提出了 SLAM-Former,這是一種將完整的 SLAM 功能集成到單個(gè) Transformer 中的新型神經(jīng)方法。與傳統(tǒng)的 SLAM 系統(tǒng)類似,SLAM-Former 同樣包含前端和后端,二者協(xié)同工作。前端實(shí)時(shí)處理連續(xù)的單目圖像,以實(shí)現(xiàn)增量式建圖和定位,而后端則進(jìn)行全局優(yōu)化,以確保幾何一致性。這種交替執(zhí)行的方式使得前端和后端能夠相互促進(jìn),從而提升整體系統(tǒng)性能。全面的實(shí)驗(yàn)結(jié)果表明,SLAM-Former 的性能優(yōu)于或可與最先進(jìn)的稠密 SLAM 方法相媲美。

關(guān)鍵詞:傳感器融合,雷達(dá),攝像頭,物體檢測(cè),計(jì)算機(jī)視覺,攝像頭雷達(dá)融合,雷達(dá)-視覺,自動(dòng)駕駛,綜述,調(diào)查

Ⅰ 簡(jiǎn)介


在機(jī)器人感知領(lǐng)域,同時(shí)定位與建圖(SLAM)具有重要意義。它使機(jī)器人能夠在未知環(huán)境中構(gòu)建地圖的同時(shí)追蹤自身位置。這種能力對(duì)于機(jī)器人在各種環(huán)境中自主導(dǎo)航和執(zhí)行任務(wù)至關(guān)重要。早期的 SLAM 算法主要側(cè)重于使用稀疏點(diǎn)進(jìn)行定位和建圖,例如 ORB-SLAM 和 LSD-SLAM。這些方法高效且穩(wěn)健,但可能無法提供周圍環(huán)境的詳細(xì)信息。相比之下,密集建圖技術(shù)旨在創(chuàng)建更詳細(xì)且連續(xù)的環(huán)境表示,主要依賴于激光雷達(dá)和 RGB-D。隨著光流和多視角深度估計(jì)技術(shù)的迅速發(fā)展,近期的研究?jī)H通過圖像輸入就實(shí)現(xiàn)了高質(zhì)量的密集單目 SLAM。這些方法利用神經(jīng)網(wǎng)絡(luò)和計(jì)算機(jī)視覺算法的能力,從單個(gè)相機(jī)中估計(jì)深度和運(yùn)動(dòng),從而無需額外傳感器即可創(chuàng)建密集地圖。尤其值得注意的是,利用幾何基礎(chǔ)模型的趨勢(shì)。這些模型展現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的 3D 結(jié)構(gòu)預(yù)測(cè)的巨大潛力。其流式變體通過精心設(shè)計(jì),進(jìn)一步提升了性能。

通過老化注意力鍵值緩存(KV 緩存),使模型能夠處理增量視覺輸入。我們注意到,諸如 MASt3R-SLAM 和 VGGT-SLAM 這類使用幾何基礎(chǔ)模型作為重建模塊的 SLAM 方法存在全局一致性問題,因?yàn)樗鼈円蕾囉诰植孔拥貓D的對(duì)齊。另一方面,像 StreamVGGT 和 Stream3R 這樣的流式方法處理增量輸入時(shí)不會(huì)重新映射過去的數(shù)據(jù),這可能會(huì)導(dǎo)致過去數(shù)據(jù)與新輸入數(shù)據(jù)之間出現(xiàn)顯著的不匹配。

在這項(xiàng)工作中,我們提出了一種在單一統(tǒng)一的 Transformer 架構(gòu)中實(shí)現(xiàn)的視覺同步定位與建圖(SLAM)框架,命名為 SLAM-Former。SLAM-Former 在同一個(gè) Transformer 中包含前端和后端,二者協(xié)同工作。前端對(duì)連續(xù)的 RGB 圖像進(jìn)行實(shí)時(shí)處理,用于關(guān)鍵幀選擇以及增量式地圖和位姿更新。前端的增量輸出會(huì)定期由后端以較低的頻率進(jìn)行全局地圖和位姿的優(yōu)化。

在這一交替過程中,前端和后端相互促進(jìn)。每次后端運(yùn)行后,都會(huì)將轉(zhuǎn)換器的 KV 緩存更新到前端以進(jìn)行進(jìn)一步的增量操作。作為回報(bào),前端提供初始結(jié)果和順序,幫助后端進(jìn)行優(yōu)化。為了使單個(gè)轉(zhuǎn)換器具備所有 SLAM 功能,我們?yōu)?SLAM-Former 提出了三種訓(xùn)練模式。

與傳統(tǒng)的 SLAM 管道相比,后者需要額外的回環(huán)檢測(cè)模塊來閉合其位姿圖,而 SLAM-Former 的后端通過全注意力機(jī)制實(shí)現(xiàn)了這一功能,相當(dāng)于在密集因子圖上進(jìn)行回環(huán)檢測(cè)。與現(xiàn)有的校準(zhǔn)和未校準(zhǔn)的先進(jìn)方法相比,SLAM-Former 在廣泛使用的密集單目 SLAM 基準(zhǔn)測(cè)試中實(shí)現(xiàn)了顯著更優(yōu)的重建效果和最先進(jìn)的跟蹤性能。

圖片

圖 1.SLAM-Former 是用于 SLAM 的統(tǒng)一 Transformer。傳統(tǒng)的 SLAM 采用多模型流水線來處理前端和后端任務(wù)。相比之下,SLAM-Former 將完整的 SLAM 功能整合到一個(gè) Transformer 中,實(shí)現(xiàn)了連貫的姿態(tài)估計(jì)和密集的地圖構(gòu)建。


Ⅱ 相關(guān)工作


A. 密集型RGB SLAM

近年來,基于單目相機(jī)的稠密 SLAM 研究取得了顯著進(jìn)展,這得益于深度學(xué)習(xí)技術(shù)的應(yīng)用。由于沒有深度傳感器,稠密的 RGB SLAM 需要將整個(gè)幾何序列和相機(jī)作為一個(gè)整體進(jìn)行優(yōu)化。

早期的研究工作側(cè)重于降低深度估計(jì)的計(jì)算成本。例如,CodeSLAM 和 DeepFactors 通過優(yōu)化深度潛在變量作為替代方案。借鑒 MVSNet 的優(yōu)勢(shì),Tandem 依賴于外部模型,但打破了協(xié)同優(yōu)化的結(jié)構(gòu)。相反,DROIDSLAM 和 Scene-Factory 將深度光流模型整合到流程中,并通過速度密集的束調(diào)整協(xié)同優(yōu)化兩者。另一方面,基于 NeRF 和高斯點(diǎn)陣的方法已成為重塑密集 SLAM 的趨勢(shì)。NeRF-SLAM 方法和 GS-SLAM 方法以高度逼真的新視圖合成目標(biāo)為整體優(yōu)化場(chǎng)景。然而,這些基于渲染的 SLAM 方法通常耗時(shí)較長(zhǎng),無法滿足重建需求,且對(duì)模糊和噪聲高度敏感,這極大地限制了它們?cè)趯?shí)際生活中的應(yīng)用。

隨著諸如 DUSt3R 和 VGGT 等近期基礎(chǔ)幾何技術(shù)的出現(xiàn),研究人員獲得了新的靈感。MASt3R-SLAM 利用先進(jìn)的成對(duì)模型 MASt3R 進(jìn)行高質(zhì)量的免校準(zhǔn)匹配和幾何構(gòu)建,在傳統(tǒng)的 SLAM 流程中展現(xiàn)了最先進(jìn)的性能。另一方面,VGGT-SLAM 將子地圖輸入到 VGGT 中,并使用新穎的 SL(4) 流形將它們連接起來,首次對(duì)基礎(chǔ)幾何中的幾何失真進(jìn)行了建模。然而,這些方法依賴于成對(duì)或子地圖級(jí)別的幾何優(yōu)化,這常常導(dǎo)致幀之間的沖突結(jié)構(gòu)。MASt3R-SLAM 試圖通過 TSDF 融合來解決這個(gè)問題,但這種方法只能修復(fù)小的不匹配。同時(shí),VGGT-SLAM 無法解決這個(gè)問題,因?yàn)樗鼉H在前端和末端節(jié)點(diǎn)之間建立了子地圖的連接。

這激勵(lì)我們開發(fā)一種前端后端結(jié)合的同步定位與建圖(SLAM)結(jié)構(gòu),以妥善且清晰地解決這一問題。

B. 前饋三維重建

近年來,DUSt3R引領(lǐng)了一種直接利用可擴(kuò)展訓(xùn)練數(shù)據(jù)回歸3D結(jié)構(gòu)的趨勢(shì)。然而,在處理圖像對(duì)時(shí),DUSt3R對(duì)于較大場(chǎng)景需要進(jìn)行全局優(yōu)化,這降低了推理效率。為解決這一局限性,已有多項(xiàng)研究提出相應(yīng)方案。Fast3R、VGGT和Pi3均在單次前向傳播中處理多視角圖像,避免了耗時(shí)的后處理全局優(yōu)化。這三種模型均為基于Transformer的多視角點(diǎn)云估計(jì)模型。Fast3R強(qiáng)調(diào)了能夠高效處理數(shù)千張圖像的能力,而VGGT則表明,通過采用簡(jiǎn)單的架構(gòu)結(jié)合3D多任務(wù)學(xué)習(xí)和可擴(kuò)展訓(xùn)練數(shù)據(jù),能夠取得最先進(jìn)的成果。Pi3進(jìn)一步引入了置換等變?cè)O(shè)計(jì),消除了對(duì)固定參考視圖的依賴,增強(qiáng)了對(duì)輸入順序的魯棒性和可擴(kuò)展性。

除了前饋多視圖方法之外,近期的前饋流式方法實(shí)現(xiàn)了在線3D重建。Spann3R通過維護(hù)和與空間記憶進(jìn)行交互將Dust3R擴(kuò)展到流式處理。CUT3R引入了基于轉(zhuǎn)換器的持久狀態(tài)標(biāo)記。

在線重建的反復(fù)更新。LONG3R 采用 3D 空時(shí)記憶和由粗到細(xì)的流水線來處理長(zhǎng)序列流式重建。StreamVGGT 和 Stream3R 進(jìn)一步引入因果注意力機(jī)制,借鑒現(xiàn)代語言模型,以實(shí)現(xiàn)實(shí)時(shí)流式重建。

然而,現(xiàn)有的流式方法僅專注于增量更新,而不重新審視過去的估計(jì)值,這會(huì)導(dǎo)致漂移和全局一致性受限。為了解決這個(gè)問題,我們提出了 SLAM-Former,這是一種統(tǒng)一的神經(jīng) SLAM 管道,它將前端和后端相結(jié)合,以實(shí)現(xiàn)高效的增量更新和周期性的全局優(yōu)化。


Ⅲ SLAM-Former


本節(jié)介紹我們提出的 SLAM-Former。首先描述其底層的 Transformer 架構(gòu),然后分別詳細(xì)闡述其在 SLAM 前端和后端的作用。接著介紹一種聯(lián)合訓(xùn)練策略,將這些任務(wù)統(tǒng)一在一個(gè)模型中,最后介紹推理流程。

A. Transformer架構(gòu)

SLAM-Former 基于單個(gè) Transformer 模型構(gòu)建,其中 Transformer 主干能夠聚合幀內(nèi)和幀間信息,而特定任務(wù)的頭部則用于解碼場(chǎng)景幾何和相機(jī)姿態(tài)。為清晰起見,我們假設(shè)圖像特征已預(yù)先編碼,輸入的是一組圖像補(bǔ)丁標(biāo)記,其中添加了注冊(cè)標(biāo)記。與 Pi3 類似的設(shè)計(jì)一樣,我們?cè)谒袔惺褂霉蚕淼淖?cè)標(biāo)記,從而無需指定參考幀。主干包含層,每層都配備了幀內(nèi)和幀間注意力機(jī)制,以共同捕獲局部圖像上下文和時(shí)間對(duì)應(yīng)關(guān)系。

SLAM-Former 將用于增量幀處理的前端和用于全局地圖及姿態(tài)優(yōu)化的后端集成在一個(gè)共享的 Transformer 主干網(wǎng)絡(luò)中。

B. 前端

我們?cè)趫D 2 中展示了前端處理過程。當(dāng)新一幀圖像到達(dá)時(shí),前端首先判斷其是否應(yīng)作為新的關(guān)鍵幀。如果是,則系統(tǒng)繼續(xù)進(jìn)行跟蹤和建圖。

圖片

圖 2.SLAM-Former 的工作流程。前端檢測(cè)關(guān)鍵幀并執(zhí)行增量位姿和地圖更新,而后端執(zhí)行全局位姿和地圖更新。共享的地圖標(biāo)記內(nèi)存和 KV 緩存更新機(jī)制確保前端和后端相互促進(jìn),這一過程由藍(lán)色箭頭標(biāo)記。

形式上,給定一個(gè)圖像序列,前端  將每一幀映射為一組地圖標(biāo)記:

圖片

其中表示先前關(guān)鍵幀的 KV 緩存,存儲(chǔ)了在幀間注意力層。關(guān)鍵幀索引為 ,其基數(shù)為 ,以及幀  的生成映射標(biāo)記,這些標(biāo)記作為場(chǎng)景的隱式神經(jīng)表示。在此過程中生成的新 KV 緩存也將擴(kuò)展到以備后用。

關(guān)鍵幀檢測(cè)。 生成地圖標(biāo)記后,前端使用姿態(tài)頭 估計(jì)相機(jī)姿態(tài)。

圖片

如果某一幀相對(duì)于最新關(guān)鍵幀的相對(duì)姿態(tài),超過了某個(gè)閾值,則將其標(biāo)記為新的關(guān)鍵幀。

在實(shí)際操作中,對(duì)于關(guān)鍵幀檢測(cè),我們不依賴 KV 緩存;而是直接將 應(yīng)用于幀對(duì),這提高了效率,并且無需指定參考幀。

前端跟蹤與映射。如果確認(rèn)了新的關(guān)鍵幀,將使用完整的 KV 緩存重新計(jì)算 ,并更新標(biāo)記映射

圖片

前端僅依賴于過去的幀,因此具有因果性,適合在線跟蹤。然而,這種因果關(guān)系不可避免地會(huì)導(dǎo)致誤差累積和局部不一致。為了緩解這一問題,我們引入了一個(gè)后端模塊來進(jìn)行全局優(yōu)化。

C. 后端

后端負(fù)責(zé)對(duì)地圖標(biāo)記進(jìn)行優(yōu)化以確保全局一致性。如圖 2 所示,傳統(tǒng)的 SLAM 管道通常依靠閉環(huán)檢測(cè)和圖優(yōu)化來實(shí)現(xiàn)這一目的。相比之下,我們的方法采用了一個(gè)基于 Transformer 的后端,它能夠一次性直接優(yōu)化所有地圖標(biāo)記:

圖片

這種設(shè)計(jì)的有效性在于內(nèi)部的全注意力機(jī)制,它在所有地圖標(biāo)記之間建立了密集的連接。這種全局感受野使后端能夠校正累積的偏差,并在重建的場(chǎng)景中強(qiáng)制執(zhí)行結(jié)構(gòu)一致性。

緩存共享。為了繼承后端優(yōu)化帶來的好處,前端會(huì)復(fù)用來自后端的共享鍵值緩存 

圖片

通過這種方式,后續(xù)幀會(huì)根據(jù)優(yōu)化后的全局結(jié)構(gòu)進(jìn)行跟蹤和映射,從而降低長(zhǎng)序列中誤差累積的風(fēng)險(xiǎn)。

D. 訓(xùn)練策略

訓(xùn)練策略旨在使單個(gè)Transformer能夠同時(shí)處理前端和后端的SLAM功能。我們對(duì)SLAM進(jìn)行聯(lián)合訓(xùn)練,在單次迭代中跨越三種模式,每種模式對(duì)應(yīng)不同的輸入輸出關(guān)系。

圖片

圖 3.SLAM-Former 的三種訓(xùn)練模式。分別代表一幀圖像的圖像塊標(biāo)記和地圖標(biāo)記。在每種模式下,要么輸入標(biāo)記,要么輸入 標(biāo)記,或者同時(shí)輸入兩者。輸入到包含 層幀注意力和各種幀間注意力的變壓器骨干網(wǎng)絡(luò) 中。最后,通過頭部 回歸姿態(tài)和點(diǎn)圖。

訓(xùn)練前端。前端使用因果注意力掩碼進(jìn)行訓(xùn)練。在推理時(shí),它會(huì)復(fù)用先前幀的KV緩存,從而實(shí)現(xiàn)高效、端到端的單次學(xué)習(xí)。

然而,純因果注意力機(jī)制本質(zhì)上將第一幀指定為參考幀。當(dāng)對(duì)兩個(gè)或多個(gè)幀進(jìn)行聯(lián)合操作時(shí),我們采用沒有單個(gè)幀定義坐標(biāo)的設(shè)計(jì),從而消除了對(duì)固定參考視圖的依賴。因此,我們對(duì)前兩幀應(yīng)用全注意力機(jī)制,而對(duì)所有后續(xù)幀仍使用因果注意力機(jī)制。通過這種設(shè)計(jì),在推理過程中,關(guān)鍵幀檢測(cè)是通過將最后一個(gè)關(guān)鍵幀和傳入幀一起處理進(jìn)行的。對(duì)于跟蹤和映射,前兩個(gè)關(guān)鍵幀被聯(lián)合處理以確定全局坐標(biāo)。

通過前后端協(xié)作訓(xùn)練前端。為了連接前后端操作,我們訓(xùn)練模型采用混合注意力機(jī)制,以同時(shí)處理后端和緩存共享功能。具體而言,后端使用全注意力機(jī)制細(xì)化地圖標(biāo)記,而前端在與后端相同的前向傳播中處理新圖像,使用因果注意力,這等同于基于后端優(yōu)化的KV緩存進(jìn)行條件處理。

訓(xùn)練后端 。后端對(duì)來自不同運(yùn)行或KV緩存狀態(tài)的地圖標(biāo)記進(jìn)行優(yōu)化。在此模式下始終應(yīng)用全注意力機(jī)制,使模型能夠解決漂移問題并確保全局一致性。

聯(lián)合訓(xùn)練。在所有模式下,生成的標(biāo)記都隱式地表示幾何形狀和相機(jī)姿態(tài)。特定任務(wù)的頭部預(yù)測(cè)點(diǎn)圖、置信度和相機(jī)姿態(tài)。

圖片

與預(yù)測(cè)全局幾何結(jié)構(gòu)的 VGGT 不同,SLAM-Former 為每一幀生成局部點(diǎn)圖,從而避免了定義特定世界坐標(biāo)系的需求。整體損失結(jié)合了深度、點(diǎn)圖和相機(jī)監(jiān)督:

圖片

對(duì)于深度損失,預(yù)測(cè)深度與真實(shí)深度進(jìn)行監(jiān)督,權(quán)重為置信度,其中表示逐元素乘法,表示空間梯度,為尺度因子。

對(duì)于點(diǎn)圖損失,類似于深度損失,但定義在與第一幀對(duì)齊的變換局部點(diǎn)圖上:,損失設(shè)計(jì)為 

對(duì)于相機(jī)損失,相對(duì)位姿一致性通過縮放的 Huber 損失進(jìn)行監(jiān)督:,其中  表示縮放平移, 表示 Huber 范數(shù)。

這三種模式在單次迭代中按順序執(zhí)行,且共享權(quán)重。最終的訓(xùn)練目標(biāo)為上述損失的加權(quán)組合。

圖片

E. 執(zhí)行管道

執(zhí)行流水線將前端和后端集成起來以執(zhí)行在線SLAM推理。

前端處理。每個(gè)傳入的幀首先傳遞給關(guān)鍵幀檢測(cè)器。如果被識(shí)別為關(guān)鍵幀,則會(huì)進(jìn)行進(jìn)一步處理。前兩個(gè)關(guān)鍵幀會(huì)聯(lián)合處理以進(jìn)行初始化,生成地圖標(biāo)記和KV緩存,并將其存儲(chǔ)。對(duì)于第個(gè)關(guān)鍵幀(),前端利用緩存的標(biāo)記生成及其緩存,并將其添加到存儲(chǔ)中。

后端優(yōu)化。每經(jīng)過個(gè)關(guān)鍵幀后,后端就會(huì)被觸發(fā)。累積的地圖標(biāo)記會(huì)被優(yōu)化,生成的鍵值緩存用于更新前T個(gè)前端緩存。


Ⅳ 實(shí)驗(yàn)


我們?cè)诙鄠€(gè)任務(wù)上對(duì)SLAM-Former進(jìn)行評(píng)估,包括相機(jī)跟蹤和密集三維重建。隨后,我們分析了前端-后端設(shè)計(jì)的影響,并評(píng)估了時(shí)間效率。

A. 實(shí)驗(yàn)設(shè)置

實(shí)現(xiàn)細(xì)節(jié):SLAM-Former總共有36層同時(shí)具備幀注意力和全局注意力的Transformer層。我們使用Pi3預(yù)訓(xùn)練權(quán)重初始化SLAM-Former,并以32為批次大小訓(xùn)練10個(gè)周期(不包括凍結(jié)的圖像編碼器和相機(jī)頭)。在訓(xùn)練過程中,我們采用AdamW優(yōu)化器,學(xué)習(xí)率為1e-5,并使用余弦學(xué)習(xí)率調(diào)度器。在損失函數(shù)中,超參數(shù)設(shè)置為。關(guān)于數(shù)據(jù)集:SLAM-Former在ARKitScenes、ScanNet、ScanNet++、HyperSim、Blended-MVS、MegaDepth和MVS-Synth上進(jìn)行訓(xùn)練。在每次迭代中,單個(gè)SLAM-Former的所有三種模式都會(huì)被訓(xùn)練。整個(gè)訓(xùn)練過程在11小時(shí)內(nèi)完成。

基線。我們?cè)趯?shí)驗(yàn)中使用的基線分為校準(zhǔn)基線和未校準(zhǔn)基線:已校準(zhǔn)方法包括ORB-SLAM3、DeepV2D、DeepFactors、DPV-SLAM、DPV-SLAM++、GO-SLAM、DROID-SLAM、MASt3R-SLAM以及NICER-SLAM。未校準(zhǔn)方法包括DROID-SLAM和MASt3R-SLAM、VGGT-SLAM、SLAM3R以及我們的方法SLAM-Former。此外,我們還使用我們的關(guān)鍵幀對(duì)相關(guān)方法CUT3R和StreamVGGT進(jìn)行了測(cè)試。

B. 3D 跟蹤評(píng)估

我們首先在TUM RGB-D、7-Scenes和Replica數(shù)據(jù)集上評(píng)估SLAM-Former的跟蹤性能。我們計(jì)算了在已校準(zhǔn)和未校準(zhǔn)兩種設(shè)置下各種方法的絕對(duì)軌跡誤差的均方根誤差。

在TUM RGB-D數(shù)據(jù)集的測(cè)試中,評(píng)估是在廣泛使用的場(chǎng)景子集上進(jìn)行的。結(jié)果總結(jié)在表1中。如圖所示,在未校準(zhǔn)設(shè)置下,我們的模型始終優(yōu)于大多數(shù)基線模型。在涉及顯著相機(jī)旋轉(zhuǎn)和可能閉環(huán)的房間和地板等更復(fù)雜的序列中表現(xiàn)出色,表明我們的后端全局優(yōu)化在減輕累積漂移方面特別有效。更重要的是,與校準(zhǔn)基線相比,它顯著降低了誤差,達(dá)到了極具競(jìng)爭(zhēng)力的水平。

表1.TUM RGB-D數(shù)據(jù)集上絕對(duì)軌跡誤差的均方根誤差(單位:米)。*符號(hào)表示基線是在未校準(zhǔn)模式下從VGGT-SLAM論文中評(píng)估得出的,+符號(hào)表示基線是在我們的機(jī)器上測(cè)試得出的。

圖片

與TUM RGB-D軌跡的評(píng)估方式類似,我們?cè)诒?中展示了對(duì)7-Scenes數(shù)據(jù)集的評(píng)估結(jié)果。在未校準(zhǔn)和校準(zhǔn)兩種設(shè)置下,我們的方法均優(yōu)于大多數(shù)基線方法。在辦公室、南瓜和廚房等更復(fù)雜的場(chǎng)景中,我們的模型與其余方法相比性能差距更為顯著??傮w而言,我們的方法優(yōu)于所有基線方法。

表2.7-Scenes數(shù)據(jù)集上絕對(duì)軌跡誤差的均方根誤差(單位:米)。*符號(hào)表示基線是在未校準(zhǔn)模式下從VGGT-SLAM論文中評(píng)估的,+符號(hào)表示基線是在我們的機(jī)器上測(cè)試的。

圖片

在Replica數(shù)據(jù)集上的軌跡評(píng)估。之前的跟蹤實(shí)驗(yàn)是使用真實(shí)捕獲的數(shù)據(jù)進(jìn)行的,而Replica數(shù)據(jù)集是合成的。在未校準(zhǔn)的情況下,我們的方法取得了顯著的改進(jìn),與SLAM3R相比平均軌跡誤差降低了約50%,并且優(yōu)于所有基線,如表3所示。然而,我們的方法與NICER-SLAM處于同一水平,但仍落后于傳統(tǒng)的SLAM方法DROID-SLAM。這是因?yàn)楹铣蓴?shù)據(jù)缺乏噪聲和模糊,使得匹配足夠準(zhǔn)確,足以在光束平差中求解位姿。相比之下,在之前的實(shí)際數(shù)據(jù)測(cè)試中,DROID-SLAM的表現(xiàn)與我們的方法相當(dāng)。

表3.Replica上的絕對(duì)軌跡誤差的均方根誤差(單位:米)。加號(hào)表示基線是在我們的機(jī)器上測(cè)試的。

圖片

C. 重建評(píng)估

我們?cè)?-Scenes數(shù)據(jù)集上按照VGGT-SLAM的協(xié)議評(píng)估了SLAM-Former的重建性能,并在Replica數(shù)據(jù)集上按照相應(yīng)協(xié)議進(jìn)行了評(píng)估。

在7-Scenes數(shù)據(jù)集上的密集重建結(jié)果如表5所示。與其他最先進(jìn)的密集SLAM方法相比,我們的方法展現(xiàn)出顯著優(yōu)勢(shì)。在重建質(zhì)量方面,我們的方法實(shí)現(xiàn)了0.017米的最高重建精度,而其他方法均在0.05米以上。在完整性和切比雪夫距離方面,我們的方法分別實(shí)現(xiàn)了0.037米和0.027米,仍比所有基線方法高出約50%。

表5.7-Scenes上的重建評(píng)估(單位:米)。表示每幅圖像選取一個(gè)關(guān)鍵幀。

圖片

在我們的重建演示圖4中,這種在所有主要重建指標(biāo)上始終表現(xiàn)出色的情況也得到了體現(xiàn)。如圖中前兩行所示,基線方法在紅色窗口區(qū)域內(nèi)的幀之間存在表面不匹配的情況。相比之下,我們的SLAM-Former重建始終呈現(xiàn)出連貫且準(zhǔn)確的結(jié)構(gòu)。

圖片

圖4.定性重建對(duì)比。請(qǐng)注意基線方法存在明顯的結(jié)構(gòu)錯(cuò)誤,例如錯(cuò)位,而這些錯(cuò)誤通過SLAM-Former的全局一致性優(yōu)化得到了修正。

在Replica數(shù)據(jù)集上的密集重建結(jié)果列于表4中。我們的方法在所有基準(zhǔn)測(cè)試中均在準(zhǔn)確性和完整性方面表現(xiàn)最佳。具體而言,我們的2.09/1.56的準(zhǔn)確度/完整性分別比第二好的結(jié)果至少高出1厘米。

表4.Replica數(shù)據(jù)集上的重建結(jié)果。星號(hào)表示NICER-SLAM報(bào)告的結(jié)果。短橫線顯示的是SLAM3R的結(jié)果。加號(hào)代表我們運(yùn)行的結(jié)果。

圖片

我們還在圖4的第三行展示了重建效果。在這里,StreamVGGT展示了房間內(nèi)的多層表面,如紅色窗口區(qū)域所突出顯示的那樣。更嚴(yán)重的是,VGGT-SLAM展示的層存在明顯的尺度差異。而SLAM-Former則與真實(shí)情況高度吻合。由于測(cè)試時(shí)對(duì)點(diǎn)云的采樣數(shù)量是固定的,基線方法生成的點(diǎn)云密度較低,這是由于層的不匹配造成的。

D. 前端與后端協(xié)作

為了探究SLAM-Former后端設(shè)計(jì)如何對(duì)整體系統(tǒng)性能做出貢獻(xiàn),我們進(jìn)行了一系列消融實(shí)驗(yàn)。結(jié)果總結(jié)在表6中。這里,F(xiàn)、MB和EB分別表示我們架構(gòu)的前端、中間后端和末端后端組件。所有評(píng)估均在TUM RGB-D基準(zhǔn)上進(jìn)行,使用絕對(duì)軌跡誤差的均方根誤差作為度量標(biāo)準(zhǔn)。

表6.在TUM RGB-D數(shù)據(jù)集上通過絕對(duì)軌跡誤差的均方根誤差評(píng)估模塊協(xié)作情況。

圖片

結(jié)果表明,加入后端模塊相較于僅使用前端,準(zhǔn)確率顯著提高,這證實(shí)了我們所提出的前端與后端相結(jié)合設(shè)計(jì)的有效性。

后端如何協(xié)助前端

盡管MB和EB的個(gè)體貢獻(xiàn)在平均處理效應(yīng)方面看似相當(dāng),且兩者聯(lián)合使用在整體指標(biāo)上并未顯示出顯著提升,但需要強(qiáng)調(diào)的是,MB所發(fā)揮的作用遠(yuǎn)不止體現(xiàn)在最終的平均處理效應(yīng)上。我們?cè)谝恍?shù)據(jù)集中最具挑戰(zhàn)性的序列上展示了中間結(jié)果,包括Replica room1、ICLNUIM-ofkt1和TUM room,所有這些序列如圖5所示為室內(nèi)環(huán)境的內(nèi)向外捕捉。最初,前端單獨(dú)處理的結(jié)果誤差相對(duì)較小,如紅色窗口所示。然而,隨著時(shí)間的推移,前端單獨(dú)處理的重建結(jié)果變得嚴(yán)重失真。這種失真出現(xiàn)的原因在于前端單獨(dú)處理會(huì)隨著時(shí)間的推移累積誤差,從而在后期導(dǎo)致較大的不準(zhǔn)確。相比之下,我們的模型結(jié)合了后端處理,在整個(gè)過程中保持了一致性,有效地緩解了這些問題。

圖片

圖5.有無后端輔助的定性重建對(duì)比。第一行顯示了相應(yīng)時(shí)間戳下僅前端的結(jié)果,而第二行則展示了有后端KV緩存輔助的結(jié)果。

后端如何從前端獲益

上述測(cè)試表明,前端能夠得益于后端的支持,從而實(shí)現(xiàn)性能的長(zhǎng)期穩(wěn)定。然而,后端如何從前端獲益?這是否等同于僅僅將所有關(guān)鍵幀圖像通過一次VGGT或Pi3處理?

為回答這個(gè)問題,我們使用ICL-NUIM場(chǎng)景中的ofkt0序列進(jìn)行演示。如圖6所示,左邊的兩張圖展示了在將所有關(guān)鍵幀圖像作為輸入且不使用任何序列信息時(shí)VGGT和Pi3的結(jié)果。右邊的圖則是我們的結(jié)果。很明顯,在沒有我們前端提供的序列信息的情況下,VGGT和Pi3生成的重建結(jié)果雜亂無章。相比之下,我們的后端利用前端提供的隱含順序?qū)崿F(xiàn)了更連貫、更準(zhǔn)確的重建。

圖片

圖6 在ICL-NUIM數(shù)據(jù)集上對(duì)kt1進(jìn)行的定性重建對(duì)比。從左至右依次展示了VGGT、Pi3和我們方法的結(jié)果。VGGT和Pi3均存在姿態(tài)漂移問題,導(dǎo)致幾何不準(zhǔn)確,而我們的方法則表現(xiàn)出一致且準(zhǔn)確的重建效果。

E. 執(zhí)行速度

我們還記錄了該方法的時(shí)間成本,如表7所示。我們展示了在不同數(shù)據(jù)集上模塊的執(zhí)行時(shí)間。關(guān)鍵幀檢測(cè)和前端平均運(yùn)行時(shí)間不到100毫秒,而后端雖然較慢,但執(zhí)行頻率較低。整體速度大于10Hz,這表明我們的方法能夠?qū)崟r(shí)運(yùn)行。

表7.數(shù)據(jù)集上的時(shí)間成本。TPE表示每次執(zhí)行的時(shí)間,F(xiàn)PS表示每秒幀數(shù)。

圖片



Ⅴ 結(jié)論

在這項(xiàng)工作中,我們引入了SLAM-Former,將完整的SLAM功能集成到一個(gè)單一的Transformer中。通過交替進(jìn)行增量前端處理和全局后端處理,SLAM-Former使前端和后端能夠相互協(xié)作、相互增強(qiáng),從而實(shí)現(xiàn)了整體性能的提升。結(jié)果表明,SLAM-Former在跟蹤和重建方面均顯著優(yōu)于傳統(tǒng)的基于幾何基礎(chǔ)的SLAM方法。此外,在使用真實(shí)世界數(shù)據(jù)進(jìn)行測(cè)試時(shí),它在跟蹤性能方面達(dá)到了高度競(jìng)爭(zhēng)水平,在重建方面則遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法。

SLAM-Former仍存在一些局限性。首先,我們?cè)诤蠖耸褂昧巳⒁饬C(jī)制來替代傳統(tǒng)SLAM中的回環(huán)檢測(cè)與優(yōu)化。然而,全注意力機(jī)制由于O(n2)的時(shí)間復(fù)雜度而帶來了一些問題。我們認(rèn)為,這一問題在未來的工作中可以通過SLAM的方法或通過Transformer技術(shù)如稀疏注意力和標(biāo)記合并來解決。其次,SLAM-Former不支持本地前端模式;在推理過程中,所有先前的鍵值緩存都應(yīng)輸入到模型中。


參考文獻(xiàn)


圖片圖片圖片圖片圖片圖片


圖片

責(zé)編丨高炳釗

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25