日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

多模態(tài)導(dǎo)航中的LLaMA Token化器與時(shí)間一致性優(yōu)化

2023-12-14 17:18:11·  來(lái)源:汽車(chē)測(cè)試網(wǎng)  
 

在自動(dòng)駕駛技術(shù)的迅猛發(fā)展中,多模態(tài)導(dǎo)航系統(tǒng)扮演著至關(guān)重要的角色。為了實(shí)現(xiàn)對(duì)導(dǎo)航指令的高效處理和提高模型的時(shí)間一致性,LLaMA Token化器被引入并進(jìn)行了優(yōu)化。本文將深入探討LLaMA Token化器的原理、其在多模態(tài)導(dǎo)航中的應(yīng)用以及通過(guò)時(shí)間一致性優(yōu)化所取得的成果。


隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展,多模態(tài)導(dǎo)航系統(tǒng)成為研究的熱點(diǎn)之一。導(dǎo)航指令的準(zhǔn)確處理對(duì)于實(shí)現(xiàn)安全、高效的自動(dòng)駕駛至關(guān)重要。為了達(dá)到這一目標(biāo),研究者們引入了LLaMA Token化器,該技術(shù)通過(guò)將導(dǎo)航指令轉(zhuǎn)換為文本tokens,為模型提供了更有效的輸入。然而,由于執(zhí)行一條指令的時(shí)間跨度較大,為了提高模型的時(shí)間一致性,本文在LLaMA Token化器的基礎(chǔ)上進(jìn)行了進(jìn)一步的優(yōu)化。


LLaMA Token化器原理


LLaMA Token化器的核心在于利用預(yù)訓(xùn)練的視覺(jué)編碼器生成多種視覺(jué)tokens,包括H×W BEV tokens、N個(gè)航路點(diǎn) tokens以及一個(gè)紅綠燈 token。然而,隨著指令執(zhí)行時(shí)間的延長(zhǎng),視覺(jué)tokens的數(shù)量快速增長(zhǎng),導(dǎo)致了計(jì)算和存儲(chǔ)的壓力。為了應(yīng)對(duì)這一問(wèn)題,本文采用了BLIP-2的方法,引入了Q-Former來(lái)減少視覺(jué)tokens的數(shù)量。每幀通過(guò)M個(gè)可學(xué)習(xí)查詢進(jìn)行交叉注意,將每幀的視覺(jué)tokens數(shù)量減少到M,為后續(xù)處理提供了更為高效的輸入。


Q-Former的應(yīng)用


Q-Former在本文中的應(yīng)用是關(guān)鍵一步,通過(guò)降低視覺(jué)tokens的數(shù)量,為模型提供更為輕量級(jí)的輸入。每幀通過(guò)M個(gè)可學(xué)習(xí)查詢進(jìn)行處理,這不僅有效地減少了計(jì)算負(fù)擔(dān),還在一定程度上保持了關(guān)鍵信息的完整性。為了更好地適配語(yǔ)言 tokens,通過(guò)2層MLP適配器對(duì)Q-Former提取的tokens進(jìn)行維度轉(zhuǎn)換,使其與語(yǔ)言 tokens 共享相同的維度。這一步驟為多模態(tài)信息的融合奠定了基礎(chǔ)。


時(shí)間一致性優(yōu)化


在自動(dòng)駕駛的閉環(huán)設(shè)置中,時(shí)間一致性對(duì)于模型的穩(wěn)定性和準(zhǔn)確性至關(guān)重要。為了提高模型的時(shí)間一致性,本文利用所有歷史傳感器信息來(lái)降低累積誤差。具體而言,每幀都利用多視圖多模態(tài)傳感器輸入,結(jié)合歷史信息進(jìn)行處理。這種方式不僅有助于提高模型對(duì)于長(zhǎng)時(shí)間指令的準(zhǔn)確性,還在一定程度上緩解了由于指令執(zhí)行時(shí)間跨度較大而導(dǎo)致的累積誤差。


LLaMA Token化器與時(shí)間一致性優(yōu)化為多模態(tài)導(dǎo)航系統(tǒng)的發(fā)展帶來(lái)了重要的突破。通過(guò)減少視覺(jué)tokens的數(shù)量和優(yōu)化時(shí)間一致性,模型在長(zhǎng)時(shí)間指令的執(zhí)行中表現(xiàn)更為出色。未來(lái)的研究方向可以進(jìn)一步探索如何通過(guò)引入更先進(jìn)的視覺(jué)編碼器和查詢機(jī)制,進(jìn)一步提升多模態(tài)導(dǎo)航系統(tǒng)的性能。這一系列創(chuàng)新將為自動(dòng)駕駛技術(shù)的推進(jìn)提供有力支持。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0
滬ICP備11026917號(hào)-25