多模態(tài)導(dǎo)航中的LLaMA Token化器與時(shí)間一致性優(yōu)化

2023-12-14 17:18:11· 來(lái)源：汽車(chē)測(cè)試網(wǎng)

在自動(dòng)駕駛技術(shù)的迅猛發(fā)展中，多模態(tài)導(dǎo)航系統(tǒng)扮演著至關(guān)重要的角色。為了實(shí)現(xiàn)對(duì)導(dǎo)航指令的高效處理和提高模型的時(shí)間一致性，LLaMA Token化器被引入并進(jìn)行了優(yōu)化。本文將深入探討LLaMA Token化器的原理、其在多模態(tài)導(dǎo)航中的應(yīng)用以及通過(guò)時(shí)間一致性優(yōu)化所取得的成果。

隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展，多模態(tài)導(dǎo)航系統(tǒng)成為研究的熱點(diǎn)之一。導(dǎo)航指令的準(zhǔn)確處理對(duì)于實(shí)現(xiàn)安全、高效的自動(dòng)駕駛至關(guān)重要。為了達(dá)到這一目標(biāo)，研究者們引入了LLaMA Token化器，該技術(shù)通過(guò)將導(dǎo)航指令轉(zhuǎn)換為文本tokens，為模型提供了更有效的輸入。然而，由于執(zhí)行一條指令的時(shí)間跨度較大，為了提高模型的時(shí)間一致性，本文在LLaMA Token化器的基礎(chǔ)上進(jìn)行了進(jìn)一步的優(yōu)化。

LLaMA Token化器原理

LLaMA Token化器的核心在于利用預(yù)訓(xùn)練的視覺(jué)編碼器生成多種視覺(jué)tokens，包括H×W BEV tokens、N個(gè)航路點(diǎn) tokens以及一個(gè)紅綠燈 token。然而，隨著指令執(zhí)行時(shí)間的延長(zhǎng)，視覺(jué)tokens的數(shù)量快速增長(zhǎng)，導(dǎo)致了計(jì)算和存儲(chǔ)的壓力。為了應(yīng)對(duì)這一問(wèn)題，本文采用了BLIP-2的方法，引入了Q-Former來(lái)減少視覺(jué)tokens的數(shù)量。每幀通過(guò)M個(gè)可學(xué)習(xí)查詢進(jìn)行交叉注意，將每幀的視覺(jué)tokens數(shù)量減少到M，為后續(xù)處理提供了更為高效的輸入。

Q-Former的應(yīng)用

Q-Former在本文中的應(yīng)用是關(guān)鍵一步，通過(guò)降低視覺(jué)tokens的數(shù)量，為模型提供更為輕量級(jí)的輸入。每幀通過(guò)M個(gè)可學(xué)習(xí)查詢進(jìn)行處理，這不僅有效地減少了計(jì)算負(fù)擔(dān)，還在一定程度上保持了關(guān)鍵信息的完整性。為了更好地適配語(yǔ)言 tokens，通過(guò)2層MLP適配器對(duì)Q-Former提取的tokens進(jìn)行維度轉(zhuǎn)換，使其與語(yǔ)言 tokens 共享相同的維度。這一步驟為多模態(tài)信息的融合奠定了基礎(chǔ)。

時(shí)間一致性優(yōu)化

在自動(dòng)駕駛的閉環(huán)設(shè)置中，時(shí)間一致性對(duì)于模型的穩(wěn)定性和準(zhǔn)確性至關(guān)重要。為了提高模型的時(shí)間一致性，本文利用所有歷史傳感器信息來(lái)降低累積誤差。具體而言，每幀都利用多視圖多模態(tài)傳感器輸入，結(jié)合歷史信息進(jìn)行處理。這種方式不僅有助于提高模型對(duì)于長(zhǎng)時(shí)間指令的準(zhǔn)確性，還在一定程度上緩解了由于指令執(zhí)行時(shí)間跨度較大而導(dǎo)致的累積誤差。

LLaMA Token化器與時(shí)間一致性優(yōu)化為多模態(tài)導(dǎo)航系統(tǒng)的發(fā)展帶來(lái)了重要的突破。通過(guò)減少視覺(jué)tokens的數(shù)量和優(yōu)化時(shí)間一致性，模型在長(zhǎng)時(shí)間指令的執(zhí)行中表現(xiàn)更為出色。未來(lái)的研究方向可以進(jìn)一步探索如何通過(guò)引入更先進(jìn)的視覺(jué)編碼器和查詢機(jī)制，進(jìn)一步提升多模態(tài)導(dǎo)航系統(tǒng)的性能。這一系列創(chuàng)新將為自動(dòng)駕駛技術(shù)的推進(jìn)提供有力支持。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：LMDrive：基于LLM的自動(dòng)駕駛系統(tǒng)的訓(xùn)練與微調(diào)
上一篇：基于Transformer的BEV解碼器在自動(dòng)駕駛中的應(yīng)用

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

• 基于AUTOSAR架構(gòu)的車(chē)規(guī)MCU軟件開(kāi)發(fā)探討	• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的LIN物理層、數(shù)據(jù)鏈路層、網(wǎng)
• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的CAN物理層、數(shù)據(jù)鏈路層、交	• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的刷寫(xiě)、路由及網(wǎng)絡(luò)配置測(cè)試
• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的UDPNM測(cè)試	• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的DoIP測(cè)試方法詳解
• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的SOME/IP協(xié)議測(cè)試	• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的AVB/TSN協(xié)議一致性測(cè)試
• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的TCP/IP協(xié)議一致性測(cè)試	• 新能源汽車(chē)中基于車(chē)載以太網(wǎng)的交換機(jī)功能和性能測(cè)試

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

多模態(tài)導(dǎo)航中的LLaMA Token化器與時(shí)間一致性優(yōu)化

微信公眾號(hào)

編輯推薦

最新資訊

新能源汽車(chē)鋰離子電池的熱失控防護(hù)措施及材

新能源汽車(chē)三電系統(tǒng)產(chǎn)品開(kāi)發(fā)中的虛實(shí)結(jié)合試

汽車(chē)底盤(pán)產(chǎn)品系統(tǒng)開(kāi)發(fā)與驗(yàn)證的虛實(shí)結(jié)合試驗(yàn)

汽車(chē)?yán)梅抡婕夹g(shù)輔助的多合一電驅(qū)系統(tǒng)的臺(tái)

汽車(chē)多合一電驅(qū)系統(tǒng)載荷的失效關(guān)聯(lián)測(cè)試