一文讀懂自動駕駛世界模型

2024-10-23 11:04:54· 來源：汽車未來科技Lab

（2）ADriver-I

DriveDreamer [64] 同樣專注于駕駛場景生成，但與GAIA-1不同的是，它是在nuScenes數(shù)據(jù)集 [92] 上進行訓(xùn)練的。它的模型輸入包含了更多元素，如高清地圖和三維框，這使得對駕駛場景生成具有更精確的控制和更深的理解，從而提高了視頻生成的質(zhì)量。此外，DriveDreamer還可以生成未來的駕駛動作及其對應(yīng)的預(yù)測場景，有助于決策制定。

ADriver-I采用當前視頻幀和歷史視覺-動作對作為多模態(tài)大型語言模型 (MLLM) [93] [94] 和視頻隱變量擴散模型 (VDM) [95] 的輸入。MLLM以自回歸的方式輸出控制信號，這些信號作為VDM預(yù)測后續(xù)視頻輸出的提示。通過連續(xù)的預(yù)測循環(huán)，ADriver-I實現(xiàn)了在預(yù)測世界中的無限駕駛。在ADriver-I中，世界模型與MLLM的結(jié)合顯著提高了預(yù)測和決策的可解釋性，并且也表明了將世界模型作為基礎(chǔ)模型與其他模型相結(jié)合的可行性。

受到大型語言模型成功的啟發(fā)，WorldDreamer [79] 將世界建模視為一項無監(jiān)督視覺序列建模挑戰(zhàn)。它利用空間時間注意轉(zhuǎn)換器 (STPT) 來集中注意力于時空窗口內(nèi)的局部區(qū)域。這種集中注意力的方式促進了視覺信號的動態(tài)學(xué)習(xí)并加速了訓(xùn)練過程的收斂。盡管WorldDreamer是一個通用的視頻生成模型，但它在生成自動駕駛視頻方面表現(xiàn)出了卓越的性能。

除了視覺信息之外，駕駛場景還包括大量重要的物理數(shù)據(jù)。MUVO [76] 利用世界模型框架來預(yù)測和生成駕駛場景，并將激光雷達點云和視覺輸入相結(jié)合來預(yù)測未來的視頻、點云和三維占用網(wǎng)格。這種綜合的方法顯著提升了預(yù)測質(zhì)量和生成結(jié)果。特別是，三維占用網(wǎng)格的結(jié)果可以直接應(yīng)用于下游任務(wù)。更進一步，OccWorld [78] 和Think2Drive [83] 直接利用三維占用信息作為系統(tǒng)輸入來預(yù)測周圍環(huán)境的變化并規(guī)劃自動駕駛車輛的動作。很明顯，隨著研究的進展，自動駕駛領(lǐng)域中用于場景生成的世界模型研究正逐漸向多模態(tài)方法發(fā)展。世界模型已經(jīng)展現(xiàn)出了處理多模態(tài)信息的強大能力。

6. 世界模型在強化學(xué)習(xí)中的應(yīng)用與進展

這一章節(jié)主要介紹了強化學(xué)習(xí)中的世界模型（World Models）及其應(yīng)用。世界模型是一種基于神經(jīng)網(wǎng)絡(luò)的模型，可以將環(huán)境的狀態(tài)、動作和獎勵之間的關(guān)系建模，并用于控制智能體的行為。世界模型的應(yīng)用包括自主駕駛、游戲AI等領(lǐng)域。

在該章節(jié)中，作者列舉了多個使用世界模型進行強化學(xué)習(xí)的研究案例，如“Mastering Atari with Discrete World Models”、“Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving”等。這些研究都取得了很好的效果，證明了世界模型在強化學(xué)習(xí)中的重要性。還介紹了一些世界模型的具體實現(xiàn)方法，如“Dyna”、“Reinforcement Learning with Continuous State and Action Spaces Using a Convolutional World Model”等。這些方法都是基于深度學(xué)習(xí)技術(shù)的，通過不斷優(yōu)化模型參數(shù)來提高模型的性能?？傊澜缒Ｐ褪菑娀瘜W(xué)習(xí)領(lǐng)域的一個重要分支，其應(yīng)用前景廣闊，未來還有很大的發(fā)展空間。

為了應(yīng)對這一挑戰(zhàn)，提出了多種策略，從通過引入溫度變量來增加不確定性[31]，到采用結(jié)構(gòu)化的框架，如循環(huán)狀態(tài)空間模型 (RSSM) ，和聯(lián)合嵌入預(yù)測架構(gòu) (JEPA) 。這些方法力求在預(yù)測的精確性和靈活性之間找到最佳平衡。此外，利用Top-k采樣并從基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的模型轉(zhuǎn)向變換器架構(gòu)，如變換器狀態(tài)空間模型 (TSSM) 或空間時間塊狀變換器 (STPT)，已經(jīng)在通過更好地逼近現(xiàn)實世界的復(fù)雜性和不確定性來提高模型性能方面顯示出潛力。這些解決方案力求使世界模型的輸出更加接近現(xiàn)實世界可能的發(fā)展情況。這種一致性至關(guān)重要，因為與游戲環(huán)境相比，現(xiàn)實世界有著更廣泛的影響因素和對未來結(jié)果更大的隨機性。過度依賴最高概率的預(yù)測可能會導(dǎo)致長期預(yù)測中的重復(fù)循環(huán)。相反，預(yù)測中過度的隨機性可能導(dǎo)致與現(xiàn)實嚴重偏離的荒謬未來。

特別是在世界模型研究中最常使用的兩種核心結(jié)構(gòu)是RSSM和JEPA：

循環(huán)狀態(tài)空間模型 (RSSM) 是Dreamer系列世界模型中的核心模型之一，旨在實現(xiàn)在潛在空間中的純前向預(yù)測。這種創(chuàng)新結(jié)構(gòu)使模型能夠在潛在狀態(tài)空間中進行預(yù)測，其中過渡模型中的隨機路徑和確定性路徑都發(fā)揮著關(guān)鍵作用，從而成功地進行規(guī)劃。

下圖展示了跨越三個時間步驟的潛在動力學(xué)模型的示意圖。這些模型最初觀測兩個時間步驟，然后預(yù)測第三個。在這里，隨機變量（圓形）和確定性變量（方形）在模型架構(gòu)內(nèi)部相互作用——實線表示生成過程，而虛線則代表推斷路徑。圖3a中的初始確定性推斷方法揭示了其局限性，由于其固定性質(zhì)，無法捕獲多樣化的潛在未來。相反，圖3b中的完全隨機方法在時間步驟間的信息保留方面存在問題，因為其本質(zhì)上具有不確定性。

RSSM的創(chuàng)新之處在于它在圖3c中戰(zhàn)略性地將狀態(tài)分解為隨機和確定性成分，有效地利用了確定性元素的預(yù)測穩(wěn)定性以及隨機元素的適應(yīng)潛力。這種混合結(jié)構(gòu)保證了強大的學(xué)習(xí)和預(yù)測能力，既適應(yīng)了現(xiàn)實世界的不可預(yù)測性，又保持了信息的連續(xù)性。通過結(jié)合RNN的優(yōu)勢與狀態(tài)空間模型 (SSM) [54] 的靈活性，RSSM為世界模型建立了一個全面的框架，增強了它們在保持精確性和適應(yīng)性的同時預(yù)測未來狀態(tài)的能力。

7. 自動駕駛技術(shù)的發(fā)展與挑戰(zhàn)

這一章節(jié)主要介紹了自動駕駛領(lǐng)域的研究進展和應(yīng)用現(xiàn)狀。其中提到了許多與自動駕駛相關(guān)的技術(shù)和算法，如3D場景理解、世界模型等，并列舉了一些相關(guān)論文的摘要。此外，還討論了自動駕駛技術(shù)在智能交通系統(tǒng)中的作用以及面臨的挑戰(zhàn)和問題，例如數(shù)據(jù)隱私保護、道德倫理等方面的問題。最后，文章提出了一些未來的研究方向和發(fā)展趨勢，包括跨模態(tài)感知、多任務(wù)學(xué)習(xí)等。

（1）駕駛場景生成

在自動駕駛領(lǐng)域的數(shù)據(jù)獲取面臨著諸多挑戰(zhàn)，包括與數(shù)據(jù)收集和標注相關(guān)的高昂成本、法律限制以及安全考量。世界模型通過自我監(jiān)督學(xué)習(xí)范式提供了一種有前景的解決方案，它能夠從大量的未標記數(shù)據(jù)中提取有價值的見解，從而以成本效益高的方式增強模型性能。世界模型在駕駛場景生成中的應(yīng)用尤其值得注意，因為它促進了多樣化且真實的駕駛環(huán)境的創(chuàng)建。這種能力顯著豐富了訓(xùn)練數(shù)據(jù)集，使自動駕駛系統(tǒng)具備了應(yīng)對罕見和復(fù)雜駕駛情景的穩(wěn)健性。

GAIA-1 代表了一種新穎的自主生成式人工智能模型，能夠利用視頻、文本和動作輸入來創(chuàng)建逼真的駕駛視頻。通過Wayve在英國城市廣泛的真實世界駕駛數(shù)據(jù)進行訓(xùn)練，GAIA-1學(xué)會了理解一些現(xiàn)實世界的規(guī)則和駕駛情景中的關(guān)鍵概念，包括不同類型的車輛、行人、建筑物和基礎(chǔ)設(shè)施。它可以根據(jù)幾秒鐘的視頻輸入預(yù)測并生成后續(xù)的駕駛情景。值得注意的是，生成的未來駕駛情景并不緊密地依賴于提示視頻，而是基于GAIA-1對世界規(guī)則的理解。GAIA-1的核心采用了自回歸變換網(wǎng)絡(luò)，根據(jù)輸入的圖像、文本和動作令牌預(yù)測即將出現(xiàn)的圖像令牌，然后將這些預(yù)測解碼回像素空間。

GAIA-1可以預(yù)測多個潛在的未來，并根據(jù)提示（例如改變天氣、場景、交通參與者、車輛動作）生成多樣化的視頻或特定的駕駛情景，甚至包括超出其訓(xùn)練集的動作和場景（例如強行駛?cè)肴诵械溃?。這展示了它理解并推斷不在其訓(xùn)練集中的駕駛概念的能力，同時也證明了它的反事實推理能力。在現(xiàn)實世界中，由于風險性，很難獲取這類駕駛行為的數(shù)據(jù)。駕駛場景生成允許進行模擬測試，豐富數(shù)據(jù)組成，增強系統(tǒng)在復(fù)雜情景下的能力，并更好地評估現(xiàn)有的駕駛模型。

此外，GAIA-1能夠生成連貫的動作，并有效地捕捉三維幾何結(jié)構(gòu)的視角影響，展現(xiàn)了其對上下文信息和物理規(guī)則的理解。結(jié)合其展示出的反事實推理能力，可以說GAIA-1在自動駕駛的世界模型方面達到了很高的成就水平，無論是在抽象概念的理解還是因果推理方面。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：梅賽德斯-奔馳開設(shè)新的電池回收廠，回收“96%”的電池材料
上一篇：蔚來與Monolith合作：基于人工智能的電動車電池異常檢測

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一文讀懂自動駕駛世界模型

微信公眾號

（1）駕駛場景生成

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一文讀懂自動駕駛世界模型

微信公眾號

（1） 駕駛場景生成

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標”轉(zhuǎn)

（1）駕駛場景生成

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將