日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

一文讀懂自動駕駛世界模型

2024-10-23 11:04:54·  來源:汽車未來科技Lab  
 
(2)ADriver-I

DriveDreamer [64] 同樣專注于駕駛場景生成,但與GAIA-1不同的是,它是在nuScenes數(shù)據(jù)集 [92] 上進行訓(xùn)練的。它的模型輸入包含了更多元素,如高清地圖和三維框,這使得對駕駛場景生成具有更精確的控制和更深的理解,從而提高了視頻生成的質(zhì)量。此外,DriveDreamer還可以生成未來的駕駛動作及其對應(yīng)的預(yù)測場景,有助于決策制定。

ADriver-I采用當前視頻幀和歷史視覺-動作對作為多模態(tài)大型語言模型 (MLLM) [93] [94] 和視頻隱變量擴散模型 (VDM) [95] 的輸入。MLLM以自回歸的方式輸出控制信號,這些信號作為VDM預(yù)測后續(xù)視頻輸出的提示。通過連續(xù)的預(yù)測循環(huán),ADriver-I實現(xiàn)了在預(yù)測世界中的無限駕駛。在ADriver-I中,世界模型與MLLM的結(jié)合顯著提高了預(yù)測和決策的可解釋性,并且也表明了將世界模型作為基礎(chǔ)模型與其他模型相結(jié)合的可行性。

受到大型語言模型成功的啟發(fā),WorldDreamer [79] 將世界建模視為一項無監(jiān)督視覺序列建模挑戰(zhàn)。它利用空間時間注意轉(zhuǎn)換器 (STPT) 來集中注意力于時空窗口內(nèi)的局部區(qū)域。這種集中注意力的方式促進了視覺信號的動態(tài)學(xué)習(xí)并加速了訓(xùn)練過程的收斂。盡管WorldDreamer是一個通用的視頻生成模型,但它在生成自動駕駛視頻方面表現(xiàn)出了卓越的性能。

除了視覺信息之外,駕駛場景還包括大量重要的物理數(shù)據(jù)。MUVO [76] 利用世界模型框架來預(yù)測和生成駕駛場景,并將激光雷達點云和視覺輸入相結(jié)合來預(yù)測未來的視頻、點云和三維占用網(wǎng)格。這種綜合的方法顯著提升了預(yù)測質(zhì)量和生成結(jié)果。特別是,三維占用網(wǎng)格的結(jié)果可以直接應(yīng)用于下游任務(wù)。更進一步,OccWorld [78] 和Think2Drive [83] 直接利用三維占用信息作為系統(tǒng)輸入來預(yù)測周圍環(huán)境的變化并規(guī)劃自動駕駛車輛的動作。很明顯,隨著研究的進展,自動駕駛領(lǐng)域中用于場景生成的世界模型研究正逐漸向多模態(tài)方法發(fā)展。世界模型已經(jīng)展現(xiàn)出了處理多模態(tài)信息的強大能力。

圖片

6. 世界模型在強化學(xué)習(xí)中的應(yīng)用與進展

這一章節(jié)主要介紹了強化學(xué)習(xí)中的世界模型(World Models)及其應(yīng)用。世界模型是一種基于神經(jīng)網(wǎng)絡(luò)的模型,可以將環(huán)境的狀態(tài)、動作和獎勵之間的關(guān)系建模,并用于控制智能體的行為。世界模型的應(yīng)用包括自主駕駛、游戲AI等領(lǐng)域。

在該章節(jié)中,作者列舉了多個使用世界模型進行強化學(xué)習(xí)的研究案例,如“Mastering Atari with Discrete World Models”、“Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving”等。這些研究都取得了很好的效果,證明了世界模型在強化學(xué)習(xí)中的重要性。還介紹了一些世界模型的具體實現(xiàn)方法,如“Dyna”、“Reinforcement Learning with Continuous State and Action Spaces Using a Convolutional World Model”等。這些方法都是基于深度學(xué)習(xí)技術(shù)的,通過不斷優(yōu)化模型參數(shù)來提高模型的性能??傊澜缒P褪菑娀瘜W(xué)習(xí)領(lǐng)域的一個重要分支,其應(yīng)用前景廣闊,未來還有很大的發(fā)展空間。

為了應(yīng)對這一挑戰(zhàn),提出了多種策略,從通過引入溫度變量來增加不確定性[31],到采用結(jié)構(gòu)化的框架,如循環(huán)狀態(tài)空間模型 (RSSM) ,和聯(lián)合嵌入預(yù)測架構(gòu) (JEPA) 。這些方法力求在預(yù)測的精確性和靈活性之間找到最佳平衡。此外,利用Top-k采樣并從基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的模型轉(zhuǎn)向變換器架構(gòu),如變換器狀態(tài)空間模型 (TSSM) 或空間時間塊狀變換器 (STPT),已經(jīng)在通過更好地逼近現(xiàn)實世界的復(fù)雜性和不確定性來提高模型性能方面顯示出潛力。這些解決方案力求使世界模型的輸出更加接近現(xiàn)實世界可能的發(fā)展情況。這種一致性至關(guān)重要,因為與游戲環(huán)境相比,現(xiàn)實世界有著更廣泛的影響因素和對未來結(jié)果更大的隨機性。過度依賴最高概率的預(yù)測可能會導(dǎo)致長期預(yù)測中的重復(fù)循環(huán)。相反,預(yù)測中過度的隨機性可能導(dǎo)致與現(xiàn)實嚴重偏離的荒謬未來。

特別是在世界模型研究中最常使用的兩種核心結(jié)構(gòu)是RSSM和JEPA

循環(huán)狀態(tài)空間模型 (RSSM) 是Dreamer系列世界模型中的核心模型之一,旨在實現(xiàn)在潛在空間中的純前向預(yù)測。這種創(chuàng)新結(jié)構(gòu)使模型能夠在潛在狀態(tài)空間中進行預(yù)測,其中過渡模型中的隨機路徑和確定性路徑都發(fā)揮著關(guān)鍵作用,從而成功地進行規(guī)劃。

下圖展示了跨越三個時間步驟的潛在動力學(xué)模型的示意圖。這些模型最初觀測兩個時間步驟,然后預(yù)測第三個。在這里,隨機變量(圓形)和確定性變量(方形)在模型架構(gòu)內(nèi)部相互作用——實線表示生成過程,而虛線則代表推斷路徑。圖3a中的初始確定性推斷方法揭示了其局限性,由于其固定性質(zhì),無法捕獲多樣化的潛在未來。相反,圖3b中的完全隨機方法在時間步驟間的信息保留方面存在問題,因為其本質(zhì)上具有不確定性。

圖片

RSSM的創(chuàng)新之處在于它在圖3c中戰(zhàn)略性地將狀態(tài)分解為隨機和確定性成分,有效地利用了確定性元素的預(yù)測穩(wěn)定性以及隨機元素的適應(yīng)潛力。這種混合結(jié)構(gòu)保證了強大的學(xué)習(xí)和預(yù)測能力,既適應(yīng)了現(xiàn)實世界的不可預(yù)測性,又保持了信息的連續(xù)性。通過結(jié)合RNN的優(yōu)勢與狀態(tài)空間模型 (SSM) [54] 的靈活性,RSSM為世界模型建立了一個全面的框架,增強了它們在保持精確性和適應(yīng)性的同時預(yù)測未來狀態(tài)的能力。

圖片

7. 自動駕駛技術(shù)的發(fā)展與挑戰(zhàn)

這一章節(jié)主要介紹了自動駕駛領(lǐng)域的研究進展和應(yīng)用現(xiàn)狀。其中提到了許多與自動駕駛相關(guān)的技術(shù)和算法,如3D場景理解、世界模型等,并列舉了一些相關(guān)論文的摘要。此外,還討論了自動駕駛技術(shù)在智能交通系統(tǒng)中的作用以及面臨的挑戰(zhàn)和問題,例如數(shù)據(jù)隱私保護、道德倫理等方面的問題。最后,文章提出了一些未來的研究方向和發(fā)展趨勢,包括跨模態(tài)感知、多任務(wù)學(xué)習(xí)等。

圖片

(1) 駕駛場景生成

在自動駕駛領(lǐng)域的數(shù)據(jù)獲取面臨著諸多挑戰(zhàn),包括與數(shù)據(jù)收集和標注相關(guān)的高昂成本、法律限制以及安全考量。世界模型通過自我監(jiān)督學(xué)習(xí)范式提供了一種有前景的解決方案,它能夠從大量的未標記數(shù)據(jù)中提取有價值的見解,從而以成本效益高的方式增強模型性能。世界模型在駕駛場景生成中的應(yīng)用尤其值得注意,因為它促進了多樣化且真實的駕駛環(huán)境的創(chuàng)建。這種能力顯著豐富了訓(xùn)練數(shù)據(jù)集,使自動駕駛系統(tǒng)具備了應(yīng)對罕見和復(fù)雜駕駛情景的穩(wěn)健性 。

GAIA-1 代表了一種新穎的自主生成式人工智能模型,能夠利用視頻、文本和動作輸入來創(chuàng)建逼真的駕駛視頻。通過Wayve在英國城市廣泛的真實世界駕駛數(shù)據(jù)進行訓(xùn)練,GAIA-1學(xué)會了理解一些現(xiàn)實世界的規(guī)則和駕駛情景中的關(guān)鍵概念,包括不同類型的車輛、行人、建筑物和基礎(chǔ)設(shè)施。它可以根據(jù)幾秒鐘的視頻輸入預(yù)測并生成后續(xù)的駕駛情景。值得注意的是,生成的未來駕駛情景并不緊密地依賴于提示視頻,而是基于GAIA-1對世界規(guī)則的理解。GAIA-1的核心采用了自回歸變換網(wǎng)絡(luò),根據(jù)輸入的圖像、文本和動作令牌預(yù)測即將出現(xiàn)的圖像令牌,然后將這些預(yù)測解碼回像素空間。

GAIA-1可以預(yù)測多個潛在的未來,并根據(jù)提示(例如改變天氣、場景、交通參與者、車輛動作)生成多樣化的視頻或特定的駕駛情景,甚至包括超出其訓(xùn)練集的動作和場景(例如強行駛?cè)肴诵械溃?。這展示了它理解并推斷不在其訓(xùn)練集中的駕駛概念的能力,同時也證明了它的反事實推理能力。在現(xiàn)實世界中,由于風險性,很難獲取這類駕駛行為的數(shù)據(jù)。駕駛場景生成允許進行模擬測試,豐富數(shù)據(jù)組成,增強系統(tǒng)在復(fù)雜情景下的能力,并更好地評估現(xiàn)有的駕駛模型。

此外,GAIA-1能夠生成連貫的動作,并有效地捕捉三維幾何結(jié)構(gòu)的視角影響,展現(xiàn)了其對上下文信息和物理規(guī)則的理解。結(jié)合其展示出的反事實推理能力,可以說GAIA-1在自動駕駛的世界模型方面達到了很高的成就水平,無論是在抽象概念的理解還是因果推理方面。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25