日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

Waymo端到端自動駕駛:OpenEMMA

2024-12-30 10:38:27·  來源:汽車未來科技Lab  
 

多模態(tài)大語言模型(MLLMs)自問世以來,在眾多實際應用領域產(chǎn)生了重大影響,尤其是在自動駕駛(AD)方面。這些模型能夠處理復雜的視覺數(shù)據(jù),并對細致的駕駛場景進行推理,為端到端的自動駕駛系統(tǒng)開創(chuàng)了新的范式。然而,由于現(xiàn)有的微調(diào)方法需要大量的資源——包括強大的計算能力、大規(guī)模的數(shù)據(jù)集和大量的資金——開發(fā)端到端的自動駕駛模型進展較為緩慢。

受到最近在推理計算方面進展的啟發(fā),Texas A&M University等團隊提出了OpenEMMA,這是一個基于MLLMs的開源端到端框架。通過引入鏈式思維(Chain-of-Thought)推理過程,OpenEMMA在利用多種不同的MLLMs時,相較于基準模型實現(xiàn)了顯著的改進。此外,OpenEMMA在各種具有挑戰(zhàn)性的駕駛場景中展示了其有效性、泛化能力和魯棒性,為自動駕駛提供了一種更高效且有效的方法。

為了應對類似EMMA這樣的閉源模型的局限性,我們引入了OpenEMMA——一個開源的端到端自動駕駛(AD)框架。該框架旨在使用公開可用的工具和模型來復制EMMA的核心功能,從而實現(xiàn)這些先進技術的民主化,為更廣泛的研究和發(fā)展提供平臺。

與EMMA相似,OpenEMMA以面向前方的攝像頭圖像和文本形式的歷史自車狀態(tài)作為輸入。駕駛?cè)蝿毡粯?gòu)架為視覺問答(VQA)問題,通過鏈式思維(Chain-of-Thought)推理引導模型生成關于關鍵物體的詳細描述、行為洞察以及元駕駛決策。這些決策由模型直接推斷得出,為路徑點生成提供了必要的背景信息。

針對多模態(tài)大語言模型(MLLMs)在目標檢測任務上的已知局限性,OpenEMMA集成了一個特別優(yōu)化用于3D邊界框預測的微調(diào)版YOLO,顯著提高了檢測精度。此外,利用MLLMs預先存在的世界知識,OpenEMMA能夠為諸如場景理解等感知任務產(chǎn)生可解釋的、人類可讀的輸出,從而增強了透明度和易用性。

整個處理流程和支持的任務如圖1所示。通過這種方式,OpenEMMA不僅提升了自動駕駛系統(tǒng)的性能,還促進了社區(qū)內(nèi)的協(xié)作和創(chuàng)新。

圖片

團隊開發(fā)了OpenEMMA,這是一個基于預訓練的多模態(tài)大語言模型(MLLMs)L的計算高效的端到端自動駕駛(AD)系統(tǒng)。如圖1所示,OpenEMMA通過將歷史駕駛狀態(tài)T和視覺駕駛場景I作為輸入,來預測未來的行駛軌跡P,并同時檢測交通參與者。

具體來說,OpenEMMA利用了預訓練的MLLMs的強大能力,這些模型已經(jīng)學習了大量的世界知識和模式識別技能。在給定當前車輛周圍的視覺信息(例如,來自攝像頭的圖像)和過去一段時間內(nèi)的駕駛狀態(tài)(例如,速度、方向、位置等)后,OpenEMMA能夠:

1. 預測未來軌跡:根據(jù)過去的駕駛行為和當前的視覺場景,預測車輛接下來可能的行駛路徑。

2. 檢測交通參與者:識別并分類道路上的其他對象,如行人、自行車、其他車輛等,這對于確保安全駕駛至關重要。

3. 做出決策:使用鏈式思維(Chain-of-Thought)推理過程,對復雜的駕駛情況進行分析,從而為車輛提供必要的操作指導,比如加速、減速或轉(zhuǎn)向。

OpenEMMA的設計旨在提高自動駕駛系統(tǒng)的效率和性能,同時保持較低的計算資源需求,使其更易于部署和廣泛應用。此外,作為一個開源項目,它促進了社區(qū)內(nèi)的協(xié)作和創(chuàng)新,推動了自動駕駛技術的進步。

利用預訓練的多模態(tài)大語言模型(MLLMs)的強大能力,我們將鏈式思維(Chain-of-Thought)推理過程整合到端到端的軌跡規(guī)劃過程中,采用與基于指令的方法。由于MLLMs是用人類可解釋的知識進行訓練的,我們促使這些模型生成同樣具有人類可解釋性的知識。

不同于以往直接在局部坐標中生成軌跡的預測方法,我們生成了兩個中間表示:速度向量和曲率向量。其中:

速度向量表示車輛速度的大小,反映了駕駛者應踩油門的程度。

曲率向量表示車輛的轉(zhuǎn)向率,對應于駕駛者轉(zhuǎn)動方向盤的角度。

這種設計旨在反映人類駕駛行為的本質(zhì):速度決定了油門的力度,而曲率則決定了方向盤的轉(zhuǎn)動程度。通過這種方式,OpenEMMA不僅能夠提供更貼近人類駕駛習慣的決策,還能確保其輸出易于理解和解釋,從而提高了系統(tǒng)的透明度和可信度。此外,這種方法有助于增強自動駕駛系統(tǒng)的安全性和可靠性,因為它使系統(tǒng)的行為更加直觀,便于人類駕駛員理解和信任。具體公式如下圖所示:

圖片

這種方法通過將軌跡生成任務分解為人類可解釋的組件,提供了一個穩(wěn)健且易于理解的規(guī)劃路徑,模擬了駕駛過程。具體分為以下幾個階段:

階段1:推理

在第一階段,我們利用駕駛場景的前置攝像頭圖像以及自車過去5秒的歷史數(shù)據(jù)(包括速度和曲率)作為輸入到預訓練的多模態(tài)大語言模型(MLLMs)。隨后,我們設計特定任務的提示來引導MLLMs對當前自車駕駛場景進行全面推理,具體來說,推理過程涵蓋以下三個方面:

 1. 意圖指令 (Intent Command)

明確表達 自車基于當前場景的預期動作,例如:

繼續(xù)沿車道行駛、左轉(zhuǎn)、右轉(zhuǎn)或直行。

是否應保持當前速度、減速或加速。

這些意圖指令為后續(xù)軌跡規(guī)劃提供了清晰的方向,并確保了駕駛決策的一致性和安全性。

 2. 場景描述 (Scene Description)

簡潔描述當前駕駛場景,根據(jù)交通信號燈狀態(tài)、其他車輛或行人的動態(tài)以及車道標記進行說明。例如:

“前方紅燈亮起,左右兩側(cè)無車輛,行人正在通過右側(cè)人行橫道?!?/span>

 “前方綠燈通行,左側(cè)車輛準備并入本車道?!?/span>

這有助于系統(tǒng)全面理解當前環(huán)境,為準確的駕駛決策提供依據(jù)。

 3. 主要對象 (Major Objects)

識別道路使用者,即自車駕駛員應注意的對象,明確他們在駕駛場景圖像中的位置。對于每個道路使用者,提供簡短描述其當前行為,并解釋其存在對自車決策過程的重要性。例如:

行人:“位于右側(cè)人行橫道上,正向左穿越馬路。重要性:需要減速以確保行人安全通過。”

車輛:左側(cè)一輛轎車正在加速準備并入本車道。重要性:需注意避讓,可能需要調(diào)整速度或車道。”

通過這種方式,OpenEMMA不僅能夠生成詳細的駕駛意圖和場景描述,還能識別關鍵的道路使用者及其行為,從而為自動駕駛系統(tǒng)提供更加精準和安全的決策支持。這種方法模仿了人類駕駛員的思考過程,提高了系統(tǒng)的透明度和可解釋性,增強了其應對復雜駕駛情境的能力。

階段2:預測

通過結(jié)合鏈式思維(Chain-of-Thought)推理過程和自車的歷史狀態(tài),促使多模態(tài)大語言模型(MLLMs)生成未來 T 秒內(nèi)的速度 S和曲率 C(共 2T 個軌跡點),這些預測隨后被整合以計算最終的軌跡 T。

2.2 視覺專家增強的目標檢測

在自動駕駛(AD)中,一個關鍵任務是檢測道路上物體的3D邊界框。我們發(fā)現(xiàn),現(xiàn)成的預訓練多模態(tài)大語言模型(MLLMs)由于空間推理能力的限制,難以提供高質(zhì)量的檢測結(jié)果。為了克服這一挑戰(zhàn),在不額外微調(diào)MLLM的情況下實現(xiàn)高精度的檢測,我們將一個外部的視覺專業(yè)模型集成到OpenEMMA中,有效解決了檢測任務。

我們的OpenEMMA專注于使用前置攝像頭進行目標檢測,并處理單幀數(shù)據(jù),而不是連續(xù)幀序列。這將任務置于單目相機基于的3D目標檢測范圍內(nèi)。該領域的研究一般分為兩類:深度輔助方法[27–29]和僅圖像方法[30–33]。深度輔助方法通過預測深度信息來輔助檢測,而僅圖像方法則完全依賴RGB數(shù)據(jù)進行直接預測。在這些方法中,我們選擇了YOLO3D[30],因為它結(jié)合了可靠的準確性、高質(zhì)量的開源實現(xiàn)以及輕量級架構(gòu),使得高效微調(diào)和實際集成成為可能。

YOLO3D 方法概述

YOLO3D 是一種兩階段的3D目標檢測方法,它強制執(zhí)行2D-3D邊界框一致性約束。具體來說,它假設每個3D邊界框緊密包含在其對應的2D邊界框內(nèi)。該方法首先預測2D邊界框,然后估計每個檢測到物體的3D尺寸和局部方向。3D邊界框的七個參數(shù)——中心位置、尺寸和偏航角 ——根據(jù)2D邊界框和3D估計聯(lián)合計算得出。

這種方法不僅提高了目標檢測的準確性和魯棒性,還確保了系統(tǒng)能夠快速適應新的駕駛環(huán)境,從而增強了OpenEMMA的整體性能和可靠性。

圖片

圖片

在本文中,我們提出了OpenEMMA——一個基于多模態(tài)大語言模型(MLLMs)構(gòu)建的開源、計算高效的端到端自動駕駛框架。通過利用自車的歷史數(shù)據(jù)和前置攝像頭捕捉的圖像,OpenEMMA采用鏈式思維(Chain-of-Thought)推理過程來預測自車未來的速度和曲率,并將這些預測整合到軌跡規(guī)劃過程中。

此外,通過集成一個微調(diào)后的外部視覺專業(yè)模型,OpenEMMA實現(xiàn)了對道路上3D物體的精確檢測。該框架不僅展示了相對于零樣本基線模型的顯著改進,還證明了其在各種具有挑戰(zhàn)性的駕駛場景中的有效性、泛化能力和魯棒性。OpenEMMA的關鍵特點包括:

高效推理:結(jié)合歷史駕駛數(shù)據(jù)和實時視覺輸入,使用鏈式思維推理生成未來行駛參數(shù)。

精準檢測:通過集成專門優(yōu)化的視覺模型,提高了3D物體檢測的精度。

性能提升:相較于零樣本基線模型,OpenEMMA在多個關鍵指標上表現(xiàn)出顯著進步。

廣泛應用:適用于多種復雜駕駛環(huán)境,展現(xiàn)了強大的適應性和可靠性。

總之,OpenEMMA為自動駕駛技術提供了一種創(chuàng)新且高效的方法,推動了該領域的進一步發(fā)展。 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25