Waymo端到端自動駕駛：OpenEMMA

2024-12-30 10:38:27· 來源：汽車未來科技Lab

多模態(tài)大語言模型（MLLMs）自問世以來，在眾多實際應用領域產(chǎn)生了重大影響，尤其是在自動駕駛（AD）方面。這些模型能夠處理復雜的視覺數(shù)據(jù)，并對細致的駕駛場景進行推理，為端到端的自動駕駛系統(tǒng)開創(chuàng)了新的范式。然而，由于現(xiàn)有的微調(diào)方法需要大量的資源——包括強大的計算能力、大規(guī)模的數(shù)據(jù)集和大量的資金——開發(fā)端到端的自動駕駛模型進展較為緩慢。

受到最近在推理計算方面進展的啟發(fā)，Texas A&M University等團隊提出了OpenEMMA，這是一個基于MLLMs的開源端到端框架。通過引入鏈式思維（Chain-of-Thought）推理過程，OpenEMMA在利用多種不同的MLLMs時，相較于基準模型實現(xiàn)了顯著的改進。此外，OpenEMMA在各種具有挑戰(zhàn)性的駕駛場景中展示了其有效性、泛化能力和魯棒性，為自動駕駛提供了一種更高效且有效的方法。

為了應對類似EMMA這樣的閉源模型的局限性，我們引入了OpenEMMA——一個開源的端到端自動駕駛（AD）框架。該框架旨在使用公開可用的工具和模型來復制EMMA的核心功能，從而實現(xiàn)這些先進技術的民主化，為更廣泛的研究和發(fā)展提供平臺。

與EMMA相似，OpenEMMA以面向前方的攝像頭圖像和文本形式的歷史自車狀態(tài)作為輸入。駕駛?cè)蝿毡粯?gòu)架為視覺問答（VQA）問題，通過鏈式思維（Chain-of-Thought）推理引導模型生成關于關鍵物體的詳細描述、行為洞察以及元駕駛決策。這些決策由模型直接推斷得出，為路徑點生成提供了必要的背景信息。

針對多模態(tài)大語言模型（MLLMs）在目標檢測任務上的已知局限性，OpenEMMA集成了一個特別優(yōu)化用于3D邊界框預測的微調(diào)版YOLO，顯著提高了檢測精度。此外，利用MLLMs預先存在的世界知識，OpenEMMA能夠為諸如場景理解等感知任務產(chǎn)生可解釋的、人類可讀的輸出，從而增強了透明度和易用性。

整個處理流程和支持的任務如圖1所示。通過這種方式，OpenEMMA不僅提升了自動駕駛系統(tǒng)的性能，還促進了社區(qū)內(nèi)的協(xié)作和創(chuàng)新。

團隊開發(fā)了OpenEMMA，這是一個基于預訓練的多模態(tài)大語言模型（MLLMs）L的計算高效的端到端自動駕駛（AD）系統(tǒng)。如圖1所示，OpenEMMA通過將歷史駕駛狀態(tài)T和視覺駕駛場景I作為輸入，來預測未來的行駛軌跡P，并同時檢測交通參與者。

具體來說，OpenEMMA利用了預訓練的MLLMs的強大能力，這些模型已經(jīng)學習了大量的世界知識和模式識別技能。在給定當前車輛周圍的視覺信息（例如，來自攝像頭的圖像）和過去一段時間內(nèi)的駕駛狀態(tài)（例如，速度、方向、位置等）后，OpenEMMA能夠：

1. 預測未來軌跡：根據(jù)過去的駕駛行為和當前的視覺場景，預測車輛接下來可能的行駛路徑。

2. 檢測交通參與者：識別并分類道路上的其他對象，如行人、自行車、其他車輛等，這對于確保安全駕駛至關重要。

3. 做出決策：使用鏈式思維（Chain-of-Thought）推理過程，對復雜的駕駛情況進行分析，從而為車輛提供必要的操作指導，比如加速、減速或轉(zhuǎn)向。

OpenEMMA的設計旨在提高自動駕駛系統(tǒng)的效率和性能，同時保持較低的計算資源需求，使其更易于部署和廣泛應用。此外，作為一個開源項目，它促進了社區(qū)內(nèi)的協(xié)作和創(chuàng)新，推動了自動駕駛技術的進步。

利用預訓練的多模態(tài)大語言模型（MLLMs）的強大能力，我們將鏈式思維（Chain-of-Thought）推理過程整合到端到端的軌跡規(guī)劃過程中，采用與基于指令的方法。由于MLLMs是用人類可解釋的知識進行訓練的，我們促使這些模型生成同樣具有人類可解釋性的知識。

不同于以往直接在局部坐標中生成軌跡的預測方法，我們生成了兩個中間表示：速度向量和曲率向量。其中：

速度向量表示車輛速度的大小，反映了駕駛者應踩油門的程度。

曲率向量表示車輛的轉(zhuǎn)向率，對應于駕駛者轉(zhuǎn)動方向盤的角度。

這種設計旨在反映人類駕駛行為的本質(zhì)：速度決定了油門的力度，而曲率則決定了方向盤的轉(zhuǎn)動程度。通過這種方式，OpenEMMA不僅能夠提供更貼近人類駕駛習慣的決策，還能確保其輸出易于理解和解釋，從而提高了系統(tǒng)的透明度和可信度。此外，這種方法有助于增強自動駕駛系統(tǒng)的安全性和可靠性，因為它使系統(tǒng)的行為更加直觀，便于人類駕駛員理解和信任。具體公式如下圖所示：

這種方法通過將軌跡生成任務分解為人類可解釋的組件，提供了一個穩(wěn)健且易于理解的規(guī)劃路徑，模擬了駕駛過程。具體分為以下幾個階段：

階段1：推理

在第一階段，我們利用駕駛場景的前置攝像頭圖像以及自車過去5秒的歷史數(shù)據(jù)（包括速度和曲率）作為輸入到預訓練的多模態(tài)大語言模型（MLLMs）。隨后，我們設計特定任務的提示來引導MLLMs對當前自車駕駛場景進行全面推理，具體來說，推理過程涵蓋以下三個方面：

1. 意圖指令 (Intent Command)

明確表達自車基于當前場景的預期動作，例如：

繼續(xù)沿車道行駛、左轉(zhuǎn)、右轉(zhuǎn)或直行。

是否應保持當前速度、減速或加速。

這些意圖指令為后續(xù)軌跡規(guī)劃提供了清晰的方向，并確保了駕駛決策的一致性和安全性。

2. 場景描述 (Scene Description)

簡潔描述當前駕駛場景，根據(jù)交通信號燈狀態(tài)、其他車輛或行人的動態(tài)以及車道標記進行說明。例如：

“前方紅燈亮起，左右兩側(cè)無車輛，行人正在通過右側(cè)人行橫道?！?/span>

“前方綠燈通行，左側(cè)車輛準備并入本車道?！?/span>

這有助于系統(tǒng)全面理解當前環(huán)境，為準確的駕駛決策提供依據(jù)。

3. 主要對象 (Major Objects)

識別道路使用者，即自車駕駛員應注意的對象，明確他們在駕駛場景圖像中的位置。對于每個道路使用者，提供簡短描述其當前行為，并解釋其存在對自車決策過程的重要性。例如：

行人：“位于右側(cè)人行橫道上，正向左穿越馬路。重要性：需要減速以確保行人安全通過。”

車輛：左側(cè)一輛轎車正在加速準備并入本車道。重要性：需注意避讓，可能需要調(diào)整速度或車道。”

通過這種方式，OpenEMMA不僅能夠生成詳細的駕駛意圖和場景描述，還能識別關鍵的道路使用者及其行為，從而為自動駕駛系統(tǒng)提供更加精準和安全的決策支持。這種方法模仿了人類駕駛員的思考過程，提高了系統(tǒng)的透明度和可解釋性，增強了其應對復雜駕駛情境的能力。

階段2：預測

通過結(jié)合鏈式思維（Chain-of-Thought）推理過程和自車的歷史狀態(tài)，促使多模態(tài)大語言模型（MLLMs）生成未來 T 秒內(nèi)的速度 S和曲率 C（共 2T 個軌跡點），這些預測隨后被整合以計算最終的軌跡 T。

2.2 視覺專家增強的目標檢測

在自動駕駛（AD）中，一個關鍵任務是檢測道路上物體的3D邊界框。我們發(fā)現(xiàn)，現(xiàn)成的預訓練多模態(tài)大語言模型（MLLMs）由于空間推理能力的限制，難以提供高質(zhì)量的檢測結(jié)果。為了克服這一挑戰(zhàn)，在不額外微調(diào)MLLM的情況下實現(xiàn)高精度的檢測，我們將一個外部的視覺專業(yè)模型集成到OpenEMMA中，有效解決了檢測任務。

我們的OpenEMMA專注于使用前置攝像頭進行目標檢測，并處理單幀數(shù)據(jù)，而不是連續(xù)幀序列。這將任務置于單目相機基于的3D目標檢測范圍內(nèi)。該領域的研究一般分為兩類：深度輔助方法[27–29]和僅圖像方法[30–33]。深度輔助方法通過預測深度信息來輔助檢測，而僅圖像方法則完全依賴RGB數(shù)據(jù)進行直接預測。在這些方法中，我們選擇了YOLO3D[30]，因為它結(jié)合了可靠的準確性、高質(zhì)量的開源實現(xiàn)以及輕量級架構(gòu)，使得高效微調(diào)和實際集成成為可能。

YOLO3D 方法概述

YOLO3D 是一種兩階段的3D目標檢測方法，它強制執(zhí)行2D-3D邊界框一致性約束。具體來說，它假設每個3D邊界框緊密包含在其對應的2D邊界框內(nèi)。該方法首先預測2D邊界框，然后估計每個檢測到物體的3D尺寸和局部方向。3D邊界框的七個參數(shù)——中心位置、尺寸和偏航角 ——根據(jù)2D邊界框和3D估計聯(lián)合計算得出。

這種方法不僅提高了目標檢測的準確性和魯棒性，還確保了系統(tǒng)能夠快速適應新的駕駛環(huán)境，從而增強了OpenEMMA的整體性能和可靠性。

在本文中，我們提出了OpenEMMA——一個基于多模態(tài)大語言模型（MLLMs）構(gòu)建的開源、計算高效的端到端自動駕駛框架。通過利用自車的歷史數(shù)據(jù)和前置攝像頭捕捉的圖像，OpenEMMA采用鏈式思維（Chain-of-Thought）推理過程來預測自車未來的速度和曲率，并將這些預測整合到軌跡規(guī)劃過程中。

此外，通過集成一個微調(diào)后的外部視覺專業(yè)模型，OpenEMMA實現(xiàn)了對道路上3D物體的精確檢測。該框架不僅展示了相對于零樣本基線模型的顯著改進，還證明了其在各種具有挑戰(zhàn)性的駕駛場景中的有效性、泛化能力和魯棒性。OpenEMMA的關鍵特點包括：

高效推理：結(jié)合歷史駕駛數(shù)據(jù)和實時視覺輸入，使用鏈式思維推理生成未來行駛參數(shù)。

精準檢測：通過集成專門優(yōu)化的視覺模型，提高了3D物體檢測的精度。

性能提升：相較于零樣本基線模型，OpenEMMA在多個關鍵指標上表現(xiàn)出顯著進步。

廣泛應用：適用于多種復雜駕駛環(huán)境，展現(xiàn)了強大的適應性和可靠性。

總之，OpenEMMA為自動駕駛技術提供了一種創(chuàng)新且高效的方法，推動了該領域的進一步發(fā)展。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：端到端自動駕駛算法相關的開源數(shù)據(jù)集
上一篇：CO2法規(guī)：歐盟2025-2026年的乘用車CO2排放目標值為負斜率曲線

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關閱讀

0 條相關評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋
• 大推力直驅(qū)技術助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運	• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

Waymo端到端自動駕駛：OpenEMMA

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工