Embodied-R：一種通過強(qiáng)化學(xué)習(xí)激活基礎(chǔ)模型具身空間推理能力的協(xié)同框架

2025-05-20 17:30:41· 來源：同濟(jì)智能汽車研究所

編者按：該論文提出了首個基于連續(xù)視覺感知的具身空間推理框架Embodied-R，旨在賦予預(yù)訓(xùn)練模型具身空間推理能力。論文通過強(qiáng)化學(xué)習(xí)和大小模型協(xié)同，將訓(xùn)練推理范式拓寬至具身智能領(lǐng)域，其中大規(guī)模視覺語言模型用于感知任務(wù)，配合小規(guī)模語言模型進(jìn)行高層次推理，從而高效地實(shí)現(xiàn)復(fù)雜的空間理解。論文設(shè)計(jì)了一種全新的獎勵機(jī)制，強(qiáng)調(diào)“思考-回答”的邏輯一致性，并基于強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，使模型能夠在計(jì)算資源有限的情況下展現(xiàn)出“慢思考”能力。實(shí)驗(yàn)表明，Embodied-R在多個空間推理任務(wù)中達(dá)到了與OpenAI-o1、Gemini 2.5-pro等主流多模態(tài)模型相媲美的表現(xiàn)。

本文譯自：

《Neural network vehicle models for high-performance automated driving》

文章來源：

arxiv preprint

作者：

Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanghang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu

作者單位：

清華大學(xué)

原文鏈接：

https://arxiv.org/abs/2504.12680

摘要：人類可以通過連續(xù)的視覺觀察（如第一視角的視頻流）來感知和推理空間關(guān)系。然而，預(yù)訓(xùn)練模型如何獲得這類能力仍不清楚，尤其是高層次的推理能力。本文提出Embodied-R，一個結(jié)合了大規(guī)模視覺-語言模型（VLMs）用于感知和小規(guī)模語言模型（LMs）用于推理的協(xié)同框架。該框架采用強(qiáng)化學(xué)習(xí)（RL）進(jìn)行訓(xùn)練，引入一種新的獎勵機(jī)制，并考慮“思考-回答”的邏輯一致性，使模型在計(jì)算資源有限的情況下具備慢思考能力。在僅使用5000條具身視頻樣本進(jìn)行訓(xùn)練后，具有30億參數(shù)語言模型的Embodied-R在分布內(nèi)和分布外的具身空間推理任務(wù)上，都達(dá)到了與最先進(jìn)的多模態(tài)推理模型（OpenAI-o1，Gemini-2.5-pro）相當(dāng)?shù)谋憩F(xiàn)。Embodied-R 還展現(xiàn)出了系統(tǒng)性分析和上下文整合等新興的思維模式。我們進(jìn)一步探討了一系列研究問題，包括：回答長度、VLM訓(xùn)練、獎勵設(shè)計(jì)策略，以及在有監(jiān)督微調(diào)（SFT）與強(qiáng)化學(xué)習(xí)訓(xùn)練后模型泛化能力的差異。

圖1. 具身空間推理：任務(wù)和思維過程。確定了來自公共嵌入式視頻數(shù)據(jù)集的具有挑戰(zhàn)性的任務(wù)，包括室內(nèi)和室外場景。我們引入慢思維來提高推理性能

1 引言

在通往通用人工智能 (Artificial General Intelligence, AGI）的道路上[17]，我們希望預(yù)訓(xùn)練的基礎(chǔ)模型不僅可以在網(wǎng)絡(luò)世界中執(zhí)行對話和圖像理解等任務(wù)[2,44]，而且還在三維物理世界中發(fā)展出類似人類的具身空間認(rèn)知，使他們能夠感知、思考和移動[4,32]。人類實(shí)現(xiàn)空間認(rèn)知的基本方式是通過連續(xù)、動態(tài)的視覺觀察，類似于視頻流 [26,30]。例如，通過觀察周圍環(huán)境，人類可以推斷出他們相對于附近物體的位置。同樣，基于歷史的視覺觀察，人類可以確定到達(dá)目標(biāo)目的地應(yīng)該采取的行動。

視覺空間認(rèn)知可以分為兩個層次：感知和推理[51]。感知是指“所看到的”，其特征是直接的、低級的任務(wù)，如物體識別、邊緣檢測或顏色區(qū)分[52]。而推理涉及“所理解的”和“要采取的行動”，這是需要邏輯推理和知識間接整合的更高層次的任務(wù)[62]。推理的例子包括“我從哪里來？“（回憶歷史運(yùn)動軌跡[36]），”我在哪里？（推斷附近物體和距離之間的空間關(guān)系 [5]）和“我想去哪里？（規(guī)劃行動和決定到達(dá)目的地的移動方式[8]）。雖然現(xiàn)有的大多數(shù)研究都集中在提高基礎(chǔ)模型的感知能力上[6,11]，并取得了顯著的進(jìn)展，但它們的空間推理能力仍然有限[9,58]，并且增強(qiáng)方法在很大程度上尚未探索。

具體來說，基于視頻的空間推理帶來了以下幾個挑戰(zhàn)：

推理總是建立在感知之上 [19，32]。對于所研究的問題，連續(xù)的視覺觀察對感知提出了更高的要求。通過錯誤的感知或幻覺無法很好地實(shí)現(xiàn)推理 [53]。當(dāng)對視頻的感知變得困難時，很難進(jìn)行推理。
視頻數(shù)據(jù)自然涉及復(fù)雜的時空關(guān)系，需要發(fā)現(xiàn)跨幀的對象關(guān)聯(lián)并提取與推理任務(wù)相關(guān)的語義[16]。例如，要導(dǎo)航到當(dāng)前視野之外的目的地，必須從歷史視覺觀察中推斷出它們的位置，構(gòu)建環(huán)境的心理地圖，制定一個高級規(guī)劃來確定方向，最后決定要執(zhí)行的具體行動?，F(xiàn)有的有監(jiān)督微調(diào) (supervised fine-tuning,SFT) 訓(xùn)練方法缺乏對推理過程的監(jiān)督，難以處理此類推理任務(wù)[62]。
具身視覺觀察具有鮮明的特征。首先，對于非具身視頻（如電影或電視節(jié)目）的理解，主要強(qiáng)調(diào)的是視頻內(nèi)容本身，通常從宏觀且客觀的視角進(jìn)行分析[27]。相比之下，以自我為中心的視頻則更關(guān)注觀察者與周圍環(huán)境之間的關(guān)系，通常是從受限的第一人稱視角進(jìn)行理解 [22]。其次，具身連續(xù)視覺觀察是在時間維度上持續(xù)生成的，這表明具身感知應(yīng)依賴于時序輸入，而非在較長時間后將所有視覺觀測統(tǒng)一聚合為單一輸入[31]。最后，由于物理世界中運(yùn)動的連續(xù)性，第一視角視覺觀察同樣表現(xiàn)出空間上的連續(xù)性，即幀與幀之間存在大量冗余和重復(fù)。因此，直接將現(xiàn)有的多模態(tài)大語言模型（multimodal large language models，MLLMs）應(yīng)用于具身視頻時，會導(dǎo)致包括泛化能力下降和由于冗余幀過多而引發(fā)的輸入token限制等問題[1, 29]。

最近，OpenAI的o1/o3[38]和DeepSeek-R1 [24]在解決復(fù)雜推理問題（例如數(shù)學(xué)、編碼、科學(xué)等）方面的出色表現(xiàn)引起了人們對強(qiáng)化學(xué)習(xí) (reinforcement learning, RL) 技術(shù)的關(guān)注。通過將思維鏈 (chain-ofthought, CoT) 推理過程納入訓(xùn)練后，大型語言模型 (large language models, LLM) 展示了一種“慢思考”模式，即它們在生成響應(yīng)之前會進(jìn)行徹底的推理[45, 55]。受此啟發(fā)，我們嘗試將 “慢思考” 引入基于視頻的具身空間推理任務(wù)中，如圖1 所示。

這帶來了一個新的挑戰(zhàn)：模型大小和計(jì)算成本之間的權(quán)衡?，F(xiàn)有研究表明，多模態(tài)理解和感知能力與模型大小之間存在很強(qiáng)的相關(guān)性[7, 20, 56]。由于推理建立在感知的基礎(chǔ)上，因此應(yīng)使用更大的視覺語言基礎(chǔ)模型作為訓(xùn)練的起點(diǎn)。然而，增加模型尺寸通常會帶來不可接受的計(jì)算成本。此外，視頻輸入映射到長token序列，進(jìn)一步提高了計(jì)算需求。有沒有辦法利用大規(guī)模模型的感知能力，同時以較低的計(jì)算成本發(fā)展具身推理能力？

受此啟發(fā)，本文設(shè)計(jì)了一個協(xié)同框架，包含兩個主要組成部分：用于感知的大規(guī)模視覺語言模型 (vision-language model, VLM) 和用于推理的小規(guī)模語言模型 (language model, LM) ?；谟^測的連續(xù)性，我們首先提出了關(guān)鍵幀提取器，以保留關(guān)鍵信息并降低計(jì)算成本。使用VLM對幀序列逐步提取語義信息，從而模擬真實(shí)世界中的在線推理過程，并有效控制VLM在處理長視頻輸入時的輸入token長度。最后，將語義信息與推理問題共同輸入到小規(guī)模語言模型中，輸出推理過程及最終答案。小規(guī)模語言模型通過強(qiáng)化學(xué)習(xí) (reinforcement learning, RL) 進(jìn)行訓(xùn)練，其中獎勵建模不僅結(jié)合了受Deepseek-R1Zero [24] 啟發(fā)的基于規(guī)則的獎勵，更重要的是為推理過程引入了一種新的邏輯一致性獎勵。在實(shí)驗(yàn)部分，我們圍繞七個研究問題展開，涵蓋了該框架的性能、強(qiáng)化學(xué)習(xí)在激活具身空間推理中的作用以及分布外泛化能力等方面。

總結(jié)來說，本文的主要貢獻(xiàn)如下：

我們提出了一個用于大規(guī)模和小規(guī)模基礎(chǔ)模型的協(xié)作框架，以解決視頻模態(tài)中的空間推理問題。通過解耦感知和推理，該框架利用了大規(guī)模基礎(chǔ)模型的感知能力，同時以計(jì)算資源友好的方式有效地增強(qiáng)了較小模型的推理能力。
這是首次采用強(qiáng)化學(xué)習(xí) (reinforcement learning, RL) 來增強(qiáng)基礎(chǔ)模型的具身空間推理能力的工作。具體來說，我們引入了一種新的邏輯一致性獎勵，它提高了推理過程和生成的答案之間的一致性。
我們提出的 Embodied-R 在分布內(nèi)與分布外基準(zhǔn)測試上均取得了與最新多模態(tài)大語言模型（如 OpenAI-o1/Gemini-2.5-Pro）相當(dāng)?shù)男阅鼙憩F(xiàn)。我們還進(jìn)一步探討了包括基于SFT與RL訓(xùn)練的模型在泛化能力上的對比、獎勵設(shè)計(jì)策略等多個研究問題。

2 相關(guān)工作

大語言模型推理。近年來，增強(qiáng)推理能力已成為大型模型技術(shù)的一個關(guān)鍵研究方向，并在數(shù)學(xué)和邏輯問題求解等任務(wù)上展現(xiàn)出卓越的表現(xiàn) [25, 47, 57]。隨著 OpenAI 發(fā)布o(jì)1模型 [38] 后，大量研究提出了各種技術(shù)方法以實(shí)現(xiàn)類似功能，包括思維鏈（Chain-of-Thought, CoT）[54]、蒙特卡洛樹搜索（Monte Carlo Tree Search, MCTS）[23, 60]、知識蒸餾（distillation）[35]、結(jié)合監(jiān)督微調(diào)（SFT）或直接偏好優(yōu)化（DPO）的拒絕采樣（rejection sampling）[40] 等。此外，Deepseek-r1 [24] 提出了一種通過基于規(guī)則的獎勵機(jī)制結(jié)合強(qiáng)化學(xué)習(xí)來促進(jìn)大語言模型（LLMs）推理能力涌現(xiàn)的方法。同樣地，Kimi k1.5 [45] 提出了類似的思路，并介紹了一系列訓(xùn)練技術(shù)，例如課程學(xué)習(xí)（curriculum learning）。這種強(qiáng)化學(xué)習(xí)范式引發(fā)了廣泛關(guān)注，后續(xù)的研究也成功復(fù)現(xiàn)了相關(guān)成果[55, 59]。

VLMs具身空間推理。受基礎(chǔ)模型在多個領(lǐng)域中表現(xiàn)出的通用性啟發(fā)[2, 3]，具身智能旨在開發(fā)能夠利用大型多模態(tài)模型作為“大腦”的智能體，以實(shí)現(xiàn)在三維物理世界中的感知、導(dǎo)航與操作能力[15, 41]。從輸入角度來看，人類的視覺-空間感知更接近于連續(xù)的RGB觀測數(shù)據(jù)，類似于視頻流[12, 42]，而不是靜態(tài)圖像[48]或點(diǎn)云[52]。一些具身視頻基準(zhǔn)測試[58] 表明，盡管感知類任務(wù)已經(jīng)相對較好地被解決，但諸如空間關(guān)系推理、導(dǎo)航和規(guī)劃等空間推理任務(wù)仍然極具挑戰(zhàn)性。然而，目前關(guān)于視頻推理的研究[16, 43]主要集中在非具身的內(nèi)容推理上，對涉及具身連續(xù)視覺輸入的場景關(guān)注較少。

大模型和小模型之間的協(xié)同。當(dāng)前的研究主要聚焦于解決大模型帶來的資源消耗和隱私風(fēng)險問題，以及小模型在特定場景下的效率和性能優(yōu)勢[50]。小模型可以在數(shù)據(jù)選擇、提示優(yōu)化和推理增強(qiáng)等方面輔助大模型[28, 61]。文獻(xiàn)[49, 63]探索了使用小模型檢測幻覺和隱私泄露的方法，從而提升整個系統(tǒng)的可靠性。雖然我們的工作也以降低計(jì)算資源需求為目標(biāo)，但我們強(qiáng)調(diào)大規(guī)模VLM在感知方面的作用，以及小規(guī)模LM在增強(qiáng)具身空間推理中的互補(bǔ)作用，這與其他研究有所不同。

3

Embodied-R模型

我們首先定義具身空間推理的問題。隨后，我們介紹了基于視覺-語言模型（VLM）的感知模塊和基于語言模型（LM）的推理模塊。協(xié)作框架如圖2所示。

3.1問題建模

在現(xiàn)實(shí)物理世界中，智能體在空間中移動，生成一系列視頻幀（連續(xù)的視覺觀測數(shù)據(jù)）。假設(shè)一個空間推理問題表示為。我們的目標(biāo)是構(gòu)建一個模型，以和作為輸入，并輸出答案。如果答案在語義上與真實(shí)標(biāo)簽一致，則認(rèn)為該答案正確；否則視為錯誤。

圖2. 所提出的Embodied-R是一個集成了視覺語言模型（VLM）和語言模型（LM）的協(xié)作式空間推理框架。感知和推理的分離使我們能夠利用大規(guī)模VLM的感知能力，同時訓(xùn)練資源高效的小規(guī)模LM，通過RL激活具身推理。值得注意的是，我們引入了一種新的邏輯一致性獎勵，以指導(dǎo)LM產(chǎn)生邏輯連貫的推理和答案

3.2 基于大規(guī)模VLM的感知

3.2.1 關(guān)鍵幀提取器

當(dāng)智能體在空間中持續(xù)移動時，若采樣頻率較高，會導(dǎo)致相鄰幀之間存在顯著重疊。一方面，VLM 依賴于環(huán)境中靜態(tài)物體在不同幀之間的變化來推斷智能體的姿態(tài)變化；另一方面，過多的幀間重疊會增加 VLM 和 LLM 的推理成本。為了解決這一問題，我們設(shè)計(jì)了一個針對具身視頻特性的關(guān)鍵幀提取器，能夠在保留一定重疊度的同時，選擇信息增益足夠的關(guān)鍵幀。

關(guān)鍵幀的提取基于運(yùn)動連續(xù)性所導(dǎo)致的視野重疊。當(dāng)智能體向前移動時，后一幀中的視覺內(nèi)容預(yù)期會與前一幀的部分區(qū)域重疊；向后移動時則相反。同樣地，在向左或向右旋轉(zhuǎn)時，后一幀應(yīng)在水平方向上與前一幀部分重疊；在向上或向下旋轉(zhuǎn)時，重疊則發(fā)生在垂直方向上。由于視覺觀測的采樣頻率通常遠(yuǎn)高于智能體的運(yùn)動速度，因此幀之間普遍具有較高的重疊度。

具體而言，我們使用透視變換來建模幀之間的幾何關(guān)系。假設(shè)是一個關(guān)鍵幀，為了判斷是否也應(yīng)被視為關(guān)鍵幀，我們使用帶方向的 FAST 關(guān)鍵點(diǎn)檢測和旋轉(zhuǎn) BRIEF 描述子（Oriented FAST and Rotated BRIEF, ORB）算法從和中提取關(guān)鍵點(diǎn)及其描述子。接著，使用特征匹配算法（如暴力匹配器 Brute-Force Matcher）對這兩幀之間的描述子進(jìn)行匹配，并通過隨機(jī)采樣一致性算法（RANSAC）估計(jì)單應(yīng)性矩陣，從而計(jì)算兩幀之間的重疊比例。如果該重疊比例小于預(yù)定義的閾值，則表明幀之間存在顯著的視覺變化，因此將標(biāo)記為新的關(guān)鍵幀；否則，算法將繼續(xù)計(jì)算與之間的重疊比例。這一過程持續(xù)進(jìn)行，直到識別出一個新的關(guān)鍵幀，隨后該幀將成為后續(xù)幀的參考基準(zhǔn)?？紤]到視角變化的影響，水平或垂直方向的旋轉(zhuǎn)會導(dǎo)致更大的視野變化，從而在這些運(yùn)動過程中記錄更多的幀。若提取出的關(guān)鍵幀索引表示為，則關(guān)鍵幀提取過程可總結(jié)為：

3.2.2 具身語義表示

由于感知能力通常與模型規(guī)模正相關(guān) [27, 58, 62]，我們采用大規(guī)模VLM來處理視覺輸入以確保高質(zhì)量的感知效果。每個關(guān)鍵幀的差異信息被依次描述。這種方法帶來了兩個主要優(yōu)勢：1）順序化、動態(tài)化的處理方式更符合具身場景的特點(diǎn)：在具身智能中，視覺觀測是隨時間連續(xù)生成的。在每一個時刻，模型都應(yīng)能融合歷史語義表示與最新的視覺觀測，快速更新對空間感知的語義理解。2）它有助于處理長視頻內(nèi)容，避免了因輸入token數(shù)量限制而帶來的問題，這些問題在直接處理長序列時常常成為瓶頸。

具體而言，對于第一幀，VLM會識別場景中存在的物體、它們的屬性以及空間位置。對于后續(xù)各幀，則將前一幀和當(dāng)前幀同時輸入 VLM，以提取關(guān)鍵語義表示：

其中，包含以下三個組成部分：

動作（Action）：基于連續(xù)幀之間視覺觀測的變化，推斷智能體所執(zhí)行的動作。
變化信息（Information）：確定智能體與已知物體之間的空間關(guān)系變化，并判斷視野中是否出現(xiàn)了新的物體。
與問題相關(guān)的內(nèi)容（

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：中汽中心工程院推出動力總成多性能聯(lián)調(diào)解決方案
上一篇：AEB強(qiáng)制性標(biāo)準(zhǔn)加速落地，激光雷達(dá)成為解題關(guān)鍵

點(diǎn)贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動設(shè)計(jì)與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

Embodied-R：一種通過強(qiáng)化學(xué)習(xí)激活基礎(chǔ)模型具身空間推理能力的協(xié)同框架

微信公眾號

1 引言

2 相關(guān)工作

3

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機(jī)動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工