日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

Embodied-R:一種通過強(qiáng)化學(xué)習(xí)激活基礎(chǔ)模型具身空間推理能力的協(xié)同框架

2025-05-20 17:30:41·  來源:同濟(jì)智能汽車研究所  
 

編者按:該論文提出了首個基于連續(xù)視覺感知的具身空間推理框架Embodied-R,旨在賦予預(yù)訓(xùn)練模型具身空間推理能力。論文通過強(qiáng)化學(xué)習(xí)和大小模型協(xié)同,將訓(xùn)練推理范式拓寬至具身智能領(lǐng)域,其中大規(guī)模視覺語言模型用于感知任務(wù),配合小規(guī)模語言模型進(jìn)行高層次推理,從而高效地實(shí)現(xiàn)復(fù)雜的空間理解。論文設(shè)計(jì)了一種全新的獎勵機(jī)制,強(qiáng)調(diào)“思考-回答”的邏輯一致性,并基于強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,使模型能夠在計(jì)算資源有限的情況下展現(xiàn)出“慢思考”能力。實(shí)驗(yàn)表明,Embodied-R在多個空間推理任務(wù)中達(dá)到了與OpenAI-o1、Gemini 2.5-pro等主流多模態(tài)模型相媲美的表現(xiàn)。

本文譯自:

《Neural network vehicle models for high-performance automated driving》

文章來源:


arxiv preprint


作者:

Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanghang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu

作者單位:

清華大學(xué)

原文鏈接:

https://arxiv.org/abs/2504.12680


摘要人類可以通過連續(xù)的視覺觀察(如第一視角的視頻流)來感知和推理空間關(guān)系。然而,預(yù)訓(xùn)練模型如何獲得這類能力仍不清楚,尤其是高層次的推理能力。本文提出Embodied-R,一個結(jié)合了大規(guī)模視覺-語言模型(VLMs)用于感知和小規(guī)模語言模型(LMs)用于推理的協(xié)同框架。該框架采用強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,引入一種新的獎勵機(jī)制,并考慮“思考-回答”的邏輯一致性,使模型在計(jì)算資源有限的情況下具備慢思考能力。在僅使用5000條具身視頻樣本進(jìn)行訓(xùn)練后,具有30億參數(shù)語言模型的Embodied-R在分布內(nèi)和分布外的具身空間推理任務(wù)上,都達(dá)到了與最先進(jìn)的多模態(tài)推理模型(OpenAI-o1,Gemini-2.5-pro)相當(dāng)?shù)谋憩F(xiàn)。Embodied-R 還展現(xiàn)出了系統(tǒng)性分析和上下文整合等新興的思維模式。我們進(jìn)一步探討了一系列研究問題,包括:回答長度、VLM訓(xùn)練、獎勵設(shè)計(jì)策略,以及在有監(jiān)督微調(diào)(SFT)與強(qiáng)化學(xué)習(xí)訓(xùn)練后模型泛化能力的差異。

圖片

圖1. 具身空間推理:任務(wù)和思維過程。確定了來自公共嵌入式視頻數(shù)據(jù)集的具有挑戰(zhàn)性的任務(wù),包括室內(nèi)和室外場景。我們引入慢思維來提高推理性能


1 引言


在通往通用人工智能 (Artificial General Intelligence, AGI)的道路上[17],我們希望預(yù)訓(xùn)練的基礎(chǔ)模型不僅可以在網(wǎng)絡(luò)世界中執(zhí)行對話和圖像理解等任務(wù)[2,44],而且還在三維物理世界中發(fā)展出類似人類的具身空間認(rèn)知,使他們能夠感知、思考和移動[4,32]。人類實(shí)現(xiàn)空間認(rèn)知的基本方式是通過連續(xù)、動態(tài)的視覺觀察,類似于視頻流 [26,30]。例如,通過觀察周圍環(huán)境,人類可以推斷出他們相對于附近物體的位置。同樣,基于歷史的視覺觀察,人類可以確定到達(dá)目標(biāo)目的地應(yīng)該采取的行動。

視覺空間認(rèn)知可以分為兩個層次:感知和推理[51]。感知是指“所看到的”,其特征是直接的、低級的任務(wù),如物體識別、邊緣檢測或顏色區(qū)分[52]。而推理涉及“所理解的”和“要采取的行動”,這是需要邏輯推理和知識間接整合的更高層次的任務(wù)[62]。推理的例子包括“我從哪里來?“(回憶歷史運(yùn)動軌跡[36]),”我在哪里?(推斷附近物體和距離之間的空間關(guān)系 [5])和“我想去哪里?(規(guī)劃行動和決定到達(dá)目的地的移動方式[8])。雖然現(xiàn)有的大多數(shù)研究都集中在提高基礎(chǔ)模型的感知能力上[6,11],并取得了顯著的進(jìn)展,但它們的空間推理能力仍然有限[9,58],并且增強(qiáng)方法在很大程度上尚未探索。

具體來說,基于視頻的空間推理帶來了以下幾個挑戰(zhàn):

  • 推理總是建立在感知之上 [19,32]。對于所研究的問題,連續(xù)的視覺觀察對感知提出了更高的要求。通過錯誤的感知或幻覺無法很好地實(shí)現(xiàn)推理 [53]。當(dāng)對視頻的感知變得困難時,很難進(jìn)行推理。

  • 視頻數(shù)據(jù)自然涉及復(fù)雜的時空關(guān)系,需要發(fā)現(xiàn)跨幀的對象關(guān)聯(lián)并提取與推理任務(wù)相關(guān)的語義[16]。例如,要導(dǎo)航到當(dāng)前視野之外的目的地,必須從歷史視覺觀察中推斷出它們的位置,構(gòu)建環(huán)境的心理地圖,制定一個高級規(guī)劃來確定方向,最后決定要執(zhí)行的具體行動?,F(xiàn)有的有監(jiān)督微調(diào)  (supervised fine-tuning,SFT) 訓(xùn)練方法缺乏對推理過程的監(jiān)督,難以處理此類推理任務(wù)[62]。

  • 具身視覺觀察具有鮮明的特征。首先,對于非具身視頻(如電影或電視節(jié)目)的理解,主要強(qiáng)調(diào)的是視頻內(nèi)容本身,通常從宏觀且客觀的視角進(jìn)行分析[27]。相比之下,以自我為中心的視頻則更關(guān)注觀察者與周圍環(huán)境之間的關(guān)系,通常是從受限的第一人稱視角進(jìn)行理解 [22]。其次,具身連續(xù)視覺觀察是在時間維度上持續(xù)生成的,這表明具身感知應(yīng)依賴于時序輸入,而非在較長時間后將所有視覺觀測統(tǒng)一聚合為單一輸入[31]。最后,由于物理世界中運(yùn)動的連續(xù)性,第一視角視覺觀察同樣表現(xiàn)出空間上的連續(xù)性,即幀與幀之間存在大量冗余和重復(fù)。因此,直接將現(xiàn)有的多模態(tài)大語言模型(multimodal large language models,MLLMs)應(yīng)用于具身視頻時,會導(dǎo)致包括泛化能力下降和由于冗余幀過多而引發(fā)的輸入token限制等問題[1, 29]。

最近,OpenAI的o1/o3[38]和DeepSeek-R1 [24]在解決復(fù)雜推理問題(例如數(shù)學(xué)、編碼、科學(xué)等)方面的出色表現(xiàn)引起了人們對強(qiáng)化學(xué)習(xí) (reinforcement learning, RL) 技術(shù)的關(guān)注。通過將思維鏈 (chain-ofthought, CoT) 推理過程納入訓(xùn)練后,大型語言模型 (large language models, LLM) 展示了一種“慢思考”模式,即它們在生成響應(yīng)之前會進(jìn)行徹底的推理[45, 55]。受此啟發(fā),我們嘗試將 “慢思考” 引入基于視頻的具身空間推理任務(wù)中,如圖1 所示。

這帶來了一個新的挑戰(zhàn):模型大小和計(jì)算成本之間的權(quán)衡?,F(xiàn)有研究表明,多模態(tài)理解和感知能力與模型大小之間存在很強(qiáng)的相關(guān)性[7, 20, 56]。由于推理建立在感知的基礎(chǔ)上,因此應(yīng)使用更大的視覺語言基礎(chǔ)模型作為訓(xùn)練的起點(diǎn)。然而,增加模型尺寸通常會帶來不可接受的計(jì)算成本。此外,視頻輸入映射到長token序列,進(jìn)一步提高了計(jì)算需求。有沒有辦法利用大規(guī)模模型的感知能力,同時以較低的計(jì)算成本發(fā)展具身推理能力?

受此啟發(fā),本文設(shè)計(jì)了一個協(xié)同框架,包含兩個主要組成部分:用于感知的大規(guī)模視覺語言模型 (vision-language model, VLM) 和用于推理的小規(guī)模語言模型 (language model, LM) ?;谟^測的連續(xù)性,我們首先提出了關(guān)鍵幀提取器,以保留關(guān)鍵信息并降低計(jì)算成本。使用VLM對幀序列逐步提取語義信息,從而模擬真實(shí)世界中的在線推理過程,并有效控制VLM在處理長視頻輸入時的輸入token長度。最后,將語義信息與推理問題共同輸入到小規(guī)模語言模型中,輸出推理過程及最終答案。小規(guī)模語言模型通過強(qiáng)化學(xué)習(xí) (reinforcement learning, RL) 進(jìn)行訓(xùn)練,其中獎勵建模不僅結(jié)合了受Deepseek-R1Zero [24] 啟發(fā)的基于規(guī)則的獎勵,更重要的是為推理過程引入了一種新的邏輯一致性獎勵。在實(shí)驗(yàn)部分,我們圍繞七個研究問題展開,涵蓋了該框架的性能、強(qiáng)化學(xué)習(xí)在激活具身空間推理中的作用以及分布外泛化能力等方面。

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  • 我們提出了一個用于大規(guī)模和小規(guī)模基礎(chǔ)模型的協(xié)作框架,以解決視頻模態(tài)中的空間推理問題。通過解耦感知和推理,該框架利用了大規(guī)模基礎(chǔ)模型的感知能力,同時以計(jì)算資源友好的方式有效地增強(qiáng)了較小模型的推理能力。

  • 這是首次采用強(qiáng)化學(xué)習(xí) (reinforcement learning, RL) 來增強(qiáng)基礎(chǔ)模型的具身空間推理能力的工作。具體來說,我們引入了一種新的邏輯一致性獎勵,它提高了推理過程和生成的答案之間的一致性。

  • 我們提出的 Embodied-R 在分布內(nèi)與分布外基準(zhǔn)測試上均取得了與最新多模態(tài)大語言模型(如 OpenAI-o1/Gemini-2.5-Pro)相當(dāng)?shù)男阅鼙憩F(xiàn)。我們還進(jìn)一步探討了包括基于SFT與RL訓(xùn)練的模型在泛化能力上的對比、獎勵設(shè)計(jì)策略等多個研究問題。


2 相關(guān)工作


大語言模型推理。近年來,增強(qiáng)推理能力已成為大型模型技術(shù)的一個關(guān)鍵研究方向,并在數(shù)學(xué)和邏輯問題求解等任務(wù)上展現(xiàn)出卓越的表現(xiàn) [25, 47, 57]。隨著 OpenAI 發(fā)布o(jì)1模型 [38] 后,大量研究提出了各種技術(shù)方法以實(shí)現(xiàn)類似功能,包括思維鏈(Chain-of-Thought, CoT)[54]、蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)[23, 60]、知識蒸餾(distillation)[35]、結(jié)合監(jiān)督微調(diào)(SFT)或直接偏好優(yōu)化(DPO)的拒絕采樣(rejection sampling)[40] 等。此外,Deepseek-r1 [24] 提出了一種通過基于規(guī)則的獎勵機(jī)制結(jié)合強(qiáng)化學(xué)習(xí)來促進(jìn)大語言模型(LLMs)推理能力涌現(xiàn)的方法。同樣地,Kimi k1.5 [45] 提出了類似的思路,并介紹了一系列訓(xùn)練技術(shù),例如課程學(xué)習(xí)(curriculum learning)。這種強(qiáng)化學(xué)習(xí)范式引發(fā)了廣泛關(guān)注,后續(xù)的研究也成功復(fù)現(xiàn)了相關(guān)成果[55, 59]。

VLMs具身空間推理。 受基礎(chǔ)模型在多個領(lǐng)域中表現(xiàn)出的通用性啟發(fā)[2, 3],具身智能旨在開發(fā)能夠利用大型多模態(tài)模型作為“大腦”的智能體,以實(shí)現(xiàn)在三維物理世界中的感知、導(dǎo)航與操作能力[15, 41]。從輸入角度來看,人類的視覺-空間感知更接近于連續(xù)的RGB觀測數(shù)據(jù),類似于視頻流[12, 42],而不是靜態(tài)圖像[48]或點(diǎn)云[52]。一些具身視頻基準(zhǔn)測試[58] 表明,盡管感知類任務(wù)已經(jīng)相對較好地被解決,但諸如空間關(guān)系推理、導(dǎo)航和規(guī)劃等空間推理任務(wù)仍然極具挑戰(zhàn)性。然而,目前關(guān)于視頻推理的研究[16, 43]主要集中在非具身的內(nèi)容推理上,對涉及具身連續(xù)視覺輸入的場景關(guān)注較少。

大模型和小模型之間的協(xié)同。 當(dāng)前的研究主要聚焦于解決大模型帶來的資源消耗和隱私風(fēng)險問題,以及小模型在特定場景下的效率和性能優(yōu)勢[50]。小模型可以在數(shù)據(jù)選擇、提示優(yōu)化和推理增強(qiáng)等方面輔助大模型[28, 61]。文獻(xiàn)[49, 63]探索了使用小模型檢測幻覺和隱私泄露的方法,從而提升整個系統(tǒng)的可靠性。雖然我們的工作也以降低計(jì)算資源需求為目標(biāo),但我們強(qiáng)調(diào)大規(guī)模VLM在感知方面的作用,以及小規(guī)模LM在增強(qiáng)具身空間推理中的互補(bǔ)作用,這與其他研究有所不同。



Embodied-R模型



我們首先定義具身空間推理的問題。隨后,我們介紹了基于視覺-語言模型(VLM)的感知模塊和基于語言模型(LM)的推理模塊。協(xié)作框架如圖2所示。

3.1問題建模

在現(xiàn)實(shí)物理世界中,智能體在空間中移動,生成一系列視頻幀(連續(xù)的視覺觀測數(shù)據(jù))。假設(shè)一個空間推理問題表示為。我們的目標(biāo)是構(gòu)建一個模型,以作為輸入,并輸出答案。如果答案在語義上與真實(shí)標(biāo)簽一致,則認(rèn)為該答案正確;否則視為錯誤。

圖片

圖2. 所提出的Embodied-R是一個集成了視覺語言模型(VLM)和語言模型(LM)的協(xié)作式空間推理框架。感知和推理的分離使我們能夠利用大規(guī)模VLM的感知能力,同時訓(xùn)練資源高效的小規(guī)模LM,通過RL激活具身推理。值得注意的是,我們引入了一種新的邏輯一致性獎勵,以指導(dǎo)LM產(chǎn)生邏輯連貫的推理和答案

3.2 基于大規(guī)模VLM的感知

3.2.1 關(guān)鍵幀提取器

當(dāng)智能體在空間中持續(xù)移動時,若采樣頻率較高,會導(dǎo)致相鄰幀之間存在顯著重疊。一方面,VLM 依賴于環(huán)境中靜態(tài)物體在不同幀之間的變化來推斷智能體的姿態(tài)變化;另一方面,過多的幀間重疊會增加 VLM 和 LLM 的推理成本。為了解決這一問題,我們設(shè)計(jì)了一個針對具身視頻特性的關(guān)鍵幀提取器,能夠在保留一定重疊度的同時,選擇信息增益足夠的關(guān)鍵幀。

關(guān)鍵幀的提取基于運(yùn)動連續(xù)性所導(dǎo)致的視野重疊。當(dāng)智能體向前移動時,后一幀中的視覺內(nèi)容預(yù)期會與前一幀的部分區(qū)域重疊;向后移動時則相反。同樣地,在向左或向右旋轉(zhuǎn)時,后一幀應(yīng)在水平方向上與前一幀部分重疊;在向上或向下旋轉(zhuǎn)時,重疊則發(fā)生在垂直方向上。由于視覺觀測的采樣頻率通常遠(yuǎn)高于智能體的運(yùn)動速度,因此幀之間普遍具有較高的重疊度。

具體而言,我們使用透視變換來建模幀之間的幾何關(guān)系。假設(shè)是一個關(guān)鍵幀,為了判斷是否也應(yīng)被視為關(guān)鍵幀,我們使用帶方向的 FAST 關(guān)鍵點(diǎn)檢測和旋轉(zhuǎn) BRIEF 描述子(Oriented FAST and Rotated BRIEF, ORB)算法從中提取關(guān)鍵點(diǎn)及其描述子。接著,使用特征匹配算法(如暴力匹配器 Brute-Force Matcher)對這兩幀之間的描述子進(jìn)行匹配,并通過隨機(jī)采樣一致性算法(RANSAC)估計(jì)單應(yīng)性矩陣,從而計(jì)算兩幀之間的重疊比例。如果該重疊比例小于預(yù)定義的閾值,則表明幀之間存在顯著的視覺變化,因此將  標(biāo)記為新的關(guān)鍵幀;否則,算法將繼續(xù)計(jì)算之間的重疊比例。這一過程持續(xù)進(jìn)行,直到識別出一個新的關(guān)鍵幀,隨后該幀將成為后續(xù)幀的參考基準(zhǔn)??紤]到視角變化的影響,水平或垂直方向的旋轉(zhuǎn)會導(dǎo)致更大的視野變化,從而在這些運(yùn)動過程中記錄更多的幀。若提取出的關(guān)鍵幀索引表示為,則關(guān)鍵幀提取過程可總結(jié)為:

圖片

3.2.2 具身語義表示

由于感知能力通常與模型規(guī)模正相關(guān) [27, 58, 62],我們采用大規(guī)模VLM來處理視覺輸入以確保高質(zhì)量的感知效果。每個關(guān)鍵幀的差異信息被依次描述。這種方法帶來了兩個主要優(yōu)勢:1)順序化、動態(tài)化的處理方式更符合具身場景的特點(diǎn):在具身智能中,視覺觀測是隨時間連續(xù)生成的。在每一個時刻,模型都應(yīng)能融合歷史語義表示與最新的視覺觀測,快速更新對空間感知的語義理解。2)它有助于處理長視頻內(nèi)容,避免了因輸入token數(shù)量限制而帶來的問題,這些問題在直接處理長序列時常常成為瓶頸。

具體而言,對于第一幀,VLM會識別場景中存在的物體、它們的屬性以及空間位置。對于后續(xù)各幀,則將前一幀和當(dāng)前幀同時輸入 VLM,以提取關(guān)鍵語義表示 

圖片其中,包含以下三個組成部分:
  • 動作(Action):基于連續(xù)幀之間視覺觀測的變化,推斷智能體所執(zhí)行的動作。

  • 變化信息(Information):確定智能體與已知物體之間的空間關(guān)系變化,并判斷視野中是否出現(xiàn)了新的物體。

  • 與問題相關(guān)的內(nèi)容(

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25