日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

用于物理推理的去噪哈密頓網(wǎng)絡(luò)

2025-07-30 08:35:23·  來源:同濟(jì)智能汽車研究所  
 

摘要:該論文研究了物理推理中長程系統(tǒng)動(dòng)力學(xué)建模與多任務(wù)泛化能力的關(guān)鍵挑戰(zhàn),提出融合哈密頓力學(xué)與去噪擴(kuò)散原理的去噪哈密頓網(wǎng)絡(luò)(DHN)。盡管現(xiàn)有物理約束模型能學(xué)習(xí)局部時(shí)間狀態(tài)轉(zhuǎn)移,但其存在兩大局限:時(shí)間建模局限,僅捕捉相鄰時(shí)間步關(guān)系,無法推演系統(tǒng)級(jí)長程相互作用;任務(wù)泛化局限,局限于正向模擬,難以處理軌跡修復(fù)、參數(shù)估計(jì)等逆問題。為此,研究者設(shè)計(jì)了DHN框架,通過三大創(chuàng)新突破上述限制,非局部哈密頓算子、擴(kuò)散啟發(fā)的優(yōu)化機(jī)制、全局條件機(jī)制。在軌跡預(yù)測、參數(shù)推斷和超分辨率插值三類任務(wù)上的實(shí)驗(yàn)表明,DHN無須顯式構(gòu)建物理方程即可同時(shí)處理正向模擬與逆問題。尤為重要的是,該框架通過神經(jīng)算子實(shí)現(xiàn)了物理約束與數(shù)據(jù)驅(qū)動(dòng)的深度融合,為科學(xué)機(jī)器學(xué)習(xí)開辟了超越局部時(shí)間建模的新路徑。這些成果不僅推動(dòng)了物理推理架構(gòu)的發(fā)展,更為復(fù)雜系統(tǒng)的多任務(wù)學(xué)習(xí)提供了可擴(kuò)展的理論基礎(chǔ)。


本文譯自:《Denoising Hamiltonian Network for Physical Reasoning》

文章來源:arXiv preprint arXiv:2503.07596, 2025.

作者:Congyue Deng, Brandon Y. Feng, Cecilia Garraffo, Alan Garbarz, Robin Walters, William T. Freeman, Leonidas Guibas, Kaiming He

作者單位:麻省理工學(xué)院;斯坦福大學(xué)

原文鏈接:https://doi.org/10.48550/arXiv.2503.07596


摘要用于物理問題的機(jī)器學(xué)習(xí)框架必須能夠捕捉并強(qiáng)制實(shí)施物理約束,以保持動(dòng)力系統(tǒng)的結(jié)構(gòu)完整性。許多現(xiàn)有方法通過將物理算子集成到神經(jīng)網(wǎng)絡(luò)中來實(shí)現(xiàn)這一點(diǎn)。雖然這些方法提供了理論保證,但它們面臨兩個(gè)關(guān)鍵局限:(i)主要建模相鄰時(shí)間步之間的局部關(guān)系,忽略了更長范圍或更高層次的物理相互作用;(ii)側(cè)重于正向模擬,而忽略了更廣泛的物理推理任務(wù)。我們提出了去噪哈密頓網(wǎng)絡(luò) (Denoising Hamiltonian Network, DHN),這是一個(gè)新穎的框架,它將哈密頓力學(xué)算子推廣為更靈活的神經(jīng)算子。DHN通過去噪機(jī)制捕捉非局部時(shí)間關(guān)系并減輕數(shù)值積分誤差。DHN 還通過全局條件機(jī)制支持多系統(tǒng)建模。我們在三個(gè)具有不同輸入輸出形式的多樣化物理推理任務(wù)中驗(yàn)證了其有效性和靈活性。


Ⅰ 引言


物理推理,即推斷、預(yù)測和解釋動(dòng)態(tài)系統(tǒng)行為的能力,是科學(xué)探究的基礎(chǔ)。針對(duì)此類挑戰(zhàn)設(shè)計(jì)的機(jī)器學(xué)習(xí)框架,通常被期望超越單純記憶數(shù)據(jù)分布,致力于遵守物理定律、考量能量與力的關(guān)系,并融入超越純數(shù)據(jù)驅(qū)動(dòng)模型的結(jié)構(gòu)化歸納偏置??茖W(xué)機(jī)器學(xué)習(xí)通過將物理約束直接嵌入神經(jīng)網(wǎng)絡(luò)架構(gòu)(常借助顯式構(gòu)建的物理算子)來解決這一難題。

然而,現(xiàn)有方法存在兩大局限:(i)主要學(xué)習(xí)局部時(shí)間更新(預(yù)測相鄰時(shí)間步間的狀態(tài)轉(zhuǎn)移),未能捕捉長程依賴關(guān)系或抽象系統(tǒng)級(jí)相互作用;(ii)側(cè)重于正向模擬(從初始條件預(yù)測系統(tǒng)演化),基本忽略了超分辨率分析、軌跡修復(fù)、稀疏觀測參數(shù)估計(jì)等互補(bǔ)性任務(wù)。

為突破這些限制,我們提出去噪哈密頓網(wǎng)絡(luò)(Denoising Hamiltonian Network, DHN)——將哈密頓力學(xué)泛化為神經(jīng)算子的新型框架。DHN在強(qiáng)制執(zhí)行物理約束的同時(shí)利用神經(jīng)網(wǎng)絡(luò)的靈活性,實(shí)現(xiàn)三大創(chuàng)新:

首先,DHN將系統(tǒng)狀態(tài)組視為標(biāo)記,擴(kuò)展哈密頓神經(jīng)算子以捕捉非局部時(shí)間關(guān)系,使其能整體性推演系統(tǒng)動(dòng)力學(xué)而非孤立時(shí)間步。

其次,DHN集成受去噪擴(kuò)散模型啟發(fā)的目標(biāo)函數(shù),通過迭代優(yōu)化預(yù)測軌跡至物理有效狀態(tài),減輕數(shù)值積分誤差。該機(jī)制提升長期預(yù)測穩(wěn)定性的同時(shí),保持對(duì)不同噪聲條件的適應(yīng)性。利用差異化噪聲模式,DHN還支持跨任務(wù)場景的靈活訓(xùn)練與推理。

第三,我們引入全局條件機(jī)制實(shí)現(xiàn)多系統(tǒng)建模。共享的全局潛碼編碼系統(tǒng)特定屬性(如質(zhì)量、擺長),使DHN能在統(tǒng)一框架下建模異構(gòu)物理系統(tǒng),同時(shí)解耦底層動(dòng)力學(xué)表征。

為驗(yàn)證DHN的通用性,我們在三大推理任務(wù)中測試其性能:(i)軌跡預(yù)測與補(bǔ)全,(ii)基于局部觀測推斷物理參數(shù),(iii)通過漸進(jìn)式超分辨率插值稀疏軌跡。

綜上,本研究推動(dòng)了超越局部時(shí)間關(guān)系的物理約束嵌入架構(gòu)發(fā)展,為突破傳統(tǒng)正向模擬和狀態(tài)預(yù)測的物理推理開辟了新路徑。

圖片

圖1 去噪哈密頓網(wǎng)絡(luò)(DHN)將哈密頓力學(xué)推廣到神經(jīng)運(yùn)算符中。它在利用神經(jīng)網(wǎng)絡(luò)靈活性的同時(shí)加強(qiáng)物理約束,為物理推理的更廣泛應(yīng)用開辟了道路。


Ⅱ 相關(guān)工作


用于物理建模的機(jī)器學(xué)習(xí)方法涵蓋了基本運(yùn)動(dòng)方程到高維算子學(xué)習(xí)。我們的工作將Hamilton神經(jīng)網(wǎng)絡(luò)(HNN)擴(kuò)展為一種靈活的、基于序列的范式,可以實(shí)現(xiàn)多任務(wù)推理和生成條件反射。

哈密頓神經(jīng)網(wǎng)絡(luò)(HNNs)  科學(xué)機(jī)器學(xué)習(xí)旨在將物理定律嵌入神經(jīng)網(wǎng)絡(luò)架構(gòu)。哈密頓神經(jīng)網(wǎng)絡(luò)(HNNs)(Greydanus等,2019)在學(xué)習(xí)的動(dòng)力學(xué)中強(qiáng)制保持辛結(jié)構(gòu)和能量守恒,啟發(fā)了多種擴(kuò)展:拉格朗日神經(jīng)網(wǎng)絡(luò)(LNNs)(Cranmer等,2020)、辛ODE網(wǎng)絡(luò)(Zhong等,2019)以及引入阻尼項(xiàng)的耗散型SymODEN(Zhong等,2020)。研究者還將約束條件納入HNNs(Finzi等,2020),部分模型可直接從圖像序列推斷哈密頓動(dòng)力學(xué)(Toth等,2019)。盡管在正向模擬中表現(xiàn)優(yōu)異,標(biāo)準(zhǔn)HNNs通常每次僅建模單一系統(tǒng),且依賴均勻步長積分,限制了其在軌跡補(bǔ)全、稀疏數(shù)據(jù)插值或超分辨率任務(wù)中的應(yīng)用。

物理信息與算子方法 另一類方法將偏微分方程(PDE)約束直接嵌入神經(jīng)網(wǎng)絡(luò)(圖2示意)。物理信息神經(jīng)網(wǎng)絡(luò)(PINNs)(Raissi等,2019)通過PDE約束損失求解正反問題,而傅里葉神經(jīng)算子(FNOs)(Li等,2020)利用全局傅里葉變換學(xué)習(xí)函數(shù)空間映射。神經(jīng)ODE(Chen等,2018;Dupont等,2019)通過可學(xué)習(xí)微分方程參數(shù)化連續(xù)時(shí)間動(dòng)力學(xué)。這些方法雖能有效建模時(shí)空PDE,但難以適應(yīng)不規(guī)則采樣的離散哈密頓動(dòng)力學(xué)。相比之下,我們的方法通過分塊變換直接在離散哈密頓結(jié)構(gòu)上操作,在保持可解釋性與穩(wěn)定性的同時(shí)提升靈活性。

系統(tǒng)辨識(shí)與多系統(tǒng)建模 從異構(gòu)物理系統(tǒng)中學(xué)習(xí)需進(jìn)行系統(tǒng)辨識(shí),傳統(tǒng)方法依賴參數(shù)模型(Ljung,1999)或混合PDE約束方法(Raissi等,2019)。哈密頓方法雖通過能量景觀隱式編碼系統(tǒng)參數(shù),但傳統(tǒng)HNNs常需為每個(gè)系統(tǒng)單獨(dú)訓(xùn)練模型。我們提出通過學(xué)習(xí)潛碼的生成式條件機(jī)制,使單一模型能泛化至多系統(tǒng),同時(shí)保持哈密頓動(dòng)力學(xué)的歸納偏置。


Ⅲ 方法


A. 動(dòng)機(jī)

我們的目標(biāo)是設(shè)計(jì)更通用的神經(jīng)運(yùn)算符,既遵循物理約束,又釋放神經(jīng)網(wǎng)絡(luò)的靈活性和表現(xiàn)力,作為可優(yōu)化的黑盒函數(shù)。我們首先問這樣一個(gè)問題:除了下一狀態(tài)預(yù)測之外,我們還可以對(duì)哪些“物理關(guān)系”進(jìn)行建模?

圖2比較了在沒有機(jī)器學(xué)習(xí)的情況下建模物理系統(tǒng)的三種經(jīng)典方法:案例(I):全局解析解。對(duì)于具有規(guī)則結(jié)構(gòu)的簡單系統(tǒng),通常直接導(dǎo)出閉合形式的解。案例(II):偏微分方程+數(shù)值積分。在更復(fù)雜的設(shè)置,其中沒有封閉形式的解決方案存在,標(biāo)準(zhǔn)的做法是將系統(tǒng)的動(dòng)力學(xué)表示為PDE,并通過數(shù)值方法逐步求解。這種局部積分方法構(gòu)成了大多數(shù)物理約束神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的基礎(chǔ)——這些設(shè)計(jì)將偏微分方程(PDE)算子編碼到網(wǎng)絡(luò)中,以確保每一步的物理一致性。案例(Ⅲ):直接全局關(guān)系。在某些復(fù)雜系統(tǒng)中(例如,沒有耗散力的純保守系統(tǒng)),時(shí)間上相距很遠(yuǎn)的狀態(tài)可以通過全局守恒定律(例如,能量守恒)直接聯(lián)系起來。這類似于高中物理問題:人們可以僅從初始條件計(jì)算物體在某個(gè)位置的速度,而不需要求解完整的軌跡。雖然這比基于偏微分方程的方法更不通用,但它提出了一個(gè)有希望的途徑:在黑盒神經(jīng)網(wǎng)絡(luò)中利用全局物理原理可以將這種技術(shù)擴(kuò)展到更復(fù)雜的現(xiàn)實(shí)世界動(dòng)力系統(tǒng),而不僅僅是簡單的教科書問題

圖片

圖2 .我們?nèi)绾吻蠼庖粋€(gè)物理狀態(tài)?(I)簡單系統(tǒng)的解析解。(II)對(duì)于更復(fù)雜的物理系統(tǒng),大多數(shù)物理偏微分方程只對(duì)附近時(shí)間步長的局部關(guān)系建模。(III)對(duì)于某些物理系統(tǒng),即使它們在時(shí)間上不接近,狀態(tài)也可以直接相關(guān)。

B. 前置工作

學(xué)習(xí)哈密頓力學(xué) 讓我們從相空間坐標(biāo)開始,其中是廣義坐標(biāo),是廣義動(dòng)量或共軛動(dòng)量。如果表示粒子在歐幾里得坐標(biāo)中的位置,那么對(duì)應(yīng)于它們的線性動(dòng)量。如果表示球坐標(biāo)中的角位置,那么對(duì)應(yīng)于相關(guān)的角動(dòng)量。我們考慮時(shí)不變的哈密頓量,它是一個(gè)標(biāo)量函數(shù),滿足

圖片

公式1被稱為哈密頓運(yùn)動(dòng)方程,通過定義相空間中沿著矢量場的軌跡來描述系統(tǒng)的演化。這個(gè)場被稱為辛梯度,它控制著動(dòng)力學(xué),使得沿著的運(yùn)動(dòng)引起哈密頓量的最快變化,而沿辛方向的運(yùn)動(dòng)保持系統(tǒng)的能量結(jié)構(gòu)。

哈密頓神經(jīng)網(wǎng)絡(luò)(HNN)(Greydanus等人,2019年)將漢密爾頓函數(shù)視為由神經(jīng)網(wǎng)絡(luò)參數(shù)化的黑盒函數(shù),并優(yōu)化網(wǎng)絡(luò)參數(shù)以最小化損失函數(shù)

圖片

從初始狀態(tài)開始,可以通過對(duì)時(shí)間上的辛梯度進(jìn)行積分來計(jì)算軌跡。

離散哈密頓 除了連續(xù)哈密頓量及其離散化之外,還可以直接用凸優(yōu)化中的離散力學(xué)和對(duì)偶理論來定義離散哈密頓量(Gonzalez,1996)。

圖片

這里“右”意味著在時(shí)間上是向前的,在時(shí)間上是向后的。該公式用作連續(xù)哈密頓量的一階離散近似,

圖片

圖3顯示了一個(gè)離散右哈密頓網(wǎng)絡(luò),用于計(jì)算時(shí)間步之間的狀態(tài)關(guān)系。我們主要使用右哈密頓來描述我們的網(wǎng)絡(luò)設(shè)計(jì),但類似的方程可以定義左哈密頓,同樣的方法也適用于。更多詳情見附錄A。

圖片

圖3 .離散(右)哈密頓神經(jīng)網(wǎng)絡(luò)。深藍(lán)色和暗紅色表示網(wǎng)絡(luò)的輸入和輸出。淺色表示相鄰的時(shí)間步長。

以HNN為例,物理網(wǎng)絡(luò)通常學(xué)習(xí)由更新規(guī)則建模的相鄰時(shí)間步長之間的狀態(tài)關(guān)系

圖片

與正演建模相比,公式3和4中的離散化更精確,并且在時(shí)間積分下更好地保留了系統(tǒng)的辛結(jié)構(gòu)。然而,這些更新規(guī)則的隱式性質(zhì)在推理時(shí)引入了挑戰(zhàn),因?yàn)榇_定新的系統(tǒng)狀態(tài)需要解決優(yōu)化問題,當(dāng)可用數(shù)據(jù)由單個(gè)模擬軌跡組成而沒有附加參考點(diǎn)時(shí),這變得困難。

我們的解決方案是將優(yōu)化過程合并到網(wǎng)絡(luò)中,從而得到去噪哈密頓網(wǎng)絡(luò)(第3.4節(jié)),該網(wǎng)絡(luò)統(tǒng)一了每個(gè)時(shí)間步的狀態(tài)優(yōu)化去噪更新規(guī)則和跨時(shí)間步的哈密頓模型狀態(tài)關(guān)系。

C. 分塊離散哈密頓量

我們將狀態(tài)塊定義為沿著時(shí)間維度級(jí)聯(lián)的個(gè)狀態(tài)的堆棧,其中是塊大小。我們還引入步幅作為可以靈活定義的超參數(shù),以代替等式5-6中的固定時(shí)間間隔。這種方法使網(wǎng)絡(luò)能夠捕獲更廣泛的時(shí)間相關(guān)性,同時(shí)保持底層的Hamilton結(jié)構(gòu)。我們通過將兩個(gè)重疊的系統(tǒng)狀態(tài)塊關(guān)聯(lián)起來來定義我們的塊離散(右)Hamilton,每個(gè)塊的大小為,移位步長為

圖片

圖4示出了塊大小和步長的逐塊離散哈密頓量。經(jīng)典HNN可以被視為塊大小和步長的特殊情況。的分塊哈密頓量的物理解釋可以在附錄B中找到。 類似于HNN,可以根據(jù)公式8-9的運(yùn)動(dòng)損失方程來訓(xùn)練逐塊離散哈密頓網(wǎng)絡(luò)

圖片

圖4 .分塊哈密頓算子。左:經(jīng)典HNN被視為塊大小和步長的特殊情況。右:離散(右)哈密頓塊,。深藍(lán)色和暗紅色表示網(wǎng)絡(luò)輸入和輸出。淺色表示相鄰的時(shí)間步長。

圖片

圖5.去噪哈密頓塊。左:輸入狀態(tài)的隨機(jī)掩蔽。右:輸入狀態(tài)的隨機(jī)噪聲采樣。不同的狀態(tài)具有不同的采樣噪聲尺度。

D. 去噪哈密頓網(wǎng)絡(luò)

根據(jù)我們在第3.2節(jié)中介紹的動(dòng)機(jī),我們希望Hamilton塊不僅能夠?qū)鐣r(shí)間步的狀態(tài)關(guān)系進(jìn)行建模,而且還能夠?qū)W習(xí)每個(gè)時(shí)間步的狀態(tài)優(yōu)化以進(jìn)行推理。為了實(shí)現(xiàn)這一點(diǎn),我們采用了一種屏蔽建模策略(He等,2022),通過屏蔽一部分輸入狀態(tài)來訓(xùn)練網(wǎng)絡(luò)(圖5)。

我們不是簡單地屏蔽輸入狀態(tài),而是用不同幅度的噪聲采樣來干擾它們(圖5)。這種策略確保模型學(xué)習(xí)迭代地改進(jìn)預(yù)測,使其能夠從損壞或不完整的觀察中恢復(fù)物理上有意義的狀態(tài)。具體地說,我們定義了一個(gè)噪聲級(jí)遞增序列。以阻塞輸入狀態(tài)為例,隨機(jī)采樣高斯噪聲和每狀態(tài)噪聲尺度。設(shè)是二進(jìn)制掩碼,0表示未知狀態(tài),1表示已知狀態(tài),我們通過下式獲得噪聲輸入

直覺上,它強(qiáng)制已知狀態(tài)具有0的噪聲尺度。在我們的實(shí)驗(yàn)中,去噪步驟的數(shù)量被設(shè)置為10。在推理時(shí),我們用一系列在所有未知狀態(tài)上同步的逐漸減小的噪聲尺度來逐步去噪未知狀態(tài)。我們應(yīng)用來迭代更新。更多詳情見附錄C。

圖片

圖6. 不同的掩蔽模式。使用不同的掩蔽模式進(jìn)行訓(xùn)練可以實(shí)現(xiàn)不同的推理策略。虛線包圍的彩色塊是沿著序列沿著滑動(dòng)的去噪哈密頓塊。

不同的掩蔽模式 通過在訓(xùn)練過程中設(shè)計(jì)不同的掩蔽模式,我們可以為不同的任務(wù)定制靈活的推理策略。圖6顯示了三種不同的掩蔽模式:通過掩蔽塊的最后幾個(gè)狀態(tài)的自回歸,這類似于物理模擬,可以通過前向建模進(jìn)行下一個(gè)狀態(tài)預(yù)測;通過屏蔽掉塊中間的狀態(tài)來實(shí)現(xiàn)超分辨率,這可以應(yīng)用于數(shù)據(jù)插值;以及更一般地,包括隨機(jī)屏蔽的任意階屏蔽,其中根據(jù)任務(wù)要求自適應(yīng)地設(shè)計(jì)屏蔽圖案。

E. 網(wǎng)絡(luò)架構(gòu)

解碼器專用Transformer 對(duì)于每個(gè)哈密頓塊,網(wǎng)絡(luò)輸入是不同時(shí)間步長的的堆棧,的堆棧,并且我們還為整個(gè)軌跡引入全局潛碼作為條件Transformer(拉德福等人,2019; Jin等人,2024年),它類似于一個(gè)類似GPT的解碼器,但沒有因果注意掩模,如圖7所示。我們對(duì)所有輸入標(biāo)記作為長度為的序列。全局潛在碼用作用于輸出哈密頓值的查詢令牌。在我們的實(shí)驗(yàn)中,我們實(shí)現(xiàn)了一個(gè)簡單的兩層Transformer,它適合單個(gè)GPU。

自動(dòng)解碼器框架 我們采用自動(dòng)解碼器框架(Park等,2019),而不是依賴編碼器網(wǎng)絡(luò)從軌跡數(shù)據(jù)中推斷全局潛在代碼,為每個(gè)軌跡維護(hù)可學(xué)習(xí)的潛在代碼(圖8)。這種方法允許模型有效地存儲(chǔ)和細(xì)化系統(tǒng)特定的嵌入,而不需要單獨(dú)的編碼過程。在訓(xùn)練過程中,我們聯(lián)合優(yōu)化網(wǎng)絡(luò)權(quán)重和碼本。訓(xùn)練結(jié)束后,給定一個(gè)新的軌跡,我們凍結(jié)網(wǎng)絡(luò)權(quán)重,只優(yōu)化新軌跡的潛在代碼。

圖片

圖7. 僅解碼器Transformer架構(gòu)。我們?yōu)槊總€(gè)軌跡使用一個(gè)潛在代碼作為哈密頓值輸出的查詢令牌。每個(gè)狀態(tài)的噪聲尺度被編碼并添加到位置嵌入中。深紫色(所有陰影)表示可訓(xùn)練的模塊或變量。

圖片

圖8.自動(dòng)解碼器。我們沒有使用編碼器對(duì)輸入軌跡進(jìn)行編碼,而是為整個(gè)數(shù)據(jù)集維護(hù)一個(gè)碼本,每個(gè)軌跡都有一個(gè)可學(xué)習(xí)的潛在代碼。深紫色(所有陰影)表示可訓(xùn)練的模塊或變量。

Ⅳ 實(shí)驗(yàn)

我們用單擺和雙擺兩種設(shè)置來評(píng)估我們的模型。這兩種設(shè)置都包括模擬軌跡的數(shù)據(jù)集。單擺是一個(gè)周期系統(tǒng),每個(gè)狀態(tài)的總能量可以直接從計(jì)算,因此我們用它來評(píng)估模型的能量守恒能力。雙擺是一個(gè)混沌系統(tǒng),小的擾動(dòng)可以導(dǎo)致未來狀態(tài)的發(fā)散。

與以前的作品不同(Toth等人,2019年),其使用固定的系統(tǒng)參數(shù)集生成數(shù)據(jù),同時(shí)改變初始條件,我們在保持初始狀態(tài)不變的情況下,通過改變弦的長度來引入變分(附錄圖18)。這種修改評(píng)估了模型是否可以推廣到更廣泛的參數(shù)化動(dòng)態(tài)系統(tǒng),而不是擬合到單個(gè)參數(shù)化動(dòng)態(tài)系統(tǒng)。實(shí)例系統(tǒng)。對(duì)于這兩種設(shè)置,我們將數(shù)據(jù)集分為1000個(gè)訓(xùn)練軌跡和200個(gè)測試軌跡。每個(gè)軌跡被離散化為128個(gè)時(shí)間步。更多細(xì)節(jié)可以在附錄D中找到。

我們用對(duì)應(yīng)于圖6中的三種不同掩蔽模式的三種不同任務(wù)來測試我們的模型。(自回歸)的正向模擬,(ii)表示學(xué)習(xí)與隨機(jī)掩蔽的物理參數(shù)推斷,和(iii)漸進(jìn)超分辨率的軌跡插值。這些任務(wù)突出了DHN的適應(yīng)性,以各種物理推理的挑戰(zhàn),測試其能力,產(chǎn)生,推斷,并在不同的觀測約束條件下插入系統(tǒng)動(dòng)態(tài)。

A. 正演模擬

我們從正向模擬任務(wù)開始,在給定的初始條件下,模型逐步預(yù)測物理系統(tǒng)的未來狀態(tài)。我們通過在每個(gè)DHN塊中應(yīng)用掩蔽策略來實(shí)現(xiàn)這一點(diǎn),其中最后幾個(gè)令牌在訓(xùn)練期間被掩蔽,需要模型迭代地細(xì)化和去噪它們(圖6頂部)。對(duì)于塊大小為B且步幅為s的一個(gè)DHN塊,掩碼被應(yīng)用于最后個(gè)令牌。在推斷時(shí),給定時(shí)間步長處的已知狀態(tài),我們將DHN塊應(yīng)用于時(shí)間步長,其中我們使用已知狀態(tài)來預(yù)測未知狀態(tài)。我們用塊大小,步長

擬合已知軌跡 我們首先用前向建模來評(píng)估模型表示已知物理軌跡的能力。在這個(gè)實(shí)驗(yàn)中,我們訓(xùn)練模型來擬合1000個(gè)訓(xùn)練軌跡,我們通過給出每個(gè)軌跡的前8個(gè)時(shí)間步并使用模型預(yù)測未來120步來進(jìn)行測試。由于所有模型都只使用附近時(shí)間步的狀態(tài)進(jìn)行訓(xùn)練,(基線的相鄰時(shí)間步長對(duì),DHN的狀態(tài)塊),小的擬合誤差可以在正演建模中隨著時(shí)間積累。除了網(wǎng)絡(luò)固有的累積預(yù)測誤差之外,數(shù)值積分近似也會(huì)引起不準(zhǔn)確性,這會(huì)隨著時(shí)間放大偏差。

圖9顯示了我們的模型在不同塊大小下的結(jié)果,與HNN相比(Toth等,2019)。左和右是單擺和雙擺系統(tǒng)在每個(gè)時(shí)間步的預(yù)測的均方誤差(MSE),中間的圖顯示了一個(gè)示例軌跡上的平均總能量誤差和總能量的演變。雖然HNN是辛的,在保證能量守恒的網(wǎng)絡(luò)中,數(shù)值積分器仍然會(huì)引起不可控的能量漂移。這種額外的數(shù)值誤差在前向方法中是特別不可避免的。雖然這可以通過隱式狀態(tài)優(yōu)化的變分積分方法來解決,但優(yōu)化的收斂依賴于所有可能狀態(tài)的知識(shí),包括不在軌跡上的狀態(tài),這大大增加了訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)消耗。對(duì)于我們的DHN,每個(gè)時(shí)間步的狀態(tài)優(yōu)化由去噪機(jī)制建模,而不需要變分積分器。當(dāng)塊大小為2時(shí),模型的總能量保持穩(wěn)定,增大塊大小會(huì)引起較長時(shí)間范圍內(nèi)的能量漲落,但這種漲落并沒有表現(xiàn)出明顯的能量漂移傾向。

圖片

圖9. 正演模擬:擬合已知軌跡。我們的方法的結(jié)果以粉紅色顯示,具有不同數(shù)值積分器的HNN的結(jié)果以不同的藍(lán)色陰影顯示。第1列:單擺的平均狀態(tài)預(yù)測誤差。第2列:單擺系統(tǒng)的總能量可以很容易地用每個(gè)時(shí)間步長的狀態(tài)解析計(jì)算。我們比較了每個(gè)時(shí)間步的網(wǎng)絡(luò)預(yù)測狀態(tài)和地面真實(shí)狀態(tài)的總能量。第3列:一個(gè)示例軌跡上隨時(shí)間步的預(yù)測總能量。第4列:雙擺的平均狀態(tài)預(yù)測誤差。

在新軌跡上完成 接著我們在具有部分觀察值的新軌跡上評(píng)估我們的模型。具體地說,我們給出每個(gè)測試軌跡中的前16個(gè)時(shí)間步,并使用它們來優(yōu)化每個(gè)軌跡的全局潛碼,并凍結(jié)網(wǎng)絡(luò)權(quán)重,如第3.5節(jié)所述。優(yōu)化這些潛碼后,我們使用它們來預(yù)測接下來的112個(gè)時(shí)間步。這個(gè)任務(wù)評(píng)估DHN從稀疏的初始觀測推斷系統(tǒng)動(dòng)態(tài)和準(zhǔn)確預(yù)測未來狀態(tài)的能力。

圖10顯示了我們與HNN(頂行)和各種沒有物理約束的基線模型(底行)的比較結(jié)果。與兩個(gè)基線相比,我們的小塊DHN顯示了更準(zhǔn)確的狀態(tài)預(yù)測和更好的能量守恒。大塊大小可能會(huì)導(dǎo)致長時(shí)間范圍內(nèi)的錯(cuò)誤爆炸,因?yàn)槲覀兒唵蔚?層網(wǎng)絡(luò)很難適應(yīng)非常復(fù)雜的多狀態(tài)關(guān)系。

圖片

圖10. 正演模擬:完成新的軌跡。頂行:比較我們的方法(粉紅色)和具有不同數(shù)值積分器的HNN(以藍(lán)色顯示)。我們的方法之間的比較(以粉色顯示)和具有不同架構(gòu)的普通網(wǎng)絡(luò)(黃色顯示)。香草網(wǎng)絡(luò)直接預(yù)測下一個(gè)狀態(tài)。注意,兩行之間的軸比例是不同的。

B. 表示學(xué)習(xí)

接下來,我們測試模型有效編碼和區(qū)分不同物理系統(tǒng)參數(shù)的能力。去噪和隨機(jī)掩蔽是自監(jiān)督學(xué)習(xí)中成熟的技術(shù),在語言建模(Devlin,2018)和視覺(Vincent等,2008; He等,2022)中產(chǎn)生最先進(jìn)的表示。在這里,我們應(yīng)用隨機(jī)掩蔽模式(圖6底部)并研究類似的范例是否可以增強(qiáng)動(dòng)態(tài)物理系統(tǒng)中的表示學(xué)習(xí)。

為了量化學(xué)習(xí)到的表示的質(zhì)量,我們遵循計(jì)算機(jī)視覺中廣泛采用的自監(jiān)督表示學(xué)習(xí)范式(Chen等人,2020; Oord等人,2018; He等人,2020; Kolesnikov et al,2019)進(jìn)行特征預(yù)訓(xùn)練和線性探測。具體來說,我們使用訓(xùn)練集在碼本旁邊預(yù)訓(xùn)練自動(dòng)解碼器,然后凍結(jié)學(xué)習(xí)的表示,并在上面訓(xùn)練一個(gè)簡單的線性回歸層來預(yù)測系統(tǒng)參數(shù)。這種方法評(píng)估DHN的潛在代碼是否捕獲有意義的物理屬性。我們在雙擺系統(tǒng)中進(jìn)行實(shí)驗(yàn),并預(yù)測長度比(附錄圖18)。由于該物理量具有無量綱特性,在數(shù)據(jù)預(yù)處理的尺度歸一化過程中能保持不變。

圖11顯示了我們的DHN在不同塊大小下的線性探測結(jié)果()。與基線網(wǎng)絡(luò)相比,我們的模型實(shí)現(xiàn)了更低的MSE。如圖4所示,HNN可以被視為我們的哈密頓塊的特殊情況,其內(nèi)核大小和步長為1,在這個(gè)雙擺系統(tǒng)中,塊大小為4是推斷其參數(shù)的最佳時(shí)間尺度,而塊大小為4的時(shí)間尺度是系統(tǒng)參數(shù)的最佳時(shí)間尺度。

圖12示出了具有不同塊大小和步長的DHN的結(jié)果。如在12b中,哈密爾頓塊的輸入和輸出狀態(tài)具有時(shí)間步長的重疊區(qū)域。哈密爾頓塊的廣義能量守恒依賴于具有相同輸入和輸出的重疊區(qū)域。在訓(xùn)練期間,這種約束作為狀態(tài)預(yù)測損失的一部分施加在網(wǎng)絡(luò)上。較大的重疊對(duì)網(wǎng)絡(luò)施加了更強(qiáng)的正則化,但鼓勵(lì)網(wǎng)絡(luò)實(shí)施更多的這種自相干約束,而不是更多的狀態(tài)間約束。相反,減少重疊同時(shí)增加步幅鼓勵(lì)模型合并來自時(shí)間上更遠(yuǎn)的狀態(tài)的信息,但代價(jià)是較弱的自相干約束,這可能影響穩(wěn)定性。在重疊等于塊大小且步幅為零的極端情況下,DHN塊具有相同的輸入和輸出,訓(xùn)練損失退化為自相干約束。HNN是另一種零的特殊情況重疊(因?yàn)閴K大小為1,重疊只能為零)。如圖12b所示,對(duì)于我們的簡單雙層Transformer,最佳塊大小和步長約為,并具有適度的重疊量。

圖片

圖11. 潛在代碼的線性探測(MSE↓)。我們通過對(duì)全局潛在代碼應(yīng)用線性回歸層來預(yù)測。

圖片圖12. 不同DHN參數(shù)的線性探測。(a)不同塊大小和步長(MSE↓)的結(jié)果。塊大小

和步長附近的適當(dāng)輸入輸出重疊會(huì)導(dǎo)致更好的結(jié)果。(b)由不同的塊大小和步長引起的網(wǎng)絡(luò)輸入和輸出之間的重疊。

圖片

圖13. 插值為漸進(jìn)式超分辨率。左:2×超分辨率的三個(gè)階段重復(fù)兩次。右:不同稀疏度的不同階段的DHN塊。

圖片

圖14. 插值(超分辨率)結(jié)果(MSE↓)。我們將DHN(Ours)的性能與基于CNN的實(shí)現(xiàn)(CNN)進(jìn)行了比較。所有MSE值均按100縮放,以提高圖中十進(jìn)制表示的精度。

C. 軌跡插值

為了證明DHN塊的靈活性,我們展示了軌跡插值(超分辨率)。我們通過重復(fù)應(yīng)用2×超分辨率來進(jìn)行4×超分辨率。如圖13左圖所示。我們構(gòu)建了一個(gè)的DHN塊。不同稀疏度的軌跡塊如圖13右側(cè)所示。掩模應(yīng)用于中間狀態(tài),并且側(cè)邊的兩個(gè)狀態(tài)已知。

每個(gè)軌跡都與所有三個(gè)超分辨率階段的共享全局潛碼相關(guān)聯(lián),從而形成訓(xùn)練集的結(jié)構(gòu)化碼本。在訓(xùn)練期間,網(wǎng)絡(luò)權(quán)重和這些潛碼都在漸進(jìn)細(xì)化階段(0,1,2)中聯(lián)合優(yōu)化。在推理時(shí),給定僅在稀疏層(階段0)具有已知狀態(tài)的新軌跡,我們凍結(jié)DHN塊中的所有網(wǎng)絡(luò)權(quán)重,并使用階段0對(duì)全局潛在代碼進(jìn)行優(yōu)化。在此測試時(shí)間優(yōu)化(自動(dòng)解碼)之后,我們應(yīng)用階段1、2 DHN塊來逐步對(duì)已知狀態(tài)之間的未知狀態(tài)進(jìn)行降噪。

我們使用兩種測試設(shè)置來評(píng)估模型:(i)與訓(xùn)練軌跡具有相同初始狀態(tài)的軌跡,以及(ii)未知初始狀態(tài)的軌跡。為了設(shè)置這一點(diǎn),我們將所有訓(xùn)練軌跡裁剪到時(shí)間步長。對(duì)于測試集中的每個(gè)軌跡,我們將其分為兩段:時(shí)間步長,前者具有與訓(xùn)練集相同的初始狀態(tài),而后者具有不同的初始狀態(tài)。

我們將我們的模型與卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行了超分辨率比較。圖14顯示了我們的結(jié)果。對(duì)于與訓(xùn)練數(shù)據(jù)具有相同初始狀態(tài)的軌跡,兩種模型都顯示出較低MSE的良好插值結(jié)果。基線CNN顯示出稍好的結(jié)果,因?yàn)樗旧頉]有正則化,并且可以很容易地過擬合訓(xùn)練軌跡。對(duì)于具有未知初始狀態(tài)的測試軌跡,CNN很難泛化,因?yàn)樗牟逯祰?yán)重依賴于訓(xùn)練分布。相比之下,DHN表現(xiàn)出很強(qiáng)的泛化能力,因?yàn)樗奈锢砑s束表示使它能夠推斷出合理的中間狀態(tài),即使在分布變化。

Ⅴ 討論結(jié)論

平衡靈活性與物理約束對(duì)于推進(jìn)基于物理的學(xué)習(xí)至關(guān)重要。正如NLP和視覺中的統(tǒng)一架構(gòu)(例如,transformers)在保持核心歸納偏差的同時(shí)適應(yīng)不同的任務(wù),我們探索單個(gè)模型是否可以處理從全局參數(shù)推斷到局部狀態(tài)關(guān)系的任務(wù),而不犧牲物理一致性。

我們研究的一個(gè)關(guān)鍵問題是:深度學(xué)習(xí)中的物理推理是什么定義的?除了下一個(gè)狀態(tài)預(yù)測,它還包括參數(shù)估計(jì),系統(tǒng)識(shí)別和發(fā)現(xiàn)動(dòng)態(tài)系統(tǒng)中的高層關(guān)系。我們設(shè)想基于物理的學(xué)習(xí)朝著適應(yīng)性強(qiáng)的框架發(fā)展,在保持物理嚴(yán)謹(jǐn)性的同時(shí),在任務(wù)之間流暢地過渡。

我們重新考慮的另一個(gè)核心概念是:什么是物理模擬?模擬傳統(tǒng)上被視為一個(gè)順序過程,其中軌跡從初始狀態(tài)逐步展開。我們將其重新表述為全局,時(shí)間一致的重建,從最近的視頻生成模型中汲取靈感,這些模型對(duì)完整序列進(jìn)行降噪,而不是逐幀預(yù)測(Chi et al,2023)。

我們還研究了:神經(jīng)網(wǎng)絡(luò)應(yīng)該具備哪些物理屬性?雖然基于偏微分方程的方法會(huì)施加局部約束,但我們的研究結(jié)果表明,關(guān)鍵的物理屬性可以通過數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)出現(xiàn),就像視覺模型在沒有明確對(duì)象檢測器的情況下推斷語義一樣。

雖然我們目前的工作為基于哈密頓的網(wǎng)絡(luò)設(shè)計(jì)提供了更大的靈活性,但我們也認(rèn)識(shí)到了某些局限性。一個(gè)關(guān)鍵的局限性是計(jì)算成本:我們的模型需要比基線變壓器更密集的梯度計(jì)算。此外,目前的實(shí)驗(yàn)集中在具有簡單時(shí)間動(dòng)態(tài)的小尺度系統(tǒng)上??s放到復(fù)雜的空間-時(shí)間系統(tǒng)可以受益于由現(xiàn)代視覺模型啟發(fā)的分層或基于注意力的體系結(jié)構(gòu)。

我們相信,基于物理的學(xué)習(xí)正處于一個(gè)重大變革的邊緣,類似于視覺和自然語言處理中自我監(jiān)督學(xué)習(xí)的興起。通過將物理推理重新定義為一個(gè)重構(gòu)問題-從部分或損壞的輸入中預(yù)測系統(tǒng)狀態(tài)-我們朝著一個(gè)統(tǒng)一的建模范式邁進(jìn),將深度學(xué)習(xí)的靈活性與物理定律的嚴(yán)謹(jǐn)性融合在一起。

影響聲明

這項(xiàng)工作旨在通過開發(fā)基于物理推理的人工智能工具來推進(jìn)科學(xué)研究。通過將物理約束納入神經(jīng)網(wǎng)絡(luò),我們尋求提高基于學(xué)習(xí)的模型的科學(xué)應(yīng)用的可解釋性和可靠性。然而,與其他機(jī)器學(xué)習(xí)方法一樣,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于科學(xué)問題需要謹(jǐn)慎。神經(jīng)網(wǎng)絡(luò)可能會(huì)表現(xiàn)出幻覺或虛假相關(guān)性,如果沒有得到適當(dāng)?shù)尿?yàn)證,可能會(huì)導(dǎo)致誤導(dǎo)性的科學(xué)結(jié)論。

雖然強(qiáng)制執(zhí)行物理約束可以增強(qiáng)對(duì)AI驅(qū)動(dòng)建模的信任,但它并不能消除對(duì)嚴(yán)格驗(yàn)證的需求,特別是在分析實(shí)驗(yàn)數(shù)據(jù)時(shí)。用戶必須注意學(xué)習(xí)表示的局限性,并確保從AI輔助分析中得出的結(jié)論得到物理原理和經(jīng)驗(yàn)驗(yàn)證的支持。

致謝

我們感謝Rell the cat為圖1提供的照片,同時(shí)感謝尹天為、張?zhí)煸?、Shivam Duggal、李一辰、Carolina Cuesta-Lazaro和Katherine L. Bouman富有建設(shè)性的討論。鄧成和L. Guibas的部分研究工作得到豐田研究院University 2.0計(jì)劃及范內(nèi)瓦·布什教席學(xué)者基金的資助;馮柏堯和W. T. Freeman的科研工作部分受NSF Award 2019786(NSF人工智能與基礎(chǔ)交互研究所)及NSF CIF Award 1955864(計(jì)算成像中的遮擋與方向分辨率)支持;C. Garraffo的研究由哈佛-史密松天體物理中心AstroAI項(xiàng)目資助;A. Garbarz的科研工作受阿根廷國家科學(xué)與技術(shù)研究委員會(huì)(CONICET)及布宜諾斯艾利斯大學(xué)(UBA)支持,資助編號(hào)包括PICT 2021-00644、PIP 11220210100685CO和UBACYT 20020220400140BA;R. Walters的研究得到NSF 2134178項(xiàng)目資助。

參考文獻(xiàn)



圖片圖片圖片圖片圖片圖片圖片圖片
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25