日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

使用自監(jiān)督學(xué)習(xí)重建動態(tài)駕駛場景

2023-12-17 18:42:47·  來源:NVIDIA英偉達企業(yè)解決方案  
 


無論是單調(diào)的高速行車,還是平日的短途出行,駕駛過程往往平淡無奇。因此,在現(xiàn)實世界中采集的用于開發(fā)自動駕駛汽車(AV)的大部分訓(xùn)練數(shù)據(jù)都明顯偏向于簡單場景。

這給部署魯棒的感知模型帶來了挑戰(zhàn)。自動駕駛汽車必須接受全面的訓(xùn)練、測試和驗證,以便能夠應(yīng)對復(fù)雜的場景,而這需要大量涵蓋此類場景的數(shù)據(jù)。

在現(xiàn)實世界中,收集此類場景數(shù)據(jù)要耗費大量時間和成本。而現(xiàn)在,仿真提供了另一個可選方案。但要大規(guī)模生成復(fù)雜動態(tài)場景仍然困難重重。

在近期發(fā)布的一篇論文中,NVIDIA Research 展示了一種基于神經(jīng)輻射場(NeRF)的新方法——EmerNeRF 及其如何使用自監(jiān)督學(xué)習(xí)準確生成動態(tài)場景。通過自監(jiān)督方法訓(xùn)練,EmerNeRF 在動靜態(tài)場景重建上的表現(xiàn)超越了之前其他 NeRF 方法。詳細情況請參見 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision


圖片

圖片

圖片

圖 1. EmerNeRF 重建動態(tài)駕駛場景的示例


相比其他 NeRF 重建方法,EmerNeRF 的動態(tài)場景重建準確率高出 15%,靜態(tài)場景高出 11%。新視角合成的準確率也高出 12%。


打破 NeRF 方法的局限性

NeRF 將一組靜態(tài)圖像重建成逼真的 3D 場景。這使得依據(jù)駕駛?cè)罩局亟ㄓ糜?DNN 訓(xùn)練、測試驗證的高保真仿真環(huán)境成為可能。

然而,目前基于 NeRF 的重建方法在處理動態(tài)物體時十分困難,而且實踐證明難以擴展。例如有些方法可以生成靜態(tài)和動態(tài)場景,但它們依賴真值(GT)標簽。這就意味著必須使用自動標注或人工標注員先來準確標注出駕駛?cè)罩局械拿總€物體。

其他 NeRF 方法則依賴于額外的模型來獲得完整的場景信息,例如光流。

為了打破這些局限性,EmerNeRF 使用自監(jiān)督學(xué)習(xí)將場景分解為靜態(tài)、動態(tài)和流場(flow fields)。該模型從原始數(shù)據(jù)中學(xué)習(xí)前景、背景之間的關(guān)聯(lián)和結(jié)構(gòu),而不依賴人工標注的 GT 標簽。然后,對場景做時空渲染,并不依賴外部模型來彌補時空中的不完整區(qū)域,而且準確性更高。


圖片

圖 2. EmerNeRF 將圖 1 第一段視頻中的場景分解為動態(tài)場、靜態(tài)場和流場


因此,其他模型往往會產(chǎn)生過于平滑的背景和精度較低的動態(tài)物體(前景),而 EmerNeRF 則能重建高保真的背景及動態(tài)物體(前景),同時保留場景的細節(jié)。


圖片

表 1. 將 EmerNeRF 與其他基于 NeRF 的動態(tài)場景重建方法進行比較后的評估結(jié)果,分為場景重建性能和新視角合成性能兩個類別


圖片

表 2. 將 EmerNeRF 與其他基于 NeRF 的靜態(tài)場景重建方法進行比較后的評估結(jié)果


EmerNeRF 方法

EmerNeRF 使用的是自監(jiān)督學(xué)習(xí),而非人工注釋或外部模型,這使得它能夠避開之前方法所遇到的難題。


圖片

圖 3. EmerNeRF 分解和重建管線


EmerNeRF 將場景分解成動態(tài)和靜態(tài)元素。在場景分解的同時,EmerNeRF 還能估算出動態(tài)物體(如汽車和行人)的流場,并通過聚合流場在不同時間的特征以進一步提高重建質(zhì)量。其他方法會使用外部模型提供此類光流數(shù)據(jù),但通常會引入偏差。

通過將靜態(tài)場、動態(tài)場和流場結(jié)合在一起,EmerNeRF 能夠充分表達高密度動態(tài)場景,這不僅提高了重建精度,也方便擴展到其他數(shù)據(jù)源。


使用基礎(chǔ)模型加強語義理解

EmerNeRF 對場景的語義理解,可通過(視覺)基礎(chǔ)大模型監(jiān)督進一步增強?;A(chǔ)大模型具有更通用的知識(例如特定類型的車輛或動物)。EmerNeRF 使用視覺 Transformer(ViT)模型,例如 DINO, DINOv2,將語義特征整合到場景重建中。

這使 EmerNeRF 能夠更好地預(yù)測場景中的物體,并執(zhí)行自動標注等下游任務(wù)。


圖片

圖 4. EmerNeRF 使用 DINO 和 DINOv2 等基礎(chǔ)模型加強對場景的語義理解

不過,基于 Transformer 的基礎(chǔ)模型也帶來了新的挑戰(zhàn):語義特征可能會表現(xiàn)出與位置相關(guān)的噪聲,從而大大限制下游任務(wù)的性能。

圖片

圖 5. EmerNeRF 使用位置嵌入消除基于 Transformer 的基礎(chǔ)模型所產(chǎn)生的噪聲


為了解決噪聲問題,EmerNeRF 通過位置編碼分解來恢復(fù)無噪聲的特征圖。如圖 5 所示,這樣就解鎖了基礎(chǔ)大模型在語義特征上全面、準確的表征能力。


評估 EmerNeRF

正如 EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision 中所述,研究人員整理出了一個包含 120 個獨特場景的數(shù)據(jù)集來評估 EmerNeRF 的性能,這些場景分為 32 個靜態(tài)場景、32 個動態(tài)場景和 56 個多樣化場景,覆蓋了高速、低光照等具有挑戰(zhàn)性的場景。

然后根據(jù)數(shù)據(jù)集的不同子集,評估每個 NeRF 模型重建場景和合成新視角的能力。

如表 1 所示,據(jù)此,EmerNeRF 在場景重建和新視角合成方面的表現(xiàn)始終明顯優(yōu)于其他方法。

EmerNeRF 的表現(xiàn)還優(yōu)于專門用于靜態(tài)場景的方法,這表明將場景分解為靜態(tài)和動態(tài)元素的自監(jiān)督分解既能夠改善靜態(tài)重建,還能夠改善動態(tài)重建。


總結(jié)

自動駕駛仿真只有在能夠準確重建現(xiàn)實世界的情況下才會有效。隨著場景的日益動態(tài)化和復(fù)雜化,對保真度的要求也越來越高,而且更難實現(xiàn)。

與以前的方法相比,EmerNeRF 能夠更準確地表現(xiàn)和重建動態(tài)場景,而且無需人工監(jiān)督或外部模型。這樣就能大規(guī)模地重建和編輯復(fù)雜的駕駛數(shù)據(jù),解決目前自動駕駛汽車訓(xùn)練數(shù)據(jù)集的不平衡問題。

NVIDIA 正迫切希望研究 EmerNeRF 帶來的新功能,如端到端駕駛、自動標注和仿真等。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25