日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

一種多模態(tài)半監(jiān)督學(xué)習(xí)器對智駕場景未知目標(biāo)的檢測算法

2024-09-17 06:54:51·  來源:焉知汽車  
 

先前業(yè)界在目標(biāo)檢測主要集中在封閉場景中,并且取得了較高的準(zhǔn)確率,但在開放場景中的表現(xiàn)卻不盡如人意。具有挑戰(zhàn)性的開放世界問題之一是自動駕駛對極端情況的檢測?,F(xiàn)有的檢測器在處理這些情況時(shí)遇到了困難,嚴(yán)重依賴視覺外觀并且泛化能力較差。在本文中,介紹了一種解決方案,通過減少已知類和未知類之間的差異,并引入多模態(tài)增強(qiáng)的對象概念學(xué)習(xí)器。利用以視覺為中心和圖像文本模式,我們的半監(jiān)督學(xué)習(xí)框架向?qū)W生模型傳授對象性知識,從而實(shí)現(xiàn)類感知檢測。本文提到的方法,用于角點(diǎn)案例檢測的多模態(tài)增強(qiáng)對象學(xué)習(xí)器(MENOL),可以以較低的訓(xùn)練成本顯著提高新類的召回率。

自動駕駛場景目標(biāo)檢測方法概述

自動駕駛技術(shù)追求的目標(biāo)是在無需人工干預(yù)的情況下駕駛車輛,同時(shí)保證安全。物體檢測是自動駕駛的一項(xiàng)基本任務(wù),旨在識別和定位圖像中的物體。深度學(xué)習(xí)的采用加速了目標(biāo)檢測研究的進(jìn)展,人們提出了許多精心設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)來提高目標(biāo)檢測的準(zhǔn)確性。現(xiàn)有的目標(biāo)檢測方法已經(jīng)在封閉場景中實(shí)現(xiàn)了高精度,其中目標(biāo)類別是預(yù)先定義的。然而,這些方法在開放世界場景中的性能并不令人滿意,因?yàn)樵陂_放世界場景中可能會遇到新的對象類別和實(shí)例。

圖片

圖 1:極端情況的示例

自動駕駛中的一個(gè)主要開放世界對象檢測挑戰(zhàn)稱為極端情況檢測。極端情況由兩種類型組成:(i)新穎類的實(shí)例(例如,失控的輪胎)和(ii)普通類的新穎實(shí)例(例如,翻倒的卡車)。極端情況的示例如圖 1 所示,大多數(shù)自動駕駛數(shù)據(jù)集中通常不存在“交通錐”類別。然而,大多數(shù)檢測器通常無法檢測訓(xùn)練過程中未見過或很少見過的新物體,導(dǎo)致召回率低、漏報(bào)率高。

自動駕駛中的物體檢測可能會遇到極端情況問題,處理這個(gè)問題的一種方法稱為開放世界對象檢測(OWOD)的工作提出了這種范式,旨在檢測一組給定的已知對象,同時(shí)學(xué)習(xí)識別未知對象。ORE是第一個(gè)開放世界的物體檢測器,它利用可學(xué)習(xí)的基于能量的未知標(biāo)識符來區(qū)分未知類別和已知類別。OW-DETR通過使用基于Transformer的框架來擴(kuò)展 ORE,以明確地解決端到端的 OWOD 挑戰(zhàn)。OWOD 的工作有希望改進(jìn)出相對于閉集目標(biāo)檢測器,但它們?nèi)匀淮嬖谠S多局限性。具體來說,這些完全監(jiān)督的方法對已知類別有強(qiáng)烈的偏見,導(dǎo)致他們無法檢測到新的極端情況類別。此外,如果訓(xùn)練數(shù)據(jù)集不夠大,它們的泛化性能也會很差。

最近,許多基于多種模式的研究取得了重大進(jìn)展。

計(jì)算機(jī)視覺中的閉集對象檢測涉及識別和定位圖像中的預(yù)定義對象。方法可分為一級或兩級。像 YOLO這樣的單階段方法直接在單個(gè)網(wǎng)絡(luò)中執(zhí)行定位和分類。以 Faster R-CNN為例,其包含兩階段方法:具有用于候選框生成的提取階段和用于框分類和細(xì)化的后續(xù)階段。雖然兩階段模型提供了更高的精度,但由于額外的提案生成階段,它們會產(chǎn)生更大的計(jì)算成本。

開放世界對象檢測涉及預(yù)測對象的類別標(biāo)簽和邊界框,包括模型必須學(xué)習(xí)的未知類別對象。約瑟夫等人提出的ORE是第一個(gè)使用區(qū)域提議網(wǎng)絡(luò)(RPN)來生成與類無關(guān)的開放世界對象檢測器。它對偽未知物進(jìn)行自動標(biāo)記來進(jìn)行訓(xùn)練,使用可學(xué)習(xí)的基于能量的標(biāo)識符來區(qū)分未知類別。古普塔等人提出了一種基于端到端Transformer的框架,通過注意力驅(qū)動的偽標(biāo)簽、新穎性分類和對象性評分來解決開放世界的對象檢測挑戰(zhàn)。黃等識別基于 RGB 的檢測器中的過度擬合問題,并引入 GOOD,這是一種利用幾何線索來增強(qiáng)檢測性能的新穎框架。

多樣化的信息有助于多種模式的成功,它為模型提供了理解世界的各種視角。視覺語言模型 (VLM) 和開放詞匯對象檢測涉及通過集成多種模式來檢測未學(xué)習(xí)類別的對象,VLM 是對齊圖像和文本表示的大型預(yù)訓(xùn)練模型。CLIP 的提議表明圖像-文本對包含比預(yù)定義概念更邊界的視覺概念。視覺表示可以通過大量的圖像-文本對來學(xué)習(xí)。大規(guī)模視覺語言模型CLIP 的引入促進(jìn)了開放詞匯目標(biāo)檢測(OVOD)和零樣本目標(biāo)檢測(ZSOD)的發(fā)展。他們都專注于如何在基類上訓(xùn)練對象檢測器,然后在推理過程中推廣到新的類。對比語言-圖像預(yù)訓(xùn)練(CLIP)在圖像分類中表現(xiàn)出顯著的零樣本能力。

在 CLIP 成功的基礎(chǔ)上,研究人員探索開放詞匯對象檢測 (OVOD),應(yīng)用 VLM 來檢測未見過類別的對象。OVOD的第一個(gè)工作是基于字幕信息提取,將單獨(dú)的視覺嵌入與文本嵌入對齊,從而實(shí)現(xiàn)它們之間的強(qiáng)相關(guān)性。例如,Li等人介紹Grounded Language-Image Pre-training (GLIP),它是在區(qū)域詞級別預(yù)訓(xùn)練的大規(guī)模視覺語言模型。大多數(shù)現(xiàn)有的ZSOD方法從基類中學(xué)習(xí),并通過利用基類和新類別之間的相關(guān)性生成新類。盡管 OVOD 和 ZSOD 對于某些開放世界場景有效,但我們認(rèn)為它們不適合解決極端情況問題。原因是類別的語義邊界不夠清晰,極端情況類別之間的差異較大。例如,“碎片”和“雜項(xiàng)”的類別不如“汽車”或“行人”的類別清晰,使得 OVOD 或 ZSOD 管道的視覺和語言表示空間很難對齊。

與 ZSOD 或 OVOD 相比,本文介紹了一種用于角點(diǎn)情況檢測的多模態(tài)增強(qiáng)對象學(xué)習(xí)器(MENOL)。MENOL 主要側(cè)重于學(xué)習(xí)客觀性的概念并提高對新識別場景課程的回憶。許多研究將極端情況檢測問題視為分布外 (OOD) 或異常檢測問題。他們設(shè)計(jì)了非常復(fù)雜的規(guī)則來檢測極端情況下的目標(biāo)。然而,t-SNE 可視化(如下圖 3)顯示表示對于一些位置目標(biāo),其檢測結(jié)果非常分散,因此很難設(shè)計(jì)這樣的通用規(guī)則。

圖片

我們建議通過使用深度和法線的幾何線索來縮小已知類和未知類之間的差距。為了學(xué)習(xí)對象性的概念,我們設(shè)計(jì)了一個(gè)多模態(tài)增強(qiáng)的對象性概念學(xué)習(xí)器,這是一種以視覺為中心的圖像文本多模態(tài)設(shè)計(jì)。我們的 MENOL 被設(shè)計(jì)為半監(jiān)督框架,使用客觀概念學(xué)習(xí)器作為教師模型,為未標(biāo)記數(shù)據(jù)(提取的深度和正常圖像)生成與類別無關(guān)的偽框。然后將偽標(biāo)記的深度和法線圖像與完全注釋的原始 RGB 圖像合并,并輸入學(xué)生模型以訓(xùn)練最終的類感知開放世界對象檢測器??偟膩碚f,我們提出的 MENOL 成功解決了上述問題,并以相對較低的訓(xùn)練成本顯著提高了新類別的召回率。學(xué)習(xí)對象性概念并減少已知類和未知類之間的差異的想法是處理極端情況檢測問題的通用方法。

本文方法論

我們的MENOL方法通過利用多種模式和半監(jiān)督學(xué)習(xí)框架,提供了一種新穎的Pipeline來檢測自動駕駛中的極端情況。為了減少已知類和未知類之間的差異,我們利用深度信息和法線信息這些幾何線索為模型學(xué)習(xí)提供額外的知識和多樣化的信息,這是一種以視覺為中心的多模態(tài)。

為了學(xué)習(xí)客觀性概念并提高對新類別的回憶,我們訓(xùn)練客觀性概念學(xué)習(xí)器對所有對象執(zhí)行與類別無關(guān)的檢測。為了將客觀性概念的知識注入學(xué)習(xí)模型中,我們設(shè)計(jì)了一個(gè)半監(jiān)督學(xué)習(xí)框架。客觀概念學(xué)習(xí)器充當(dāng)教師模型,為未標(biāo)記的數(shù)據(jù)(提取的深度和正常圖像)生成偽框。然后,將這些偽標(biāo)記的深度和法線圖像與完全注釋的原始 RGB 圖像合并來訓(xùn)練學(xué)生模型,這是用于極端情況檢測任務(wù)的最終類感知開放世界對象檢測器。

本文算法模型的概述如下圖 2 所示。它由 4 個(gè)階段組成。

圖片

圖2:MENOL框架概述

第一階段:訓(xùn)練數(shù)據(jù)集中的 RGB 圖像首先由現(xiàn)成的Omnidata模型進(jìn)行預(yù)處理,以提取幾何線索。這些幾何線索信息主要包含圖像深度信息和圖像為中心的多模態(tài)信息。

第二階段:生成的幾何線索圖像用于訓(xùn)練客觀性概念學(xué)習(xí)器。該訓(xùn)練過程包括利用CNN網(wǎng)絡(luò)對前置圖像深度信息和幾何信息進(jìn)行有效處理生成多尺度圖像特征信息。

第三階段:訓(xùn)練好的客觀概念學(xué)習(xí)器用作教師模型,為來自另一個(gè)自動駕駛數(shù)據(jù)集的深度和法線圖像生成偽框。

第四階段:偽標(biāo)記深度和法線圖像與完全注釋的原始 RGB 圖像合并,然后輸入基于 DINO 的學(xué)生模型來訓(xùn)練最終的開放世界類感知對象檢測器。過程中,僅需要對使用學(xué)生模型進(jìn)行推理。

1、幾何線索提取

深度關(guān)注物體的相對空間差異,忽略物體表面的細(xì)節(jié),而法線則關(guān)注方向差異。減少已知和未知對象在幾何線索方面的差異有利于模型學(xué)習(xí)對象性的概念。深度圖像和法線圖像以及原始 RGB 圖像構(gòu)成了以視覺為中心的多種模態(tài),防止模型過度擬合訓(xùn)練類并在檢測對象時(shí)僅依賴視覺外觀線索。

如圖2第一階段所示,我們使用Omnidata模型從訓(xùn)練數(shù)據(jù)集中的原始RGB圖像中提取深度和法線圖像。Omnidata 模型在 Omnidata Starter Dataset (OSD) 上進(jìn)行訓(xùn)練,使用跨任務(wù)一致性和 2D/3D 數(shù)據(jù)增強(qiáng)。它可以生成高質(zhì)量的深度和法線圖像,并且這些幾何線索背后的不變性非常強(qiáng)大。

2、學(xué)習(xí)對象性的概念

受到 GOOD之前工作的啟發(fā),我們還使用幾何線索來增強(qiáng)開放世界對象檢測器的性能。GOOD 訓(xùn)練基于 OLN 的提案網(wǎng)絡(luò),使用已知類別的 RGB 圖像來生成深度和法線圖像的提案。然而,GOOD 有其局限性。首先,OLN 只是簡單地用定位質(zhì)量估計(jì)器替換 Faster R-CNN 的分類器頭,并使用相對較小規(guī)模的圖像來訓(xùn)練它。因此,該模型仍然對已知類有強(qiáng)烈的偏見,并且無法學(xué)習(xí)對象性的概念。如果訓(xùn)練數(shù)據(jù)集不夠大,它在極端情況檢測任務(wù)上表現(xiàn)不佳。另外,GOOD的提議網(wǎng)絡(luò)是在RGB圖像上訓(xùn)練的,需要生成深度圖像和普通圖像的Proposals,這兩種圖像的不同特征限制了潛在網(wǎng)絡(luò)的泛化性能。最后,GOOD只能進(jìn)行類別無關(guān)的目標(biāo)檢測,這與自動駕駛的實(shí)際應(yīng)用不符。

下面介紹我們的方法是如何解決了這些限制的。

為了解決 GOOD 提議網(wǎng)絡(luò)中已知類的過度擬合問題,我們提出使用對象概念學(xué)習(xí)器來對所有對象執(zhí)行與類無關(guān)的檢測。我們的客觀性概念學(xué)習(xí)器是一種視覺語言多模式設(shè)計(jì)。使用可變形DETR架構(gòu)作為視覺分支來提取視覺特征,并使用RoBERTa作為語言分支來對文本進(jìn)行編碼。

由于圖像中的物體并不總是處于相同的比例,因此比例變化對于自動駕駛物體檢測器來說是一個(gè)巨大的挑戰(zhàn)。在我們的客觀概念學(xué)習(xí)器中,圖像首先被輸入 CNN 主干以提取多尺度視覺特征。如圖2階段II所示,提取的特征隨后被輸入到Deformable DETR中以獲得視覺表示向量。多尺度可變形注意力模塊在多個(gè)尺度上計(jì)算注意力,以合并更好的上下文信息。為了降低計(jì)算成本,可變形注意力對參考(查詢)圖像位置周圍的一小組鍵進(jìn)行采樣,以實(shí)現(xiàn)相對于圖像特征圖大小的線性復(fù)雜度。預(yù)訓(xùn)練的 RoBERTa 對文本查詢輸入進(jìn)行編碼并生成相應(yīng)的隱藏向量序列。連接扁平圖像特征和文本嵌入可能會破壞圖像的空間結(jié)構(gòu)。因此,更好的選擇是使用后期多模態(tài)融合機(jī)制來融合圖像特征和文本嵌入。

具體來說,首先使用 Deformable DETR 架構(gòu)處理圖像特征以獲得對象查詢表示。與文本嵌入連接后,它們被輸入到 Transformer 架構(gòu)中以融合多模態(tài)信息。在每個(gè)Transformer自注意力塊之后應(yīng)用輸出頭,并計(jì)算Soft Token損失和輔助損失以優(yōu)化參數(shù)。軟令牌丟失旨在從引用每個(gè)匹配對象的原始文本中預(yù)測Token的范圍,而不是預(yù)測每個(gè)檢測到的對象類別。該模型經(jīng)過訓(xùn)練,可以預(yù)測所有標(biāo)記位置上的均勻分布,這些標(biāo)記位置對應(yīng)于使用雙向匹配與地面實(shí)況框匹配的每個(gè)預(yù)測框的對象。使用圖像-文本多模態(tài)使模型能夠從大量圖像-文本對中學(xué)習(xí)并更好地理解對象性。

3、通過半監(jiān)督學(xué)習(xí)框架注入對象性概念知識

先前的半監(jiān)督目標(biāo)檢測(SSOD)工作取得了巨大成功,通常采用教師模型的偽標(biāo)記。最近的研究將 SSOD 擴(kuò)展到開放世界的物體檢測,優(yōu)于完全監(jiān)督的方法。

由于對象概念學(xué)習(xí)器僅關(guān)注“什么是對象?”,因此它缺乏類感知檢測能力。為了利用這些知識進(jìn)行類感知檢測,我們引入了半監(jiān)督學(xué)習(xí)框架。如圖2第三階段和第四階段所示,教師模型為未標(biāo)記數(shù)據(jù)(提取的深度和正常圖像)生成與類別無關(guān)的偽框,將客觀概念知識注入學(xué)生模型中??紤]到這些圖像中反映的不同方面,教師模型生成不同的偽框。該設(shè)計(jì)利用以視覺為中心的多種模式為學(xué)生模型提供多樣化的信息。偽標(biāo)記深度和法線圖像與完全注釋的 RGB 圖像合并,并用于訓(xùn)練學(xué)生模型以進(jìn)行開放世界的類感知對象檢測。

學(xué)生模型采用基于 DINO的端到端架構(gòu),并具有 Swin Transformer 主干。它采用對比去噪訓(xùn)練、用于錨點(diǎn)初始化的混合查詢選擇以及用于框預(yù)測的前瞻兩次方案。

4、目標(biāo)優(yōu)化

我們的學(xué)生模型的優(yōu)化目標(biāo)包括分類損失和框回歸損失。分類損失是一般的Focal Loss,框回歸損失計(jì)算為廣義交并集 (GIoU) 損失和 L1 損失的組合。

圖片

實(shí)驗(yàn)結(jié)果研究

我們使用 Omnidata 模型從 CODA 和 SODA10M 訓(xùn)練集的原始 RGB 圖像中提取幾何線索(深度和法線)。它們沒有標(biāo)簽,但我們可以使用它們對應(yīng)的 RGB 圖像的注釋作為它們的標(biāo)簽。然后,使用BLIP為來自CODA訓(xùn)練數(shù)據(jù)集的圖像生成標(biāo)題。深度圖像和正常圖像與原始 RGB 圖像共享相同的標(biāo)題。

對象性概念學(xué)習(xí)器的 CNN 主干使用在 ImageNet-1K 上預(yù)訓(xùn)練的 ResNet-101 的權(quán)重進(jìn)行初始化。對象性概念學(xué)習(xí)器使用來自 MS COCO、Flickr30k 和 Visual Genome (VG) 的大約 1.3M 個(gè)對齊的圖像-文本對進(jìn)行預(yù)訓(xùn)練。這些數(shù)據(jù)集包含來自不同場景的各種對象。經(jīng)過預(yù)訓(xùn)練,該模型在一定程度上學(xué)習(xí)了對象性的概念。提取的深度和正常圖像以及 CODA 數(shù)據(jù)集中的 RGB 圖像的組合,連同它們相應(yīng)的標(biāo)題一起被輸入到對象性概念學(xué)習(xí)器中以對模型進(jìn)行微調(diào)。在微調(diào)階段,CNN 主干、可變形 DETR 和語言主干的參數(shù)被凍結(jié),而后期融合 Transformer 的參數(shù)被更新。由于我們不關(guān)心物體的具體類別,而只關(guān)注“什么是物體?”,因此我們使用“所有物體”作為文本查詢,在推理階段生成與類別無關(guān)的預(yù)測。

經(jīng)過訓(xùn)練的物體概念學(xué)習(xí)器充當(dāng)教師模型,為我們訓(xùn)練數(shù)據(jù)集(即 SODA10M)中提取的深度和正常圖像生成偽框。偽標(biāo)記的深度和正常圖像與完全注釋的原始 RGB 圖像合并并輸入到學(xué)生模型中。學(xué)生模型是基于 DINO [17] 的閉集物體檢測器。它在 Objects365 數(shù)據(jù)集(約 1.7M 張帶注釋的圖像)上進(jìn)行了預(yù)訓(xùn)練,并使用 Swin Transformer 大型主干。損失函數(shù) 1 的超參數(shù)設(shè)置為圖片,圖片。我們使用 AdamW 優(yōu)化器,初始學(xué)習(xí)率為 0.0001,權(quán)重衰減為 0.0001,來訓(xùn)練基于 DINO 的學(xué)生模型。訓(xùn)練過程使用 2 個(gè) NVIDIA Geforce RTX 3090 GPU 和批處理大小為 2,在 35 個(gè)時(shí)期內(nèi)完成,實(shí)現(xiàn)是基于 MMDetection 工具。

我們的 MENOL 和基線方法在 CODA-val 數(shù)據(jù)集上的表現(xiàn)如下表所示。我們的 MENOL 實(shí)現(xiàn)了 0.766 mAR-corner、0.798 mAR-agnostic、0.742 mAP-agnostic 和 0.711 mAP-common,大大優(yōu)于基線模型。這表明我們的 MENOL 具有更好的極端情況檢測能力。

圖片

我們的 MENOL 和基線方法在 BDD100K-val 數(shù)據(jù)集上的表現(xiàn)如下表所示。我們的 MENOL 實(shí)現(xiàn)了0.882召回率和 0.786 mAP50,優(yōu)于基線模型。這表明我們的 MENOL 仍然具有更好的常見物體檢測能力。

圖片

我們的 MENOL 在 CODA 數(shù)據(jù)集上的檢測結(jié)果如圖 4 所示。從圖中可以看出,基本上我們提出的算法對視覺感知場景中的所有目標(biāo)都能完全的檢測和識別。

圖片

總結(jié)

本文介紹了一種新穎的多模態(tài)增強(qiáng)對象概念學(xué)習(xí)器和一種基于半監(jiān)督的開放世界對象檢測器,用于自動駕駛中的極端情況檢測,稱為MENOL,它可以以相對較低的訓(xùn)練成本有效提高新類的召回率。MENOL 利用以視覺為中心和圖像文本多模態(tài)學(xué)習(xí),結(jié)合幾何線索來解決自動駕駛中的極端情況檢測挑戰(zhàn)。通過有效地減少已知和未知類別之間的差異,MENOL 在新類別的召回方面表現(xiàn)出顯著的改進(jìn),有助于提高不同場景中物體檢測的穩(wěn)健性。未來的工作可以探索利用更豐富的模態(tài)和更通用的物體概念學(xué)習(xí)模型,來提高自動駕駛中道路檢測的性能。 

分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號-25