日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

BEV端到端視覺論文合集|從不同的視角解析BEV感知技術(shù)

2024-11-22 09:03:39·  來源:汽車學(xué)堂Automooc  
 

隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展,基于攝像頭的感知系統(tǒng)已成為關(guān)鍵,而Bird’s Eye View (BEV)大模型在其中發(fā)揮著重要作用。BEV大模型是一種將攝像頭捕捉到的2D圖像轉(zhuǎn)換為自上而下視角的3D感知的技術(shù),使得車輛能夠更好地理解周圍環(huán)境。

BEV大模型通過提升環(huán)境感知能力、增強(qiáng)決策和規(guī)劃、降低硬件依賴以及推動(dòng)技術(shù)創(chuàng)新,顯著加速了自動(dòng)駕駛汽車的發(fā)展進(jìn)程。

本文分享不同視角的BEV的最新研究論文研究,旨在為學(xué)習(xí)BEV、端到端的學(xué)員分享一些內(nèi)容參考。

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

BEVFormer是一種基于多相機(jī)圖像的自動(dòng)駕駛視覺感知新方法。該方法利用Transformer和時(shí)序結(jié)構(gòu)生成鳥瞰視圖(BEV)特征,支持多種自動(dòng)駕駛感知任務(wù)。BEVFormer通過空間和時(shí)間查詢與空間和時(shí)間空間進(jìn)行交互,聚合時(shí)空信息,從而獲得更強(qiáng)大的表示能力。在nuScenes測(cè)試集上,該方法達(dá)到了新的技術(shù)水平,超越了以前的最優(yōu)方法,并與激光雷達(dá)基準(zhǔn)方法的性能相當(dāng)。

圖片

CenterNet: Keypoint Triplets for Object Detection

本文提出了一種名為CenterNet的高效物體檢測(cè)方法,該方法基于關(guān)鍵點(diǎn)三元組而非傳統(tǒng)的關(guān)鍵點(diǎn)對(duì)進(jìn)行物體檢測(cè),從而提高了檢測(cè)的精度和召回率。CenterNet在CornerNet這一代表性的一階段關(guān)鍵點(diǎn)檢測(cè)器的基礎(chǔ)上構(gòu)建,并設(shè)計(jì)了兩個(gè)定制模塊:級(jí)聯(lián)角點(diǎn)池化和中心池化,以豐富從左上角和右下角收集的信息。這種方法通過探索每個(gè)裁剪區(qū)域內(nèi)的視覺模式,以最小的成本提高了物體檢測(cè)的準(zhǔn)確性。

圖片

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

本文提出了BEVFusion,一個(gè)高效且通用的多任務(wù)多傳感器融合框架,用于自動(dòng)駕駛系統(tǒng)。該框架打破了傳統(tǒng)的點(diǎn)級(jí)融合方式,將多模態(tài)特征統(tǒng)一在共享的鳥瞰視圖(BEV)表示空間中,從而很好地保留了幾何和語義信息。通過優(yōu)化BEV池化,解決了視圖轉(zhuǎn)換中的關(guān)鍵效率瓶頸,降低了延遲。BEVFusion具有任務(wù)無關(guān)性,幾乎無需架構(gòu)更改即可支持不同的3D感知任務(wù)。在nuScenes數(shù)據(jù)集上,BEVFusion在3D目標(biāo)檢測(cè)和BEV地圖分割任務(wù)上均達(dá)到了新的先進(jìn)水平,同時(shí)降低了計(jì)算成本。

圖片

LSS: Lift, Splat, Shoot: Representing Scenes from Bird’s-Eye View with Lifting and Splattering

這篇文檔的主題是通過隱含地將任意相機(jī)支架的圖像導(dǎo)出到3D空間來編碼圖像,來自NVIDIA多倫多vector研究所的Jonah Philion和Sja Fidler。他們提出了一種新的端到端架構(gòu),可以從任意數(shù)量的相機(jī)獲取圖像數(shù)據(jù),直接提取場(chǎng)景的 bird’s-eye-view 表示,并將其用于 motion planning。該架構(gòu)的核心思想是“ lift”每個(gè)圖像 individual 地將其特征面提取到每個(gè)相機(jī)的凸包上,然后“splat”所有凸包到一個(gè)柵格化的 bird’s-eye-view 網(wǎng)格上。通過訓(xùn)練整個(gè)相機(jī)支架,我們提供了證據(jù)表明,我們的模型不僅可以表示圖像,還可以將所有相機(jī)的預(yù)測(cè)融合到一個(gè)單一的連貫表示中,同時(shí) robust 到校準(zhǔn)誤差。在標(biāo)準(zhǔn) bird’s-eye-view 任務(wù)中,例如物體分割和地圖分割,我們的模型優(yōu)于所有基準(zhǔn)線和先前工作。為了學(xué)習(xí)用于 motion planning 密集表示的DenseRepresentations,我們表明,我們的模型表示的表示可以用于解釋端到端 motion planning,通過“ shooting” 模板軌跡到 bird’s-eyeview 成本矩陣中。

圖片

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

本文提出了一個(gè)名為PETR的多視角3D目標(biāo)檢測(cè)框架。PETR通過編碼3D坐標(biāo)信息到圖像特征中,生成3D位置感知特征。目標(biāo)查詢可以直接與這些特征進(jìn)行交互,執(zhí)行端到端的3D目標(biāo)檢測(cè)。PETR在標(biāo)準(zhǔn)nuScenes數(shù)據(jù)集上達(dá)到了領(lǐng)先水平,排名第一。該方法簡(jiǎn)單但強(qiáng)大,為未來研究提供了基線。重點(diǎn)內(nèi)容:1. PETR用于多視角3D目標(biāo)檢測(cè)。2. 通過編碼3D坐標(biāo)信息到圖像特征中,生成3D位置感知特征。3. 目標(biāo)查詢直接與3D位置感知特征交互,進(jìn)行端到端的目標(biāo)檢測(cè)。4. PETR在nuScenes數(shù)據(jù)集上表現(xiàn)優(yōu)秀,提供簡(jiǎn)單而強(qiáng)大的基線。

圖片

 BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View

本文提出了一種高效的3D目標(biāo)檢測(cè)范式BEVDet,通過優(yōu)化數(shù)據(jù)增強(qiáng)和非極大值抑制策略,實(shí)現(xiàn)了在鳥瞰視角下的高性能檢測(cè),為自主駕駛中的環(huán)境感知提供了新的解決方案。

圖片

 

MotionNet: Joint Perception and Motion Prediction for Autonomous Driving based on Bird’s Eye View Maps

主要介紹了一個(gè)用于自動(dòng)駕駛的跟蹤與3D物體軌跡檢測(cè)預(yù)測(cè)系統(tǒng),該系統(tǒng)包括3D邊界框、運(yùn)動(dòng)預(yù)測(cè)、MotionNet規(guī)劃以及基于LiDAR點(diǎn)云的BEV地圖(包含運(yùn)動(dòng)和類別信息)。特別地,提到了一個(gè)名為MotionNet的模型,該模型能夠聯(lián)合執(zhí)行從3D點(diǎn)云中感知和預(yù)測(cè)運(yùn)動(dòng)的任務(wù)。MotionNet以LiDAR掃描序列作為輸入,輸出鳥瞰圖(BEV)地圖。此外,還討論了不同時(shí)空卷積方法以及BEV地圖中二進(jìn)制體素分辨率對(duì)模型性能的影響??偨Y(jié)來說,該內(nèi)容描述了一個(gè)用于自動(dòng)駕駛的3D物體檢測(cè)和軌跡預(yù)測(cè)系統(tǒng),重點(diǎn)介紹了其中的MotionNet模型及其性能優(yōu)化方法。

圖片

 

Cross-View Transformers for Real-Time Map-View Semantic Segmentation

Cross-view Transformers是一種高效的基于注意力的模型,用于從多個(gè)攝像頭進(jìn)行地圖視角的語義分割。該模型通過相機(jī)感知的跨視角嵌入注意力機(jī)制,隱式地學(xué)習(xí)從單個(gè)相機(jī)視角到規(guī)范地圖視角的映射。每個(gè)相機(jī)使用依賴于其內(nèi)在和外在校準(zhǔn)的位置嵌入,使Transformer能夠在不顯式進(jìn)行幾何建模的情況下學(xué)習(xí)不同視角之間的映射。該架構(gòu)包括每個(gè)視角的卷積圖像編碼器和跨視角Transformer層,以推斷地圖視角的語義分割。該模型簡(jiǎn)單、易于并行化,并實(shí)時(shí)運(yùn)行。在nuScenes數(shù)據(jù)集上,該架構(gòu)的性能達(dá)到了業(yè)界領(lǐng)先水平,且推理速度提高了4倍。

圖片

 

Self-Supervised Pillar Motion Learning for Autonomous Driving

本文提出了一種自監(jiān)督的支柱運(yùn)動(dòng)學(xué)習(xí)方法,用于自動(dòng)駕駛中的運(yùn)動(dòng)行為理解。該方法利用點(diǎn)云和配對(duì)相機(jī)圖像中的免費(fèi)監(jiān)督信號(hào)進(jìn)行純自監(jiān)督運(yùn)動(dòng)估計(jì),無需大量標(biāo)注的自駕駛場(chǎng)景訓(xùn)練數(shù)據(jù)。模型通過結(jié)構(gòu)一致性增強(qiáng)和跨傳感器運(yùn)動(dòng)正則化實(shí)現(xiàn)自監(jiān)督。實(shí)驗(yàn)表明,該方法與監(jiān)督方法相比具有競(jìng)爭(zhēng)力。

圖片

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25