BEV端到端視覺論文合集|從不同的視角解析BEV感知技術(shù)

2024-11-22 09:03:39· 來源：汽車學(xué)堂Automooc

隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展，基于攝像頭的感知系統(tǒng)已成為關(guān)鍵，而Bird’s Eye View (BEV)大模型在其中發(fā)揮著重要作用。BEV大模型是一種將攝像頭捕捉到的2D圖像轉(zhuǎn)換為自上而下視角的3D感知的技術(shù)，使得車輛能夠更好地理解周圍環(huán)境。

BEV大模型通過提升環(huán)境感知能力、增強(qiáng)決策和規(guī)劃、降低硬件依賴以及推動(dòng)技術(shù)創(chuàng)新，顯著加速了自動(dòng)駕駛汽車的發(fā)展進(jìn)程。

本文分享不同視角的BEV的最新研究論文研究，旨在為學(xué)習(xí)BEV、端到端的學(xué)員分享一些內(nèi)容參考。

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

BEVFormer是一種基于多相機(jī)圖像的自動(dòng)駕駛視覺感知新方法。該方法利用Transformer和時(shí)序結(jié)構(gòu)生成鳥瞰視圖（BEV）特征，支持多種自動(dòng)駕駛感知任務(wù)。BEVFormer通過空間和時(shí)間查詢與空間和時(shí)間空間進(jìn)行交互，聚合時(shí)空信息，從而獲得更強(qiáng)大的表示能力。在nuScenes測(cè)試集上，該方法達(dá)到了新的技術(shù)水平，超越了以前的最優(yōu)方法，并與激光雷達(dá)基準(zhǔn)方法的性能相當(dāng)。

CenterNet: Keypoint Triplets for Object Detection

本文提出了一種名為CenterNet的高效物體檢測(cè)方法，該方法基于關(guān)鍵點(diǎn)三元組而非傳統(tǒng)的關(guān)鍵點(diǎn)對(duì)進(jìn)行物體檢測(cè)，從而提高了檢測(cè)的精度和召回率。CenterNet在CornerNet這一代表性的一階段關(guān)鍵點(diǎn)檢測(cè)器的基礎(chǔ)上構(gòu)建，并設(shè)計(jì)了兩個(gè)定制模塊：級(jí)聯(lián)角點(diǎn)池化和中心池化，以豐富從左上角和右下角收集的信息。這種方法通過探索每個(gè)裁剪區(qū)域內(nèi)的視覺模式，以最小的成本提高了物體檢測(cè)的準(zhǔn)確性。

BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

本文提出了BEVFusion，一個(gè)高效且通用的多任務(wù)多傳感器融合框架，用于自動(dòng)駕駛系統(tǒng)。該框架打破了傳統(tǒng)的點(diǎn)級(jí)融合方式，將多模態(tài)特征統(tǒng)一在共享的鳥瞰視圖（BEV）表示空間中，從而很好地保留了幾何和語義信息。通過優(yōu)化BEV池化，解決了視圖轉(zhuǎn)換中的關(guān)鍵效率瓶頸，降低了延遲。BEVFusion具有任務(wù)無關(guān)性，幾乎無需架構(gòu)更改即可支持不同的3D感知任務(wù)。在nuScenes數(shù)據(jù)集上，BEVFusion在3D目標(biāo)檢測(cè)和BEV地圖分割任務(wù)上均達(dá)到了新的先進(jìn)水平，同時(shí)降低了計(jì)算成本。

LSS: Lift, Splat, Shoot: Representing Scenes from Bird’s-Eye View with Lifting and Splattering

這篇文檔的主題是通過隱含地將任意相機(jī)支架的圖像導(dǎo)出到3D空間來編碼圖像，來自NVIDIA多倫多vector研究所的Jonah Philion和Sja Fidler。他們提出了一種新的端到端架構(gòu)，可以從任意數(shù)量的相機(jī)獲取圖像數(shù)據(jù)，直接提取場(chǎng)景的 bird’s-eye-view 表示，并將其用于 motion planning。該架構(gòu)的核心思想是“ lift”每個(gè)圖像 individual 地將其特征面提取到每個(gè)相機(jī)的凸包上，然后“splat”所有凸包到一個(gè)柵格化的 bird’s-eye-view 網(wǎng)格上。通過訓(xùn)練整個(gè)相機(jī)支架，我們提供了證據(jù)表明，我們的模型不僅可以表示圖像，還可以將所有相機(jī)的預(yù)測(cè)融合到一個(gè)單一的連貫表示中，同時(shí) robust 到校準(zhǔn)誤差。在標(biāo)準(zhǔn) bird’s-eye-view 任務(wù)中，例如物體分割和地圖分割，我們的模型優(yōu)于所有基準(zhǔn)線和先前工作。為了學(xué)習(xí)用于 motion planning 密集表示的DenseRepresentations，我們表明，我們的模型表示的表示可以用于解釋端到端 motion planning，通過“ shooting” 模板軌跡到 bird’s-eyeview 成本矩陣中。

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

本文提出了一個(gè)名為PETR的多視角3D目標(biāo)檢測(cè)框架。PETR通過編碼3D坐標(biāo)信息到圖像特征中，生成3D位置感知特征。目標(biāo)查詢可以直接與這些特征進(jìn)行交互，執(zhí)行端到端的3D目標(biāo)檢測(cè)。PETR在標(biāo)準(zhǔn)nuScenes數(shù)據(jù)集上達(dá)到了領(lǐng)先水平，排名第一。該方法簡(jiǎn)單但強(qiáng)大，為未來研究提供了基線。重點(diǎn)內(nèi)容：1. PETR用于多視角3D目標(biāo)檢測(cè)。2. 通過編碼3D坐標(biāo)信息到圖像特征中，生成3D位置感知特征。3. 目標(biāo)查詢直接與3D位置感知特征交互，進(jìn)行端到端的目標(biāo)檢測(cè)。4. PETR在nuScenes數(shù)據(jù)集上表現(xiàn)優(yōu)秀，提供簡(jiǎn)單而強(qiáng)大的基線。

BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View

本文提出了一種高效的3D目標(biāo)檢測(cè)范式BEVDet，通過優(yōu)化數(shù)據(jù)增強(qiáng)和非極大值抑制策略，實(shí)現(xiàn)了在鳥瞰視角下的高性能檢測(cè)，為自主駕駛中的環(huán)境感知提供了新的解決方案。

MotionNet: Joint Perception and Motion Prediction for Autonomous Driving based on Bird’s Eye View Maps

主要介紹了一個(gè)用于自動(dòng)駕駛的跟蹤與3D物體軌跡檢測(cè)預(yù)測(cè)系統(tǒng)，該系統(tǒng)包括3D邊界框、運(yùn)動(dòng)預(yù)測(cè)、MotionNet規(guī)劃以及基于LiDAR點(diǎn)云的BEV地圖（包含運(yùn)動(dòng)和類別信息）。特別地，提到了一個(gè)名為MotionNet的模型，該模型能夠聯(lián)合執(zhí)行從3D點(diǎn)云中感知和預(yù)測(cè)運(yùn)動(dòng)的任務(wù)。MotionNet以LiDAR掃描序列作為輸入，輸出鳥瞰圖（BEV）地圖。此外，還討論了不同時(shí)空卷積方法以及BEV地圖中二進(jìn)制體素分辨率對(duì)模型性能的影響?？偨Y(jié)來說，該內(nèi)容描述了一個(gè)用于自動(dòng)駕駛的3D物體檢測(cè)和軌跡預(yù)測(cè)系統(tǒng)，重點(diǎn)介紹了其中的MotionNet模型及其性能優(yōu)化方法。

Cross-View Transformers for Real-Time Map-View Semantic Segmentation

Cross-view Transformers是一種高效的基于注意力的模型，用于從多個(gè)攝像頭進(jìn)行地圖視角的語義分割。該模型通過相機(jī)感知的跨視角嵌入注意力機(jī)制，隱式地學(xué)習(xí)從單個(gè)相機(jī)視角到規(guī)范地圖視角的映射。每個(gè)相機(jī)使用依賴于其內(nèi)在和外在校準(zhǔn)的位置嵌入，使Transformer能夠在不顯式進(jìn)行幾何建模的情況下學(xué)習(xí)不同視角之間的映射。該架構(gòu)包括每個(gè)視角的卷積圖像編碼器和跨視角Transformer層，以推斷地圖視角的語義分割。該模型簡(jiǎn)單、易于并行化，并實(shí)時(shí)運(yùn)行。在nuScenes數(shù)據(jù)集上，該架構(gòu)的性能達(dá)到了業(yè)界領(lǐng)先水平，且推理速度提高了4倍。

Self-Supervised Pillar Motion Learning for Autonomous Driving

本文提出了一種自監(jiān)督的支柱運(yùn)動(dòng)學(xué)習(xí)方法，用于自動(dòng)駕駛中的運(yùn)動(dòng)行為理解。該方法利用點(diǎn)云和配對(duì)相機(jī)圖像中的免費(fèi)監(jiān)督信號(hào)進(jìn)行純自監(jiān)督運(yùn)動(dòng)估計(jì)，無需大量標(biāo)注的自駕駛場(chǎng)景訓(xùn)練數(shù)據(jù)。模型通過結(jié)構(gòu)一致性增強(qiáng)和跨傳感器運(yùn)動(dòng)正則化實(shí)現(xiàn)自監(jiān)督。實(shí)驗(yàn)表明，該方法與監(jiān)督方法相比具有競(jìng)爭(zhēng)力。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：車規(guī)級(jí)V2X芯片- 汽車移動(dòng)通信功能核心
上一篇：新能源汽車應(yīng)用中的【夜視系統(tǒng)】與【雨夜系統(tǒng)】

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

BEV端到端視覺論文合集|從不同的視角解析BEV感知技術(shù)

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對(duì)摩托車前照燈配光性能的工