日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

BEVDepth:為多視圖的3D目標(biāo)檢測獲取可靠深度值

2022-06-30 19:16:26·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection“,上傳于2022年6月21日,作者來自曠視科技、華中理工和西安交大。本

arXiv論文“BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection“,上傳于2022年6月21日,作者來自曠視科技、華中理工和西安交大。

圖片


本文提出一種有可靠深度估計(jì)的3D目標(biāo)檢測器,稱為BEVDepth,用于基于攝像頭的BEV 3D目標(biāo)檢測。分析發(fā)現(xiàn)深度估計(jì)是在沒有攝像頭信息的情況下隱含學(xué)習(xí)的,實(shí)際上是創(chuàng)建偽點(diǎn)云的偽深度。BEVDepth利用編碼的內(nèi)外參獲得顯式深度監(jiān)督信號(hào)。進(jìn)一步引入深度校正子網(wǎng)絡(luò),可以抵消深度真值中投影導(dǎo)致的干擾。


為了減少采用估計(jì)深度將特征從圖像視圖投影到BEV的速度瓶頸,文章提出一種快速視圖變換操作。此外,BEVDepth可以通過多幀輸入輕松擴(kuò)展。BEVDepth在具有挑戰(zhàn)性的nuScenes測試集上實(shí)現(xiàn)最新的60.0%NDS指標(biāo),同時(shí)保持較高的效率。攝像頭和激光雷達(dá)之間的性能差距首次大幅縮小到10%NDS以內(nèi)。

基于攝像頭的3D目標(biāo)檢測,尤其是在自動(dòng)駕駛領(lǐng)域以其高效性和豐富的語義信息而備受關(guān)注。最近基于視覺的技術(shù)主要依賴于給定多個(gè)攝像頭圖像的像素級(jí)深度估計(jì)。然后添加一個(gè)視圖變換子網(wǎng)絡(luò),將特征從圖像視圖投影到BEV中,同時(shí)顯示內(nèi)外參信息。盡管這些基于深度的3D檢測器很受歡迎,但人們自然會(huì)問:這些檢測器內(nèi)深度估計(jì)的質(zhì)量和效率如何?它是否滿足精確有效的3D目標(biāo)檢測的要求?


回顧基于深度的3D檢測方法,有以下經(jīng)驗(yàn)認(rèn)識(shí):

  • 最終檢測損失,鼓勵(lì)網(wǎng)絡(luò)的中間層輸出正確的深度,建立隱式深度監(jiān)督作用。然而,深層神經(jīng)網(wǎng)絡(luò)通常具有復(fù)雜的表示形式。如果沒有明確的深度監(jiān)督,網(wǎng)絡(luò)很難準(zhǔn)確輸出深度-覺察特征。

  • 深度子網(wǎng)絡(luò),理論上應(yīng)了解攝像頭信息,以便從圖像中正確推斷深度。然而,現(xiàn)有方法對攝像頭參數(shù)視而不見,導(dǎo)致較差的結(jié)果。

  • 當(dāng)用相同的圖像分辨率和主干網(wǎng)時(shí),基于深度的3D檢測器速度,在經(jīng)驗(yàn)上比FCOS3D等無深度的檢測器速度慢,因?yàn)樯疃裙烙?jì)后的視圖變換子網(wǎng)絡(luò)效率極低。


如圖所示,從一個(gè)普通的BEVDepth開始,簡單地將LSS中的分割頭替換為用于3D檢測的CenterPoint頭,由四個(gè)主要組件組成:1) 一種圖像編碼器(如ResNet),用于從N個(gè)視圖輸入圖像I提取2D特征F2d;2) 一個(gè)DepthNet根據(jù)圖像特征F2d估計(jì)圖像深度;3) 一個(gè)視圖Transformer,按照如下公式將F2d投影到3D表示F3D,然后將其池化到BEV集成表示Fbev;4)3D檢測頭預(yù)測類別、3D框偏移和其他屬性。

圖片


圖片


在普通BEVDepth中,對深度模塊的唯一監(jiān)督來自檢測損失。然而,由于單目深度估計(jì)的困難,單一的檢測損失遠(yuǎn)遠(yuǎn)不足以監(jiān)督深度模塊。


因此,建議從點(diǎn)云數(shù)據(jù)P導(dǎo)出的真值深度Dgt來監(jiān)督中間深度預(yù)測值Dpred。Ri和ti是自車坐標(biāo)系到第i個(gè)視圖攝像頭坐標(biāo)系的旋轉(zhuǎn)和平移,Ki是第i個(gè)攝像頭內(nèi)參。為獲得Dgt,首先計(jì)算:

圖片

為了投影點(diǎn)云和預(yù)測深度之間形狀對齊,Pimg上采用最小池化和one-hot操作。將這兩個(gè)運(yùn)算聯(lián)合定義為φ,由此產(chǎn)生的Dgt可以寫成如下公式:

圖片


對于深度損失Ldepth,只采用二元交叉熵(BCE)。


在深度監(jiān)督的幫助下,DepthNet應(yīng)該能夠生成可靠的Dpred。由于自車的劇烈運(yùn)動(dòng),校準(zhǔn)的攝像頭參數(shù)R和t有時(shí)可能不精確,導(dǎo)致F2d和Dgt之間的空間偏離。當(dāng)DepthNet的感受野受到限制時(shí),偏離問題變得更加嚴(yán)重。


因此,提出了一個(gè)深度校正模塊來緩解這個(gè)問題。另一方面,深度校正模塊增加DepthNet的感受野,以解決偏離問題,而不是根據(jù)自車干擾來調(diào)整Dgt。


具體而言,在DepthNet中堆疊多個(gè)殘差塊,然后是可變形塊,如圖depthnet架構(gòu)所示:上下文特征直接由圖像特征生成,而設(shè)計(jì)的SE(Squeeze-and-Excitation)類層變型與圖像特征聚合,更好地估計(jì)深度。

圖片


得益于感受野的改善,偏移的深度gt能夠在正確的位置處理好這些特征F2d。

上述設(shè)計(jì)提高模型的深度預(yù)測能力。然而,根據(jù)經(jīng)典的攝像頭模型,估計(jì)像素深度與攝像頭內(nèi)參相關(guān),這意味著為DepthNet對攝像頭內(nèi)參建模是非常重要的。在多視圖3D數(shù)據(jù)集中,這尤其重要,因?yàn)閿z像頭可能具有不同的FOV(例如,nuScenes數(shù)據(jù)集)。


因此,為提高估計(jì)深度Dpred的質(zhì)量,建議使用攝像頭內(nèi)參作為DepthNet的輸入之一。具體來說,首先用MLP層將攝像頭內(nèi)參的尺度放大到特征的尺度。然后,用Squeeze-and-Excitation模塊重新加權(quán)圖像特征F2d。最后,將攝像頭外參和其內(nèi)參連接在一起,幫助DepthNet了解F2d在自車坐標(biāo)系中的空間位置。將ψ表示為原始深度網(wǎng),整體攝像頭-覺察的深度預(yù)測可寫為:

圖片


已有方法也利用攝像頭-覺察。其根據(jù)攝像頭的內(nèi)參來尺度化回歸目標(biāo),造成他們方法很難適應(yīng)具有復(fù)雜攝像頭設(shè)置的自動(dòng)化系統(tǒng)。另一方面,本文方法在DepthNet內(nèi)對攝像機(jī)參數(shù)進(jìn)行建模,旨在提高中間深度的質(zhì)量。得益于LSS的解耦特性,攝像頭-覺察的深度預(yù)測模塊與檢測頭脫離開,因此在這種情況下,回歸目標(biāo)無需更改,獲得更大的可擴(kuò)展性。


體素池化(Voxel Pooling)是BEV檢測器的關(guān)鍵,其目的是將3D多視圖特征聚合為一個(gè)完整的BEV特征。一般來說,它將自車空間劃分為幾個(gè)均勻分布的網(wǎng)格,然后將落入同一網(wǎng)格的截錐(frustum)特征匯總,形成相應(yīng)的BEV特征。


為此,LSS利用了一種“累計(jì)求和技巧(cumsum trick)”,即根據(jù)相應(yīng)的BEV網(wǎng)格ID對所有截頭特征進(jìn)行排序,對所有特征進(jìn)行累積求和,然后減去bin部件邊界的累積和。這樣的實(shí)現(xiàn)會(huì)帶來大量額外計(jì)算,因?yàn)樾枰獙Υ罅康腂EV坐標(biāo)進(jìn)行排序。此外,該技巧采用的順序運(yùn)行前綴和(Prefix Sum),效率不高。


這兩個(gè)缺陷都會(huì)影響檢測器的整體運(yùn)行速度。人們可以選擇提高并行性來加速前綴和,這項(xiàng)工作中,我們介紹一種更好但更簡單的解決方案,該解決方案充分利用了GPU資源的高度并行性,稱為高效體素池化(Efficient Voxel Pooling)。


如圖所示:主要想法是為每個(gè)截錐特征分配一個(gè)CUDA線程,該線程用于將該特征添加到相應(yīng)的BEV網(wǎng)格中;用改進(jìn)的高效體素化替換原來的體素池化操作可以將BEVDepth加速到3倍。

圖片


3D 檢測任務(wù), 采用以下測度 nuScenes Detection Score (NDS), mean Average Precision (mAP), 還有5個(gè) True Positive (TP) metrics,包括mean Average Translation Error (mATE), mean Average Scale Error (mASE), mean Average Orientation Error (mAOE), mean Average Velocity Error (mAVE), mean Average Attribute Error (mAAE)等。


對深度估計(jì)任務(wù),按照標(biāo)準(zhǔn)評估策略來操作, 即scale invariant logarithmic error (SILog), mean absolute relative error (Abs Rel), mean squared relative error (Sq Rel), mean log10 error (log10) 和 root mean squared error (RMSE) 等。


實(shí)驗(yàn)結(jié)果如下:

圖片


圖片


圖片

FPS比較

圖片

延遲比較

多幀融合主要針對激光雷達(dá)點(diǎn)云,如圖是其序列建模方法:

圖片


在做高效體素池化前,連續(xù)幀對齊即

圖片


圖片


和各種方法比較結(jié)果:

圖片圖片

基準(zhǔn)方法和BEVDepth比較



分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號(hào)-25