日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

SurroundDepth:自監(jiān)督多攝像頭環(huán)視深度估計(jì)

2022-05-30 15:44:58·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“,上傳于2022年4月,來自清華、天大和鑒智機(jī)器

arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“,上傳于2022年4月,來自清華、天大和鑒智機(jī)器人創(chuàng)業(yè)公司。

圖片


從圖像中估計(jì)深度是自動(dòng)駕駛3D感知的基本步驟,是昂貴深度傳感器(如激光雷達(dá))的經(jīng)濟(jì)替代品。時(shí)間光度學(xué)一致性(photometric consistency)可以實(shí)現(xiàn)無標(biāo)注的自監(jiān)督深度估計(jì),進(jìn)一步促進(jìn)其廣泛應(yīng)用。然而,大多數(shù)現(xiàn)有方法僅基于每個(gè)單目圖像預(yù)測深度,而忽略了多個(gè)周圍攝像頭之間的相關(guān)性,這通常適用于現(xiàn)代自動(dòng)駕駛車輛。


本文提出一種SurroundDepth方法,將來自多個(gè)周圍視圖的信息合并到一起,預(yù)測攝像頭之間的深度圖。具體地說用一個(gè)聯(lián)合網(wǎng)絡(luò)來處理所有周圍的視圖,并提出一個(gè)交叉視圖transformer來有效地融合來自多個(gè)視圖的信息。用交叉視圖自注意來有效地實(shí)現(xiàn)多攝像機(jī)特征圖之間的全局交互。與自監(jiān)督單目深度估計(jì)不同,能夠在給定多攝像機(jī)外參的情況下預(yù)測真實(shí)世界的尺度。為了實(shí)現(xiàn)這一目標(biāo),運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)提取尺度-覺察的偽深度來預(yù)訓(xùn)練模型。此外,不預(yù)測每個(gè)單獨(dú)攝像頭的自運(yùn)動(dòng),而是估計(jì)車輛的通用自運(yùn)動(dòng),并將其傳輸?shù)矫總€(gè)視圖,以實(shí)現(xiàn)多視圖一致性。在實(shí)驗(yàn)中,該方法在具有挑戰(zhàn)性的多攝像頭深度估計(jì)數(shù)據(jù)集DDAD和nuScenes上取得了最新的性能。


代碼位于https://github.com/weiyithu/SurroundDepth

攝像頭的3D感知由于其語義豐富和經(jīng)濟(jì)性,已成為一種很有前途潛在的替代方法。深度估計(jì)作為輸入2D圖像和真實(shí)3D環(huán)境之間的橋梁,對下游3D理解有著至關(guān)重要的影響,并受到越來越多的關(guān)注。


由于密集標(biāo)注深度圖的昂貴成本,深度估計(jì)通常是以自監(jiān)督的方式學(xué)習(xí)。通過同時(shí)預(yù)測深度圖和攝像頭的自運(yùn)動(dòng),現(xiàn)有方法利用連續(xù)圖像之間的時(shí)域光度一致性作為監(jiān)督信號。盡管現(xiàn)代自動(dòng)駕駛汽車通常配備多個(gè)攝像頭來拍攝周圍場景的360度全景,大多數(shù)現(xiàn)有方法仍然側(cè)重于從單目圖像預(yù)測深度圖,而忽略了周圍視圖之間的相關(guān)性。由于只能通過時(shí)域光度一致性推斷出相對尺度,這些自監(jiān)督的單目深度估計(jì)方法無法產(chǎn)生尺度-覺察的深度。然而,由于多攝像機(jī)外參矩陣中的平移向量獲得了真實(shí)世界的尺度,因此有可能獲得尺度-覺察預(yù)測。


自監(jiān)督單目深度估計(jì)方法同時(shí)探索學(xué)習(xí)深度和運(yùn)動(dòng)的路線。對于單目序列,幾何約束通常建立在相鄰幀上。最早就是將該問題構(gòu)建為一個(gè)視圖合成任務(wù),并訓(xùn)練兩個(gè)網(wǎng)絡(luò)分別預(yù)測姿勢和深度。也有提出ICP損失,其工作證明了使用整個(gè)3D結(jié)構(gòu)一致性的有效性。Monodepth2采用最小重投影損失、全分辨率多尺度采樣和auto-masking損失,進(jìn)一步提高預(yù)測質(zhì)量。還有一個(gè)尺度非一致性(scale consistency )損失項(xiàng)來解決深度圖之間尺度不一致的問題。PackNet SfM通過引入3D卷積進(jìn)一步提高了深度估計(jì)精度。最近,F(xiàn)SM通過引入空間和時(shí)間上下文來豐富監(jiān)督信號,將自監(jiān)督的單目深度估計(jì)擴(kuò)展到全周圍視圖。


多視圖特征交互是多視圖立體視覺、目標(biāo)檢測和分割中的一個(gè)關(guān)鍵組件。MVSNet構(gòu)建一個(gè)多視圖特征的基于方差成本體(variance-based cost volume),并用3D CNN做成本正則化回歸深度值。另外還有引入自適應(yīng)聚合和LSTM來進(jìn)一步提高性能。最近,CVP-MVSNet采用金字塔結(jié)構(gòu)來迭代優(yōu)化深度預(yù)測。STTR采用一種具有交替自注意和交叉注意的transformer來取代成本體。LoFTR在transformer中使用自注意和交叉注意層,獲得兩幅圖像的特征描述子。Point MVSNet結(jié)合2D圖像外觀線索和幾何先驗(yàn)知識,動(dòng)態(tài)融合多視圖圖像的特征。此外,PVNet集成3D點(diǎn)特征和多視圖特征,以更好地識別聯(lián)合3D形狀。


深度估計(jì)的附加監(jiān)督信號,可以加強(qiáng)深度估計(jì)的準(zhǔn)確性,如光流和目標(biāo)運(yùn)動(dòng)。DispNet是第一個(gè)將合成立體視頻數(shù)據(jù)集的信息傳輸?shù)秸鎸?shí)世界深度估計(jì)的工作。此外,有工作采用一種具有生成性對抗損失的雙模塊域自適應(yīng)網(wǎng)絡(luò)(two-module domain adaptive network),從合成域遷移知識。一些方法采用輔助深度傳感器來捕獲準(zhǔn)確的深度,如激光雷達(dá),以協(xié)助深度估計(jì)。此外,一些方法引入曲面法線來幫助預(yù)測深度,因?yàn)樯疃仁芮娣ň€決定的局部切平面約束。GeoNet提出了深度到法線(depth-to-normal)網(wǎng)絡(luò)和法線到深度(normal-to-depth)網(wǎng)絡(luò),迫使最終預(yù)測遵循幾何約束。此外,許多工作引入了傳統(tǒng)方法(如SfM),產(chǎn)生一些稀疏但高質(zhì)量的深度值,以協(xié)助模型訓(xùn)練。DepthHints使用一些現(xiàn)成的立體視覺算法來加強(qiáng)立體視覺匹配。


如圖是傳統(tǒng)單目深度估計(jì)方法和SurroundDepth的比較:

圖片


在自監(jiān)督深度和自運(yùn)動(dòng)設(shè)置中,通過最小化像素光度重投影損失來優(yōu)化深度網(wǎng)絡(luò)F,其中包括SSIM度量和L1損失項(xiàng):

圖片

此過程需要一個(gè)姿態(tài)網(wǎng)絡(luò)G來預(yù)測It-》Is的相對姿態(tài)。具體而言,給定攝像頭固有矩陣K,基于預(yù)測深度圖,可計(jì)算It中任何像素p1在Is的相應(yīng)投影p2。這樣,根據(jù)投影坐標(biāo)p2可以在Is中使用雙線性插值創(chuàng)建合成RGB圖像。這種基于重建的自監(jiān)督范式在單目深度估計(jì)方法上取得了巨大進(jìn)展,并可以直接擴(kuò)展到多攝像頭全環(huán)視深度估計(jì)。I的預(yù)測深度圖和姿勢可以寫成:

圖片

相鄰視圖之間重疊將所有視圖連接成一個(gè)完整的360度環(huán)境視圖,其中包含許多有益的知識和先驗(yàn)知識,有助于理解整個(gè)場景。基于這一事實(shí),構(gòu)建一個(gè)聯(lián)合模型,首先提取并交換所有周圍視圖的表征。在交叉視圖交互之后,將多視圖表征同時(shí)映射到最終的深度。此外,視圖相關(guān)的自運(yùn)動(dòng)可以從預(yù)測的共同姿態(tài)(universal pose)和已知的外部矩陣中遷移得到??傊疃群妥藨B(tài)預(yù)測可以表示為:

圖片

利用聯(lián)合模型,不僅可以通過交叉視圖信息交互提高所有視圖的深度估計(jì)性能,還可以生成共同的自運(yùn)動(dòng),從而使用相機(jī)外參矩陣生成尺度-覺察預(yù)測。

如圖是SurroundDepth網(wǎng)絡(luò)概覽圖:網(wǎng)絡(luò)F可以分為三部分,即,共享編碼器E、共享解碼器D和多個(gè)交叉視圖Transformer(CVT)。給定一組周視圖像,編碼器網(wǎng)絡(luò)首先并行提取其多尺度表征。與現(xiàn)有的直接解碼學(xué)習(xí)特征的方法不同,其將所有視圖的特征在每個(gè)尺度上糾纏成一個(gè)完整的特征,并進(jìn)一步利用多尺度特定CVT,在所有尺度上執(zhí)行交叉視圖自注意。

圖片

CVT利用強(qiáng)大的注意機(jī)制,使特征圖的每個(gè)元素能夠?qū)⑵湫畔鞑サ狡渌恢茫瑫r(shí)吸收其他位置的信息。最后,將交互后的特征分離給N個(gè)視圖,并將其發(fā)送給解碼器D。


與單目深度估計(jì)不同,這個(gè)能夠從攝像頭外參矩陣中恢復(fù)真實(shí)世界的尺度。利用這些攝像頭外參矩陣的一種簡單方法是,嵌入到兩個(gè)相鄰視圖之間的空間光度損失中。然而,發(fā)現(xiàn)深度網(wǎng)絡(luò)通過空間光度一致性的監(jiān)督無法直接學(xué)習(xí)尺度。為了解決這個(gè)問題,作者提出尺度-覺察的SfM預(yù)訓(xùn)練和聯(lián)合姿態(tài)估計(jì)。


具體來說,用兩幀SfM生成偽深度來預(yù)訓(xùn)練模型。預(yù)訓(xùn)練深度網(wǎng)絡(luò)能夠?qū)W習(xí)真實(shí)世界的尺度。此外,N個(gè)攝像頭的時(shí)域自運(yùn)動(dòng)具有明確的幾何約束。這里沒有使用一致性損失,而是估計(jì)車輛的共同姿態(tài),并根據(jù)外參矩陣計(jì)算每個(gè)視圖的自運(yùn)動(dòng)。


如圖所示:該工作利用從所有周圍視圖中提取的多尺度特征,將編碼器和解碼器之間的跳連接替換為交叉視圖transformer(CVT)

圖片

首先使用沿深度可分離卷積(DS Conv,depthwise separable convolution)層將多視圖特征總結(jié)為緊湊表征。然后構(gòu)建Z交叉視圖自注意層,充分交換扁平的多視圖特征。在交叉視圖交互之后,用DS Deconv(depthwise separable deconvolution)層來恢復(fù)多視圖特征的分辨率。最后,構(gòu)造了一個(gè)跳連接,將輸入和恢復(fù)的多視圖特征相結(jié)合。

SfM預(yù)訓(xùn)練的目的是從相機(jī)外參矩陣中探索真實(shí)世界的尺度。利用外參矩陣的直接方法是在兩個(gè)相鄰視圖之間使用空間光度損失,即:

圖片

但實(shí)際上,這樣做并不行。這個(gè)結(jié)論不同于FSM(“Full Surround Monodepth from Multiple Cameras“,arXiv 2104.00152,2021)得到的。實(shí)際上,在訓(xùn)練開始時(shí),空間光度損失將無效,并且無法監(jiān)督深度網(wǎng)絡(luò)學(xué)習(xí)真實(shí)尺度。為了解決這個(gè)問題,采用SIFT描述子來提取對應(yīng)關(guān)系。然后,用攝像頭外參矩陣進(jìn)行三角測量來計(jì)算尺度-覺察的偽深度。最后,用這些稀疏的偽深度以及時(shí)間光度損失來預(yù)訓(xùn)練深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)。


如圖所示即尺度-覺察SfM預(yù)訓(xùn)練:由于小重疊和大視角變化,傳統(tǒng)的兩幀運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)會(huì)產(chǎn)生許多錯(cuò)誤對應(yīng)。通過引入region mask(定義圖像Ii的左邊1/3區(qū)域,圖像Ii+1的右邊1/3區(qū)域),縮小了對應(yīng)關(guān)系的搜索范圍,提高了檢索質(zhì)量。使用相機(jī)外參矩陣得到的極線幾何可進(jìn)一步過濾異常值。

圖片

這里一個(gè)點(diǎn)的外極線表示為:

圖片

在單目深度估計(jì)框架中,相對的攝像頭姿態(tài)由PoseNet估計(jì),PoseNet是一個(gè)編碼器E-解碼器D網(wǎng)絡(luò)。因此,在多攝影頭設(shè)置中,所有攝影頭的姿態(tài)是為所有視圖生成監(jiān)督信號所必需的。一種直觀的方法是分別估計(jì)每個(gè)姿態(tài)。然而,該策略忽略了不同視圖之間的姿態(tài)一致性,這可能導(dǎo)致監(jiān)督信號無效。為了保持多視點(diǎn)自運(yùn)動(dòng)的一致性,將攝像頭姿態(tài)估計(jì)問題分解為兩個(gè)子問題:共同姿態(tài)預(yù)測和universal-to-local變換。為了獲得共同姿態(tài)P,我將N對目標(biāo)和源圖像一次饋入PoseNet G,并在解碼器之前對提取特征進(jìn)行平均。共同姿態(tài)可通過以下方式計(jì)算:

圖片

基于攝像頭內(nèi)參,由此計(jì)算各個(gè)攝像頭姿態(tài)為:

圖片

實(shí)驗(yàn)結(jié)果如下:

圖片圖片圖片圖片
分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號-25