SurroundDepth：自監(jiān)督多攝像頭環(huán)視深度估計(jì)

2022-05-30 15:44:58· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“，上傳于2022年4月，來自清華、天大和鑒智機(jī)器

arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“，上傳于2022年4月，來自清華、天大和鑒智機(jī)器人創(chuàng)業(yè)公司。

從圖像中估計(jì)深度是自動(dòng)駕駛3D感知的基本步驟，是昂貴深度傳感器（如激光雷達(dá)）的經(jīng)濟(jì)替代品。時(shí)間光度學(xué)一致性（photometric consistency）可以實(shí)現(xiàn)無標(biāo)注的自監(jiān)督深度估計(jì)，進(jìn)一步促進(jìn)其廣泛應(yīng)用。然而，大多數(shù)現(xiàn)有方法僅基于每個(gè)單目圖像預(yù)測深度，而忽略了多個(gè)周圍攝像頭之間的相關(guān)性，這通常適用于現(xiàn)代自動(dòng)駕駛車輛。

本文提出一種SurroundDepth方法，將來自多個(gè)周圍視圖的信息合并到一起，預(yù)測攝像頭之間的深度圖。具體地說用一個(gè)聯(lián)合網(wǎng)絡(luò)來處理所有周圍的視圖，并提出一個(gè)交叉視圖transformer來有效地融合來自多個(gè)視圖的信息。用交叉視圖自注意來有效地實(shí)現(xiàn)多攝像機(jī)特征圖之間的全局交互。與自監(jiān)督單目深度估計(jì)不同，能夠在給定多攝像機(jī)外參的情況下預(yù)測真實(shí)世界的尺度。為了實(shí)現(xiàn)這一目標(biāo)，運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（SfM）提取尺度-覺察的偽深度來預(yù)訓(xùn)練模型。此外，不預(yù)測每個(gè)單獨(dú)攝像頭的自運(yùn)動(dòng)，而是估計(jì)車輛的通用自運(yùn)動(dòng)，并將其傳輸?shù)矫總€(gè)視圖，以實(shí)現(xiàn)多視圖一致性。在實(shí)驗(yàn)中，該方法在具有挑戰(zhàn)性的多攝像頭深度估計(jì)數(shù)據(jù)集DDAD和nuScenes上取得了最新的性能。

代碼位于https://github.com/weiyithu/SurroundDepth

攝像頭的3D感知由于其語義豐富和經(jīng)濟(jì)性，已成為一種很有前途潛在的替代方法。深度估計(jì)作為輸入2D圖像和真實(shí)3D環(huán)境之間的橋梁，對下游3D理解有著至關(guān)重要的影響，并受到越來越多的關(guān)注。

由于密集標(biāo)注深度圖的昂貴成本，深度估計(jì)通常是以自監(jiān)督的方式學(xué)習(xí)。通過同時(shí)預(yù)測深度圖和攝像頭的自運(yùn)動(dòng)，現(xiàn)有方法利用連續(xù)圖像之間的時(shí)域光度一致性作為監(jiān)督信號。盡管現(xiàn)代自動(dòng)駕駛汽車通常配備多個(gè)攝像頭來拍攝周圍場景的360度全景，大多數(shù)現(xiàn)有方法仍然側(cè)重于從單目圖像預(yù)測深度圖，而忽略了周圍視圖之間的相關(guān)性。由于只能通過時(shí)域光度一致性推斷出相對尺度，這些自監(jiān)督的單目深度估計(jì)方法無法產(chǎn)生尺度-覺察的深度。然而，由于多攝像機(jī)外參矩陣中的平移向量獲得了真實(shí)世界的尺度，因此有可能獲得尺度-覺察預(yù)測。

自監(jiān)督單目深度估計(jì)方法同時(shí)探索學(xué)習(xí)深度和運(yùn)動(dòng)的路線。對于單目序列，幾何約束通常建立在相鄰幀上。最早就是將該問題構(gòu)建為一個(gè)視圖合成任務(wù)，并訓(xùn)練兩個(gè)網(wǎng)絡(luò)分別預(yù)測姿勢和深度。也有提出ICP損失，其工作證明了使用整個(gè)3D結(jié)構(gòu)一致性的有效性。Monodepth2采用最小重投影損失、全分辨率多尺度采樣和auto-masking損失，進(jìn)一步提高預(yù)測質(zhì)量。還有一個(gè)尺度非一致性（scale consistency ）損失項(xiàng)來解決深度圖之間尺度不一致的問題。PackNet SfM通過引入3D卷積進(jìn)一步提高了深度估計(jì)精度。最近，F(xiàn)SM通過引入空間和時(shí)間上下文來豐富監(jiān)督信號，將自監(jiān)督的單目深度估計(jì)擴(kuò)展到全周圍視圖。

多視圖特征交互是多視圖立體視覺、目標(biāo)檢測和分割中的一個(gè)關(guān)鍵組件。MVSNet構(gòu)建一個(gè)多視圖特征的基于方差成本體（variance-based cost volume），并用3D CNN做成本正則化回歸深度值。另外還有引入自適應(yīng)聚合和LSTM來進(jìn)一步提高性能。最近，CVP-MVSNet采用金字塔結(jié)構(gòu)來迭代優(yōu)化深度預(yù)測。STTR采用一種具有交替自注意和交叉注意的transformer來取代成本體。LoFTR在transformer中使用自注意和交叉注意層，獲得兩幅圖像的特征描述子。Point MVSNet結(jié)合2D圖像外觀線索和幾何先驗(yàn)知識，動(dòng)態(tài)融合多視圖圖像的特征。此外，PVNet集成3D點(diǎn)特征和多視圖特征，以更好地識別聯(lián)合3D形狀。

深度估計(jì)的附加監(jiān)督信號，可以加強(qiáng)深度估計(jì)的準(zhǔn)確性，如光流和目標(biāo)運(yùn)動(dòng)。DispNet是第一個(gè)將合成立體視頻數(shù)據(jù)集的信息傳輸?shù)秸鎸?shí)世界深度估計(jì)的工作。此外，有工作采用一種具有生成性對抗損失的雙模塊域自適應(yīng)網(wǎng)絡(luò)（two-module domain adaptive network），從合成域遷移知識。一些方法采用輔助深度傳感器來捕獲準(zhǔn)確的深度，如激光雷達(dá)，以協(xié)助深度估計(jì)。此外，一些方法引入曲面法線來幫助預(yù)測深度，因?yàn)樯疃仁芮娣ň€決定的局部切平面約束。GeoNet提出了深度到法線（depth-to-normal）網(wǎng)絡(luò)和法線到深度（normal-to-depth）網(wǎng)絡(luò)，迫使最終預(yù)測遵循幾何約束。此外，許多工作引入了傳統(tǒng)方法（如SfM），產(chǎn)生一些稀疏但高質(zhì)量的深度值，以協(xié)助模型訓(xùn)練。DepthHints使用一些現(xiàn)成的立體視覺算法來加強(qiáng)立體視覺匹配。

如圖是傳統(tǒng)單目深度估計(jì)方法和SurroundDepth的比較：

在自監(jiān)督深度和自運(yùn)動(dòng)設(shè)置中，通過最小化像素光度重投影損失來優(yōu)化深度網(wǎng)絡(luò)F，其中包括SSIM度量和L1損失項(xiàng)：

此過程需要一個(gè)姿態(tài)網(wǎng)絡(luò)G來預(yù)測It-》Is的相對姿態(tài)。具體而言，給定攝像頭固有矩陣K，基于預(yù)測深度圖，可計(jì)算It中任何像素p1在Is的相應(yīng)投影p2。這樣，根據(jù)投影坐標(biāo)p2可以在Is中使用雙線性插值創(chuàng)建合成RGB圖像。這種基于重建的自監(jiān)督范式在單目深度估計(jì)方法上取得了巨大進(jìn)展，并可以直接擴(kuò)展到多攝像頭全環(huán)視深度估計(jì)。I的預(yù)測深度圖和姿勢可以寫成：

相鄰視圖之間重疊將所有視圖連接成一個(gè)完整的360度環(huán)境視圖，其中包含許多有益的知識和先驗(yàn)知識，有助于理解整個(gè)場景。基于這一事實(shí)，構(gòu)建一個(gè)聯(lián)合模型，首先提取并交換所有周圍視圖的表征。在交叉視圖交互之后，將多視圖表征同時(shí)映射到最終的深度。此外，視圖相關(guān)的自運(yùn)動(dòng)可以從預(yù)測的共同姿態(tài)（universal pose）和已知的外部矩陣中遷移得到?？傊疃群妥藨B(tài)預(yù)測可以表示為：

利用聯(lián)合模型，不僅可以通過交叉視圖信息交互提高所有視圖的深度估計(jì)性能，還可以生成共同的自運(yùn)動(dòng)，從而使用相機(jī)外參矩陣生成尺度-覺察預(yù)測。

如圖是SurroundDepth網(wǎng)絡(luò)概覽圖：網(wǎng)絡(luò)F可以分為三部分，即，共享編碼器E、共享解碼器D和多個(gè)交叉視圖Transformer（CVT）。給定一組周視圖像，編碼器網(wǎng)絡(luò)首先并行提取其多尺度表征。與現(xiàn)有的直接解碼學(xué)習(xí)特征的方法不同，其將所有視圖的特征在每個(gè)尺度上糾纏成一個(gè)完整的特征，并進(jìn)一步利用多尺度特定CVT，在所有尺度上執(zhí)行交叉視圖自注意。

CVT利用強(qiáng)大的注意機(jī)制，使特征圖的每個(gè)元素能夠?qū)⑵湫畔鞑サ狡渌恢茫瑫r(shí)吸收其他位置的信息。最后，將交互后的特征分離給N個(gè)視圖，并將其發(fā)送給解碼器D。

與單目深度估計(jì)不同，這個(gè)能夠從攝像頭外參矩陣中恢復(fù)真實(shí)世界的尺度。利用這些攝像頭外參矩陣的一種簡單方法是，嵌入到兩個(gè)相鄰視圖之間的空間光度損失中。然而，發(fā)現(xiàn)深度網(wǎng)絡(luò)通過空間光度一致性的監(jiān)督無法直接學(xué)習(xí)尺度。為了解決這個(gè)問題，作者提出尺度-覺察的SfM預(yù)訓(xùn)練和聯(lián)合姿態(tài)估計(jì)。

具體來說，用兩幀SfM生成偽深度來預(yù)訓(xùn)練模型。預(yù)訓(xùn)練深度網(wǎng)絡(luò)能夠?qū)W習(xí)真實(shí)世界的尺度。此外，N個(gè)攝像頭的時(shí)域自運(yùn)動(dòng)具有明確的幾何約束。這里沒有使用一致性損失，而是估計(jì)車輛的共同姿態(tài)，并根據(jù)外參矩陣計(jì)算每個(gè)視圖的自運(yùn)動(dòng)。

如圖所示：該工作利用從所有周圍視圖中提取的多尺度特征，將編碼器和解碼器之間的跳連接替換為交叉視圖transformer（CVT）

首先使用沿深度可分離卷積（DS Conv，depthwise separable convolution）層將多視圖特征總結(jié)為緊湊表征。然后構(gòu)建Z交叉視圖自注意層，充分交換扁平的多視圖特征。在交叉視圖交互之后，用DS Deconv（depthwise separable deconvolution）層來恢復(fù)多視圖特征的分辨率。最后，構(gòu)造了一個(gè)跳連接，將輸入和恢復(fù)的多視圖特征相結(jié)合。

SfM預(yù)訓(xùn)練的目的是從相機(jī)外參矩陣中探索真實(shí)世界的尺度。利用外參矩陣的直接方法是在兩個(gè)相鄰視圖之間使用空間光度損失，即：

但實(shí)際上，這樣做并不行。這個(gè)結(jié)論不同于FSM（“Full Surround Monodepth from Multiple Cameras“，arXiv 2104.00152，2021）得到的。實(shí)際上，在訓(xùn)練開始時(shí)，空間光度損失將無效，并且無法監(jiān)督深度網(wǎng)絡(luò)學(xué)習(xí)真實(shí)尺度。為了解決這個(gè)問題，采用SIFT描述子來提取對應(yīng)關(guān)系。然后，用攝像頭外參矩陣進(jìn)行三角測量來計(jì)算尺度-覺察的偽深度。最后，用這些稀疏的偽深度以及時(shí)間光度損失來預(yù)訓(xùn)練深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)。

如圖所示即尺度-覺察SfM預(yù)訓(xùn)練：由于小重疊和大視角變化，傳統(tǒng)的兩幀運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（SfM）會(huì)產(chǎn)生許多錯(cuò)誤對應(yīng)。通過引入region mask（定義圖像Ii的左邊1/3區(qū)域，圖像Ii+1的右邊1/3區(qū)域），縮小了對應(yīng)關(guān)系的搜索范圍，提高了檢索質(zhì)量。使用相機(jī)外參矩陣得到的極線幾何可進(jìn)一步過濾異常值。

這里一個(gè)點(diǎn)的外極線表示為：

在單目深度估計(jì)框架中，相對的攝像頭姿態(tài)由PoseNet估計(jì)，PoseNet是一個(gè)編碼器E-解碼器D網(wǎng)絡(luò)。因此，在多攝影頭設(shè)置中，所有攝影頭的姿態(tài)是為所有視圖生成監(jiān)督信號所必需的。一種直觀的方法是分別估計(jì)每個(gè)姿態(tài)。然而，該策略忽略了不同視圖之間的姿態(tài)一致性，這可能導(dǎo)致監(jiān)督信號無效。為了保持多視點(diǎn)自運(yùn)動(dòng)的一致性，將攝像頭姿態(tài)估計(jì)問題分解為兩個(gè)子問題：共同姿態(tài)預(yù)測和universal-to-local變換。為了獲得共同姿態(tài)P，我將N對目標(biāo)和源圖像一次饋入PoseNet G，并在解碼器之前對提取特征進(jìn)行平均。共同姿態(tài)可通過以下方式計(jì)算：

基于攝像頭內(nèi)參，由此計(jì)算各個(gè)攝像頭姿態(tài)為：

實(shí)驗(yàn)結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：某款混動(dòng)車輛傳動(dòng)系統(tǒng)扭振設(shè)計(jì)及驗(yàn)證
上一篇：預(yù)燃室射流點(diǎn)火對汽油發(fā)動(dòng)機(jī)性能影響

點(diǎn)贊 0 反對 0 舉報(bào) 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SurroundDepth：自監(jiān)督多攝像頭環(huán)視深度估計(jì)

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SurroundDepth：自監(jiān)督多攝像頭環(huán)視深度估計(jì)

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將