一文讀懂自動駕駛傳感器數(shù)據(jù)融合

2021-10-06 11:40:56· 來源：智駕最前沿

自動駕駛感知模塊中傳感器融合已經(jīng)成為了標配，只是這里融合的層次有不同，可以是硬件層（如禾賽，Innovusion的產(chǎn)品），也可以是數(shù)據(jù)層（這里的討論范圍），還可

自動駕駛感知模塊中傳感器融合已經(jīng)成為了標配，只是這里融合的層次有不同，可以是硬件層（如禾賽，Innovusion的產(chǎn)品），也可以是數(shù)據(jù)層（這里的討論范圍），還可以是任務(wù)層像障礙物檢測（obstacle detection），車道線檢測（lane detection），分割（segmentation）和跟蹤（tracking）以及車輛自身定位（localization）等。

有些傳感器之間很難在底層融合，比如攝像頭或者激光雷達和毫米波雷達之間，因為毫米波雷達的目標分辨率很低（無法確定目標大小和輪廓），但可以在高層上探索融合，比如目標速度估計，跟蹤的軌跡等等。

這里主要介紹一下激光雷達和攝像頭的數(shù)據(jù)融合，實際是激光雷達點云投影在攝像頭圖像平面形成的深度和圖像估計的深度進行結(jié)合，理論上可以將圖像估計的深度反投到3-D空間形成點云和激光雷達的點云融合，但很少人用。原因是，深度圖的誤差在3-D空間會放大，另外是3-D空間的點云分析手段不如圖像的深度圖成熟，畢竟2.5-D還是研究的歷史長，比如以前的RGB-D傳感器，Kinect或者RealSense。

這種融合的思路非常明確：一邊兒圖像傳感器成本低，分辨率高（可以輕松達到2K-4K）；另一邊兒激光雷達成本高，分辨率低，深度探測距離短?？墒?，激光雷達點云測距精確度非常高，測距遠遠大于那些Infrared/TOF depth sensor，對室外環(huán)境的抗干擾能力也強，同時圖像作為被動視覺系統(tǒng)的主要傳感器，深度估計精度差，更麻煩的是穩(wěn)定性和魯棒性差。所以，能不能把激光雷達的稀疏深度數(shù)據(jù)和致密的圖像深度數(shù)據(jù)結(jié)合，形成互補？

另外，稀疏的深度圖如何upsample變得致密，這也是一個已經(jīng)進行的研究題目，類似image-based depth upsampling之類的工作。還有，激光雷達得到的點云投到攝像頭的圖像平面會發(fā)現(xiàn)，有一些不反射激光的物體表面造成“黑洞”，還有遠距離的街道或者天空區(qū)域基本上是沒有數(shù)據(jù)顯示，這樣就牽涉到另一個研究題目，image-based depth inpainting / completion。

解決這個問題的前提是，激光雷達和攝像頭的標定和同步是完成的，所以激光雷達的點云可以校準投影到攝像頭的圖像平面，形成相對稀疏的深度圖。

我們分析的次序還是先傳統(tǒng)方法，后深度學習方法，最近后一種方法的文章2017年以后逐漸增多。筆者開始這方面工作是恰恰是2017年，非常榮幸地發(fā)現(xiàn)當時發(fā)表的學術(shù)論文和自己的方向非常接近，并且筆者在這些論文公開化之前已經(jīng)申請了多個專利。

傳統(tǒng)方法

首先，把任務(wù)看成一個深度圖內(nèi)插問題，那么方法類似SR和upsampling，只是需要RGB圖像的引導(dǎo)，即image-guided。

實現(xiàn)這種圖像和深度之間的結(jié)合，需要的是圖像特征和深度圖特征之間的相關(guān)性，這個假設(shè)條件在激光雷達和攝像頭傳感器標定和校準的時候已經(jīng)提到過，這里就是要把它應(yīng)用在pixel（像素）/depel（深度素）/surfel（表面素）/voxel（體素）這個層次。

基本上，技術(shù)上可以分成兩種途徑：局部法和全局法。這樣歸納，看著和其他幾個經(jīng)典的計算機視覺問題，如光流計算，立體視覺匹配和圖像分割類似。

是否還記得圖像濾波的歷史？均值濾波-》高斯濾波-》中值濾波-》Anisotropic Diffusion -》Bilateral濾波（等價于前者）-》Non Local Means濾波-》BM3D，這些都是局部法。那么Joint Bilateral Filtering呢，還有著名的Guided image filtering，在這里都可以發(fā)揮作用。

這是一個例子：bilateral filter

再看一個類似的方法：guided image filtering

還有上述方法的改進型：二次內(nèi)插，第一次是在殘差域內(nèi)插，第二次是應(yīng)用前面的guided image filtering方法。

特別需要說一下，最近有一個方法，采用傳統(tǒng)形態(tài)學濾波法，性能不比深度學習CNN差，不妨看一下它的流程圖：有興趣可以搜搜 “In Defense of Classical Image Processing: Fast Depth Completion on the CPU“，其結(jié)果和CNN方法的比較也附上。

全局法，自然就是MRF，CRF，TV（Total variation），dictionary learning 和 Sparse Coding之類。下面為避免繁瑣的公式拷貝，就直接給出論文題目吧。

下一個是“Image Guided Depth Upsampling using Anisotropic Total Generalized Variation“：采用TV，傳感器雖然是ToF，激光雷達也適用。接著一個是“Semantically Guided Depth Upsampling”：引入語義分割，類似depth ordering。

如果把稀疏深度圖看成一個需要填補的問題，那么就屬于另外一個話題：image-guided depth inpainting/completion，這方面的技術(shù)基本都是全局法，比如“Depth Image Inpainting: Improving Low Rank Matrix Completion with Low Gradient Regularization“：

有一類方法，將激光雷達點云投影到圖像平面的點作為prior或者"seed"，去修正圖像的深度估計過程，這就好比一個由激光雷達點云投影到圖像上的稀疏點構(gòu)成的網(wǎng)格（grid），去指導(dǎo)/約束雙目圖像匹配。

下面這個方法將Disparity Space Image (DSI)的視差范圍縮?。?/span>

如圖方法結(jié)合激光雷達點云的投影和立體匹配構(gòu)成新的prior：

下面介紹深度學習的方法。

深度學習方法

從2017年開始，這個方面的應(yīng)用深度學習的論文開始多起來了，一是自動駕駛對傳感器融合的重視提供了motivation，二是深度學習在深度圖估計/分割/光流估計等領(lǐng)域的推廣應(yīng)用讓研究人員開始布局著手多傳感器融合的深度學習解法。

筆者看到的這方面公開的第一篇論文應(yīng)該是2017年9月MIT博士生Fangchang Ma作為第一作寫的，“Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image“。其實第一篇公開的論文是在2017年8月，來自德國Andreas Geiger研究組的論文在International Conference on 3D Vision (3DV)發(fā)表，“Sparsity Invariant CNN”。

他們開拓性的工作使Kitti Vision Benchmark Suite啟動了2018年的Depth Completion and Prediction Competition，不過MIT獲得了當年Depth Completion的冠軍。幾天前（2019年2月）剛剛公開的最新論文，是來自University of Pennsylvania的研究組，“DFuseNet: Fusion of RGB and Sparse Depth for Image Guided Dense Depth Completion”。

先說Sparsity Invariant CNN。輸入是深度圖和對應(yīng)的Mask圖，后者就是指激光雷達投影到圖像平面有值的標志圖，為此設(shè)計了一個稱為sparse CNN的模型，定義了sparse convolution的layer：

結(jié)果想證明這種模型比傳統(tǒng)CNN模型好：

再回頭看看MIT的方法。一開始還是“暴力”方法：其中針對KITTi和NYU Depth（室內(nèi)）設(shè)計了不同模型

結(jié)果看上去不錯的：

差不多一年以后，監(jiān)督學習RGB到深度圖的CNN方法和利用相鄰幀運動的連續(xù)性約束self-learning方法也發(fā)表了，憑此方法MIT獲得了KITTI比賽的冠軍：

一個同時估計surface normals 和 occlusion boundaries的方法如下，聽起來和單目深度估計很相似的路數(shù)，“Deep Depth Completion of a RGB-D Image“：

這是AR公司MagicLeap發(fā)表的論文，“Estimating Depth from RGB and Sparse Sensing“：模型稱為Deep Depth Densification （D3），

它通過RGB圖像，深度圖和Mask圖輸入生成了兩個特征圖：二者合并為一個feature map

看看結(jié)果：

再看另一個工作 “Propagating Confidences through CNNs for Sparse Data Regression“：提出normalized convolution （NConv）layer的改進思路，訓(xùn)練的時候NConv layer通過估計的confidence score最大化地融合 multi scale 的 feature map

ICRA的論文“High-precision Depth Estimation with the 3D LiDAR and Stereo Fusion“只是在合并RGB image和depth map之前先通過幾個convolution layer提取feature map：

看結(jié)果：其中第三行是立體視覺算法SGM的結(jié)果，第四行才是該方法的。

法國INRIA的工作，“Sparse and Dense Data with CNNs: Depth Completion and Semantic Segmentation“：不采用Mask輸入（文章分析其中的原因是因為layer-by-layer的傳遞造成失效），而語義分割作為訓(xùn)練的另一個目標。

作者發(fā)現(xiàn)CNN方法在早期層將RGB和深度圖直接合并輸入性能不如晚一些合并（這個和任務(wù)層的融合比還是early fusion），這也是它的第二個發(fā)現(xiàn)，這一點和上個論文觀點一致。

看結(jié)果：

Note：在這兩篇論文發(fā)表一年之前，筆者已經(jīng)在專利申請中把RGB圖像和深度圖合并的兩種CNN模型方法都討論了，并且還補充了一種CNN之后采用CRF合并的模型方法，該思路也是來自于傳統(tǒng)機器學習的方法。當然單目或者雙目圖像輸入都已經(jīng)討論。

有一篇文章，“Learn Morphological Operators for Depth Completion“，同樣利用圖像分割的思路來幫助depth completion，只是它定義了一種Contra-harmonic Mean Filter layer近似形態(tài)學算子（structured element），放在一個U-Net模型：

ETH+Princeton+Microsoft的論文 “DeepLiDAR: Deep Surface Normal Guided Depth Prediction from LiDAR and Color Image“：還是需要輸入Mask圖（嗯嗯，有不同看法嗎），也引入了surface normal圖增強depth prediction，還有confidence mask，特別加入了attention機制（目標驅(qū)動）。

看看結(jié)果：

論文“Dense Depth Posterior (DDP) from Single Image and Sparse Range“提出了兩步學習法，一是Conditional Prior Network (CPN) ，二是Depth Completion Network (DCN) ：

最后一個論文，是剛剛出來的“DFuseNet: Fusion of RGB and Sparse Depth for Image Guided Dense Depth Completion“：基于Spatial Pyramid Pooling (SPP) blocks 分別做depth和image的encoder，訓(xùn)練的時候stereo不是必須的，mono也行（參照單目的深度估計采用的訓(xùn)練方法）。

這里是SPP的結(jié)構(gòu)：

下面結(jié)果（2-3行）第2行是單目圖像訓(xùn)練的，第3行是雙目立體圖像訓(xùn)練的：

簡單歸納以下這方面深度學習的工作：大家都是從暴力訓(xùn)練的模型開始，慢慢加入幾何約束，聯(lián)合訓(xùn)練的思路普遍接受。似乎拖延RGB和depth合并的時機是共識，分別訓(xùn)練feature map比較好，要不要Mask圖輸入還有待討論。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：ABB推出“世界上最快的充電站”：15分鐘充滿，充電3分鐘續(xù)航100公里
上一篇：汽車NVH 分析方法淺析

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一文讀懂自動駕駛傳感器數(shù)據(jù)融合

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工