CVPR2019 | Stereo R-CNN 3D 目標(biāo)檢測(cè)

2019-03-12 08:29:44· 來源：極市平臺(tái)，智車科技

今天聊聊雙目的3d object detection。這是一篇來自DJI與港科大合作的文章，作者分別是li peiliang，陳曉智@陳曉智(DJI，MV3D的作者)和港科大的shenshaojie老師。

今天聊聊雙目的3d object detection。這是一篇來自DJI與港科大合作的文章，作者分別是li peiliang，陳曉智 @陳曉智(DJI，MV3D的作者)和港科大的shenshaojie老師。

1. introduction

2018年在3D檢測(cè)方面的文章層出不窮，也是各個(gè)公司無人駕駛或者機(jī)器人學(xué)部門關(guān)注的重點(diǎn)，包含了點(diǎn)云，點(diǎn)云圖像融合，以及單目3D檢測(cè)，但是在雙目視覺方面的貢獻(xiàn)還是比較少，自從3DOP之后。

總體來說，圖像的檢測(cè)距離，圖像的density以及context信息，在3D檢測(cè)中是不可或缺的一部分，因此作者在這篇文章中挖掘了雙目視覺做3D檢測(cè)的的潛力。

2. network structure

整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)分為以下的幾個(gè)部分。

1). RPN部分，作者將左右目的圖像通過stereoRPN產(chǎn)生相應(yīng)的proposal。具體來說stereo RPN是在FPN的基礎(chǔ)上，將每個(gè)FPN的scale上的feature map的進(jìn)行concat的結(jié)構(gòu)。

3). keypoint的檢測(cè)。這里采用的是類似于mask rcnn的結(jié)構(gòu)進(jìn)行關(guān)鍵點(diǎn)的預(yù)測(cè)。文章定義了4個(gè)3D semantic keypoint，即車輛底部的3D corner point，同時(shí)將這4個(gè)點(diǎn)投影到圖像，得到4個(gè)perspective keypoint，這4個(gè)點(diǎn)在3D bbox regression起到一定的作用，我們?cè)谙乱徊糠衷俳榻B。

在keypoint檢測(cè)任務(wù)中，作者利用RoiAlign得到的14*14feature map，經(jīng)過conv，deconv最后得到6 * 28 * 28的feature map，注意到只有keypoint的u坐標(biāo)會(huì)提供2D Box以外的信息，因此，處于減少計(jì)算量的目的，作者aggregate每一列的feature，得到6 * 28的output，其中，前4個(gè)channel代表4個(gè)keypoint被投影到相應(yīng)的u坐標(biāo)的概率，后面兩個(gè)channel代表是left or right boundary上的keypoint的概率。

3. 3D Box Estimation

通過網(wǎng)絡(luò)回歸得到的2D box的dimension，viewpoint，還有keypoint，我們可以通過一定的方式得到3D box的位置。定義3D box的狀態(tài)x = [x, y, z, θ]。

Figure 5，給出了一些稀疏的約束。包含了特征點(diǎn)的映射過程。這里也體現(xiàn)了keypoint的用處。

上述公式即為約束方程，因此可以通過高斯牛頓的方法直接求解。具體可以參考論文的引文17。這里我們簡(jiǎn)單證明一下第一個(gè)公式。注意，這里的假設(shè)都是u，v坐標(biāo)都已經(jīng)經(jīng)過相機(jī)內(nèi)參的歸一化了。

4. Dense 3D Box Alignment

這里就回到shenshaojie老師比較熟悉的BA的過程了，由于part 3僅僅只是一個(gè)object level的深度，這里文章利用最小化左右視圖的RGB的值，得到一個(gè)更加refine的過程。定義如下的誤差函數(shù)

其中

代表第i個(gè)pixel的深度與相對(duì)應(yīng)的3D box的深度差。而這一塊的求解利用G20或者ceres也可以完成。整個(gè)alignment過程其實(shí)相對(duì)于深度的直接預(yù)測(cè)是更加robust的，因?yàn)檫@種預(yù)測(cè)方法，避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的問題。

5. experiment

作者在實(shí)驗(yàn)這塊達(dá)到了雙目視覺的state of art，同時(shí)對(duì)于各個(gè)module也做了很充足的實(shí)驗(yàn)，具體的數(shù)值可以參考論文的原文

6. Insight

最后談?wù)勎恼陆o我的一些insights，首先，整個(gè)文章將傳統(tǒng)的detection的任務(wù)，結(jié)合了geometry constraint優(yōu)化的方式，做到了3D位置的估計(jì)，想法其實(shí)在不少文章sfm-learner之類的文章已經(jīng)有體現(xiàn)過了，不過用在3Ddetection上面還是比較新穎，避免了做雙目匹配估計(jì)深度的過程。也屬于slam跟深度學(xué)習(xí)結(jié)合的一篇文章，感興趣的朋友可以繼續(xù)看看arxiv.org/abs/1802.0552等相關(guān)文章

談幾點(diǎn)我個(gè)人意義上的不足吧，首先耗時(shí)過程0.28s的inference time，不過可能作者的重點(diǎn)也不在這個(gè)方面，特征的利用上可以更加有效率，在實(shí)現(xiàn)上。其次，能不能采用deep3dbox的方式預(yù)測(cè)dimension，然后添加入優(yōu)化項(xiàng)呢...總體來說，是一篇不錯(cuò)的值得一讀的文章！不足之處歡迎指教討論！

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：蔚來公布自動(dòng)駕駛進(jìn)展：放棄純視覺路線，做多傳感器融合
上一篇：“左轉(zhuǎn)彎”對(duì)于自動(dòng)駕駛車輛和行人都很難

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

CVPR2019 | Stereo R-CNN 3D 目標(biāo)檢測(cè)

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工