日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

基于模塊化輕量級網(wǎng)絡的道路目標檢測

2019-09-02 21:36:44·  來源:同濟智能汽車研究所  
 
編者按:模塊化輕量級深度學習網(wǎng)絡可以實現(xiàn)道路物體檢測性能的提高,針對當前道路上遠距離小物體的檢測挑戰(zhàn),該方法充分融合上下文信息,能夠同時兼顧較高的檢測
編者按:模塊化輕量級深度學習網(wǎng)絡可以實現(xiàn)道路物體檢測性能的提高,針對當前道路上遠距離小物體的檢測挑戰(zhàn),該方法充分融合上下文信息,能夠同時兼顧較高的檢測準確度和檢測速度。訓練結果表明,本文提出的模塊化特征融合方法,能夠達到比當前先進網(wǎng)絡模型更高的檢測精度,并且具有相近的檢測速度。

文章收錄于:Computer Vision and Pattern Recognition
原文題目:"Detecting The Objects on The Road Using Modular Lightweight Network"
原作者:Sen Cao, Yazhou Liu, Pongsak Lasang, Shengmei Shen

摘要:本文介紹了一種用于道路物體檢測的模塊化輕型網(wǎng)絡模型,尤其是當物體遠離攝像機且尺寸較小時,例如汽車,行人和騎行者。深度網(wǎng)絡已取得很大進展,但小型物體檢測仍然是一項具有挑戰(zhàn)性的任務。為了解決這個問題,大多數(shù)現(xiàn)有方法利用復雜的網(wǎng)絡或更大的圖像尺寸,這通常導致更高的計算成本。本文所提出的網(wǎng)絡模型被稱為模塊化特征融合檢測器(MFFD),使用快速且有效的網(wǎng)絡架構來檢測小物體。其貢獻在于以下幾個方面:1)設計了兩個基本模塊用于高效計算:前端模塊(Front module)減少了原始輸入圖像的信息丟失; 微模塊(Tinier module)減小了模型尺寸和計算成本,同時確保了檢測精度。2)通過堆疊基礎模塊,本文設計了一個用于多尺度物體檢測的上下文特征融合框架。3)所提出的方法在模型大小和計算成本方面是有效的,其適用于資源受限設備,例如用于高級駕駛員輔助系統(tǒng)(ADAS)的嵌入式系統(tǒng)。與具有挑戰(zhàn)性的KITTI數(shù)據(jù)集的現(xiàn)有技術進行比較,揭示了本文所提出方法的優(yōu)越性。特別是,在Jetson TX2等嵌入式GPU上可以實現(xiàn)100 fps。

關鍵詞: 物體檢測;先進智能駕駛輔助系統(tǒng) (ADAS);深度學習;輕量化網(wǎng)絡;模塊化網(wǎng)絡

1、前言
卷積神經(jīng)網(wǎng)絡(CNN)在許多計算機視覺任務中產(chǎn)生了令人印象深刻的性能改進,例如圖像分類 [1-7],物體檢測[8-16]和圖像分割 [17-20]。自從AlexNet [5]通過贏得ImageNet Challenge ILSVRC2012 [21]推廣了深度卷積神經(jīng)網(wǎng)絡,研究提出了許多創(chuàng)新的CNN網(wǎng)絡結構。Szegedy等人 [4] 提出了一個“初始”模塊,它由許多不同大小的卷積核組成。He等人 [1] 提出了在多個層上跳躍連接的ResNet。黃等人 [2] 提出可以從任何層直接連接到所有后續(xù)層的DenseNet,從而可以訓練超過200層的非常深的網(wǎng)絡。因為這些優(yōu)秀的網(wǎng)絡架構,許多視覺任務的質量正以驚人的速度增長。其中,物體檢測廣泛應用于智能監(jiān)控,安全系統(tǒng)和自動駕駛,是最受益的領域之一。

在過去幾年中許多研究已經(jīng)提出了基于CNN的最先進的物體檢測方法,例如RCNN [22],F(xiàn)aster RCNN [12],YOLO [23],SSD [10]等。這些檢測系統(tǒng)大大提高了檢測任務的準確性。但是,這些檢測方法有兩個顯著的局限性:

1)網(wǎng)絡架構層次深且復雜。為了實現(xiàn)更高的準確性,總的趨勢是使網(wǎng)絡更深入,更復雜。最近的證據(jù)表明,網(wǎng)絡深度至關重要,而具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集的主要結果都是利用“非常深”的模型。如VGG [4]和ResNet[24],層數(shù)從19到超過100,都在ImageNet ILSVRC分類任務中獲得第一名。

許多常見的物體檢測任務也從層次非常深的模型中獲益匪淺。例如,F(xiàn)aster RCNN和SSD都使用VGG作為骨干網(wǎng)絡。然而,考慮到尺寸和速度方面,這些提高準確度的改進并不一定使網(wǎng)絡更有效。不斷深化的網(wǎng)絡結構帶來的問題之一是模型規(guī)模越來越大,計算預算越來越高。在諸如機器人,自動駕駛和增強現(xiàn)實的許多現(xiàn)實世界應用中,需要在計算有限的平臺上及時地執(zhí)行對象檢測任務。

2)檢測小物體的性能不佳。大多數(shù)早期對象檢測方法僅使用最后一個要素層進行檢測,例如,R-CNN使用來自選擇性搜索 [25] 或邊框 [26] 的區(qū)域提議來生成基于區(qū)域的特征,并采用SVM來做分類。YOLO [27]將輸入圖像分成幾個網(wǎng)格,并使用最后一個特征圖圖層對每個部分進行定位和分類。通常,最后一層對應于原始圖像中較大的感受野,這使得小物體檢測變得困難。

此外,這些對象建議方法已經(jīng)被證明可以在流行的ILSVRC [21]和PASCAL VOC [28]檢測基準中實現(xiàn)高召回性能和令人滿意的檢測準確度,這需要寬松的標準,即如果交并比(IoU)超過0.5則被認為是正確的。然而,這些對象提議方法在嚴格的標準(例如IoU> 0.7)下被認為是錯誤的,例如在KITTI [29]基準測試的巨大挑戰(zhàn)中,它們的性能幾乎不令人滿意。FCN [30],SSD [10]和YOLOv3[31]的最新進展通過融合多尺度特征圖的檢測為細微單元分析提供了新的視角,這也激發(fā)了本文的模型設計。

在解決上述問題時,本文的模型設計原則是:以更高的速度追求小物體的競爭精度,該模型可用于無人機,機器人和手機等計算和存儲有限的平臺。本文開發(fā)了一種新型檢測器,稱為模塊化特征融合檢測器(MFFD)。本文的貢獻總結如下:1)設計了兩個簡單而有效的基礎模塊作為網(wǎng)絡的構建模塊:前端模塊(Front module)通過利用具有小尺寸卷積核的更多卷積層來減少原始輸入圖像的信息損失; 微模塊(Tinier module)在傳統(tǒng)卷積層之前使用逐點卷積層來減小模型尺寸和計算,同時確保檢測精度。2)通過以不同方式組合構建塊,模塊,可以有效地生成模塊化檢測框架,該框架能夠融合來自不同尺度的上下文信息以用于小對象檢測。3)所提出的模型在模型尺寸和計算成本方面是輕量級的,因此它適用于諸如ADAS的嵌入式系統(tǒng)?;趶V泛使用的KITTI數(shù)據(jù)集的評估證明了本文所提出的檢測方法在準確性和速度方面的有效性。本文的其余部分安排如下。第2節(jié)簡要概述了相關工作;第3節(jié)詳細介紹了Front模塊,Tinier模塊,并描述了MFFD架構。實驗結果和比較在第4節(jié)中提供。最后,在第5節(jié)中總結了這項工作。

2、相關工作
在本節(jié)中,本文將從三個方面簡要回顧相關工作的進展:對象檢測框架,輕量級網(wǎng)絡設計和小對象檢測。

A. 物體檢測框架
在過去幾年中,主要由于深度學習的進步,更具體地說是卷積神經(jīng)網(wǎng)絡[1,2,4,5],物體檢測的性能已經(jīng)以驚人的速度得到改善。RCNN[9]首次證明CNN可以在PASCAL VOC上實現(xiàn)更高的物體檢測性能。RCNN包含四個步驟:1)使用選擇性搜索 [25]從輸入圖像中提取大約2000個自下而上區(qū)域提議; 2)使用卷積神經(jīng)網(wǎng)絡(CNN)計算每個提議的特征; 3)使用類特定線性SVM對每個潛在對象區(qū)域進行分類; 4)后處理用于細化邊界框,消除重復檢測,并基于場景中的其他對象重新排列框。R-CNN需要高計算成本,因為每個區(qū)域分別由CNN網(wǎng)絡獨立處理。Fast R-CNN [32]和Faster R-CNN [12]通過共享計算和使用神經(jīng)網(wǎng)絡生成區(qū)域提議來提高效率。

RCNN,F(xiàn)ast RCNN, Faster RCNN和其他調(diào)整模型通過使用深度CNN將對象提議分類,從而實現(xiàn)出色的對象檢測精度。它們可以概括為基于區(qū)域提案的方法。然而,這些基于區(qū)域建議的方法有幾個明顯的缺點:1)訓練是一個多階段的流程; 2)訓練非常耗費空間和時間; 3)對象檢測很慢。此外,還提出了一些實時物體檢測方法,如YOLO [11],YOLOv2 [33]和SSD [10]。這些方法可以概括為基于回歸的方法。YOLO使用單個前饋卷積網(wǎng)絡直接預測對象類別和位置,這可以在速度和準確度之間實現(xiàn)良好的權衡。

SSD [10]將邊界框的輸出空間離散化為不同寬高比和比例的一組默認框。它在幾個方面改進了YOLO [11]:1)使用小卷積核來預測邊界框位置的類別和錨點偏移; 2)使用金字塔特征進行不同尺度的預測; 3)使用默認框和縱橫比來調(diào)整不同的對象形狀。基于回歸的方法獲得了競爭準確性并打破了速度瓶頸。

B. 輕量級網(wǎng)絡設計
對于CNN模型,網(wǎng)絡架構設計起著重要作用。為了實現(xiàn)更高的準確性,構建越來越大的卷積神經(jīng)網(wǎng)絡(CNN)是主要趨勢。最近的證據(jù)[3,24,34,35]也揭示了網(wǎng)絡深度至關重要,各種基準數(shù)據(jù)集的突破都利用了“非常深”的模型。較大的網(wǎng)絡在基于GPU的機器上表現(xiàn)良好,但是,更深層次的網(wǎng)絡架構通常不適用于內(nèi)存和計算能力有限的小型設備。

最近,在計算和存儲器受限設備上運行高質量深度神經(jīng)網(wǎng)絡不斷增長的需求促進了對輕量模型設計的研究。例如,Han等人 [36]提出了三階段流程的“深度壓縮”:修剪,量化和熵編碼,這可以減少神經(jīng)網(wǎng)絡的存儲需求。福雷斯特等人 [37]設計用于構建SqueezeNet的Fire模塊,可在保持準確性的同時顯著減少參數(shù)和計算量。

安德魯?shù)热?[37]提出使用深度可分離卷積的MobileNet來構建輕量級網(wǎng)絡。詹等人 [38]提出ShuffleNet,它利用兩個操作,例如逐點組卷積和信道混洗。馬克等人 [39]提出了一種名為MobileNetv2的新移動架構,它基于倒置殘差結構。這項工作大大減少了操作次數(shù)和內(nèi)存成本,同時保持了相同的精度。之前的作品表明輕量級的網(wǎng)絡架構也可以實現(xiàn)很好的計算量和時間成本較低的性能。

C. 小物體檢測
雖然在物體檢測方面取得了巨大進步,其余的開放挑戰(zhàn)之一是檢測小物體。上下文信息是尋找小物體的關鍵。貝爾等人 [40]引入自上而下的結構將不同層次的特征結合在一起,以增強小物體檢測的能力。對于行人檢測,Park等人 [41]使用地平面估計作為上下文特征以改進小物體檢測。對于臉檢測,Zhu等人 [42]同時提供圍繞面部和身體的池化ROI特征來檢測得分并且展示了小物體檢測的改進。最近,SSD [10]和YOLOv3 [31]通過融合檢測多尺度特征圖對細微單元分析有了新的認識,如圖1所示。

圖1. 結合多個特征圖的小物體檢測流程

RRC [43]是最近針對小物體的突破之一檢測,RRC基于遞歸滾動卷積多尺度特征映射的體系結構來構造對象分類器和邊界框回歸量。對KITTI數(shù)據(jù)集的評估證明上下文信息對于提高小物體檢測非常重要。但是,RRC也有兩個缺點:1)訓練時間長。該遞歸滾動卷積結構提高了檢測性能,但這也導致更長的訓練時間。2)高分辨率輸入圖像導致高計算成本。RRC在輸入層中將圖像大小擴展了2倍,這將大大增加計算量。這些缺點使得RRC不能直接適用于較小的內(nèi)存和計算能力有限的設備。

由于這些出色的物體檢測和特征融合方法,它們給了本文的網(wǎng)絡設計靈感。該MFFD建立在YOLO框架之上,它將物體檢測視作回歸問題,在空間上分離邊界框和類別預測概率任務。

3、模塊化輕量級網(wǎng)絡

在計算機視覺任務中,卷積神經(jīng)網(wǎng)絡(CNN)已經(jīng)顯示出優(yōu)異的性能[1-3,5,10,17,32,44],其中網(wǎng)絡架構設計起到了重要作用。為了達到更高的準確性,設計越來越大的卷積神經(jīng)網(wǎng)絡是主要的趨勢,如[2,3,45,46]。但是,更深的網(wǎng)絡體系結構通常不適合較小的有限存儲和計算能力的設備。因此,我們特別為計算和內(nèi)存有限的設備,如高級駕駛輔助系統(tǒng)(ADAS),開發(fā)了模塊化輕量級網(wǎng)絡模型。

本文所提出的網(wǎng)絡被稱為模塊化特征融合檢測器(MFFD)。它包含兩個主要高效計算模塊:前端模塊利用更多具有小尺寸過濾器的卷積層從原始輸入圖像中減小信息丟失; Tinier模塊在傳統(tǒng)卷積層之前使用逐像素卷積層減少模型大小和計算,同時確保了檢測精度。通過將這些模塊堆疊到檢測流程,可以研發(fā)一個能夠檢測小物體的輕量級網(wǎng)絡。

A. 減小網(wǎng)絡參數(shù)
眾所周知,卷積層中的參數(shù)個數(shù)與輸入通道的數(shù)量,卷積核的尺寸和卷積核的數(shù)量有關??紤]一個卷積層它完全由3×3卷積核組成,總量為該層中的參數(shù)可以計算為:

其中Tl是 lth層中參數(shù)的總量,Ml代表輸入特征圖的通道數(shù), Nl是卷積核數(shù)量,也表示輸出通道數(shù)量。

因此,減少參數(shù)數(shù)量和計算復雜度有兩種策略:(1)減少3×3卷積核的數(shù)量,稱為 Nl ; (2)減少3x3卷積層的輸入通道數(shù),這被稱為Ml。本文選擇第二種策略,并且在每個3×3卷積之前使用1×1卷積減少參數(shù)(也稱為[37]中的逐點卷積)。

1×1卷積核在本文的方法中有兩個重要作用:

(1) 添加非線性。在傳統(tǒng)的CNN中,卷積層采用線性卷積核的內(nèi)積和潛在的感受野,然后是在輸入的每個局部部分的非線性激活函數(shù)。當潛在概念實例線性可分時,這種線性的卷積足以抽象。然而本方法希望提取的特征總體上是高度非線性的,這需要一套非常完整的卷積核來覆蓋所有變量。常規(guī)3×3卷積之前對于每個像素的1×1卷積對應于不同通道的線性組合。因為卷積層的輸入是具有多個通道的三維結構,而不是平面結構,網(wǎng)絡模型可以很大程度實現(xiàn)來自不同通道的特征圖的空間信息融合。這種操作有效地增加了決策函數(shù)的非線性而不影響感受野和神經(jīng)網(wǎng)絡的表現(xiàn)力。

(2) 減少參數(shù)數(shù)量。在深處卷積神經(jīng)網(wǎng)絡中,輸出特征圖中存在冗余 [47,48]。[47]中使用的方法是設計一個閾值函數(shù)來評估輸出特征圖的重要性以及刪除不重要的通道。我們用另一個通過1×1卷積核減小輸入尺寸的方法,不僅要減少模型參數(shù),還要減少特征圖冗余的影響。

B. 設計塊:微模塊和前端模塊
隨著設計非常深的CNN的趨勢,最先進的網(wǎng)絡[34,37,44]通常包括重復利用具有相同結構的塊或模塊。通常,精心設計的模塊能夠實現(xiàn)更好的性能并且復雜度低。所以,為了采取模塊結構的優(yōu)點,本方法提出了Tinier模塊和前端模塊。如圖2(b)所示,是一個Tinier模塊由兩個1×1卷積層和兩個組成3×3卷積層,其中1×1層用于降低維度。每個卷積層后面都是批量歸一化和ReLU [49]操作。

受Inception-v3 [44]和v4 [34]的啟發(fā),如圖2(a)所示,本方法定義Front模塊為:三個3×3卷積層的堆棧,然后是最大2×2池化層。首先卷積層使用步長為2,另外兩個是步長為1。我們觀察到,在我們的實驗中,添加這個簡單的Front模塊可以明顯改善我們的模型性能??赡艿慕忉屖牵捎谙虏蓸討糜谇岸四K的末尾,卷積層具有可以減少原始輸入圖像信息丟失的大特征圖。

圖2 前端模塊和Tinier模塊結構

C. 模塊化特征融合檢測器
基于構建模塊:上一節(jié)提出的Tinier模塊和Front模塊,我們將介紹多尺度物體檢測框架?;镜南敕ㄒ踩诤狭颂卣鲌D中不同的上下文的信息,如圖1所示。該區(qū)別在于網(wǎng)絡不是由單個層構建,而是來自于為高效計算而設計的有效模塊。這就是我們提出的方法稱為模塊化檢測器的原因。

為了進行直接的比較,我們將繼續(xù)提出三種模式。第一個模型是單階檢測器,類似于YOLOv2,并沒有特征融合網(wǎng)絡。該模型用作參考模型。另外,本文使用兩種不同的策略提出了兩種特征融合模型。在接下來的部分我們將詳細介紹這些模型。

單階檢測參考模型如圖所示圖3(a)。我們的目標是建立一個具有競爭性能的輕量級檢測器,因此作為參考的檢測器相對簡單,包含一個Front模塊和四個Tinier模塊的集成。最后的檢測器層是1×1線性激活的卷積層,其定義為類似于YOLOv2[33]。它以步長為2對除最后一個以外的Tinier模塊執(zhí)行最大池化處理。完整的參考模型架構詳見表1.對于檢測器層,卷積核的數(shù)量由類的數(shù)量決定,因此我們將其表示為n。以VOC為例,預測5個預測框,每個5個坐標和20個類別,需要125個輸出卷積核。參考模型的總參數(shù)大小是3.6M,比其他小模型存儲容量小,例如,F(xiàn)ast YOLO和Tiny YOLO,分別少27.1M和15.8M。(注明,我們在這里計算參數(shù)數(shù)量,而不是模型尺寸)

圖3 模塊化檢測器的框圖。(a)用作參考的單階檢測器模型。(b)前上下文融合模型稱為MFFD_A(c)后上下文融合模型,稱為MFFD_B。

表1 參考模型的詳細信息和各自代表1×1卷積核和3×3卷積核

從參考模型開始,為了利用上下文信息檢測小物體,我們開發(fā)了兩種模型,融合了不同層次的特征并在融合特征圖中預測物體。這兩個結構模型如圖3(b)和(c)所示。

第一個融合模型是前上下文信息融合模型,在圖3(b)中稱為MFFD_A。這個檢測器有兩個分支:1)低分辨率分支,完全采用與圖3(a)中的參考模型相同的結構并以10×18的尺寸執(zhí)行檢測; 2)高分辨率分支結合了Tin.3的特征圖并且級聯(lián)了Tin.4的上采樣特征圖,并在20×36尺寸上進行檢測。高檢測速度是我們的目標之一,但更多融合操作和大特征圖融合將增加計算成本,因此我們只融合了最后兩層的特征,在速度和精確度之間取得良好的平衡。由于在特征融合之前應用了低分辨率檢測,該模型稱為前上下文融合模型。

第二個融合模型是后上下文融合模型,在圖3(c)中稱為MFFD_B。為了探索低分辨率和高分辨率檢測的上下文信息,我們推遲了特征融合后的分辨率檢測。具體來說,1)前端模塊和Tin.1-Tin.4模塊是從參考模型中復制(唯一的區(qū)別在于Tin.4,為了減少計算,1×1卷積的數(shù)量從1024變?yōu)?12)。2)來自Tin.3和Tin.4的特征圖以20×36的尺寸連接在一起,分辨率檢測按此規(guī)模進行。3)還有一個Tinier模塊用于減小尺寸,低分辨率檢測以10×18大小進行。

比較圖3中的模型,這三個模型都有類似的骨干網(wǎng)絡結構。MFFD_A再加一個Tinier模塊以高分辨率檢測,MFFD_B添加兩個Tinier模塊,用于兩個分辨率檢測以合并上下文信息。因此,MFFD_B的計算成本略高于其他。

為了對特征融合的作用有一個直觀的理解,我們繪制三種模型的熱成像檢測圖,如圖4所示。四條街具有不同尺度的物體的檢測圖展示在(a)-(c)中(參考模型,MFFD_A和MFFD_B 的熱成像圖從上到下列出)。顯然,特征融合的作用非常令人印象深刻,并且檢測性能已經(jīng)兩個方面有所改進:第一,通過使用上下文信息的MFFD模型定位精確度比參考模型準確;第二,小物體,如行人和遠離相機的車,對MFFD模型顯示出強烈反應。

圖4 三種模型的熱成像檢測圖。(a)-(d)提供4條不同街道的熱圖圖像視角。從上到下,分別為參考模型、MFFD_A和MFFD_B的熱圖。

4、模型訓練與實驗
在本節(jié)中,我們在KITTI基準數(shù)據(jù)集評估MFFD。首先,我們調(diào)研一些關于MFFD方法的重要設計因素。然后我們將MFFD與最先進的輕量級模型作比較。最后,在不同的平臺上,如GPU,CPU和一些嵌入式GPU,我們從精度、模型大小、預測時間角度分析了不同模型的表現(xiàn)。

A. 數(shù)據(jù)集和訓練細節(jié)
數(shù)據(jù)集:由于這項研究的背景是基于ADAS的物體檢測,檢測目標主要是道路上的物體,如行人或車輛。因此,本節(jié)中使用的基準數(shù)據(jù)集是定義良好的KITTI [50]檢測數(shù)據(jù)集。KITTI數(shù)據(jù)集包括7481個用于訓練的圖像和7581個用于測試的圖像,總共80256個標記對象。具體地說,本文最主要采用三大類圖片:車,行人以及騎行者。

每個類的評估有三個難度級別:Easy,Moderate和Hard,它們是根據(jù)被檢測對象的遮擋,大小和截斷級別定義的。查看[50]以獲得這些難度級別的詳細定義。由于測試集的真實標簽不能公開供研究人員使用,同[51],我們將KITTI訓練圖像集劃分為訓練和驗證集來評估我們的方法。

應該注意的是,針對具有不同參數(shù)設置的不同類別(例如輸入圖像大小)訓練各個檢測器可能會提高在此數(shù)據(jù)集上的檢測性能。對于我們的情況,由于應用場景是ADAS,因此不僅需要考慮檢測精度而且還需要考慮計算成本。因此,所有評估都由具有多類檢測輸出的單個檢測器提供。

實施:后端深度學習框架是由Redmon和Farhadi [27,31]引入的Darknet,它是一個用C語言編寫的輕量級框架,可以很容易地部署在許多平臺上。

KITTI數(shù)據(jù)集的圖像編號不足以進行深度模型訓練,模型預訓練對于模型參數(shù)初始化是必需的。我們使用隨機梯度下降(SGD)在ILSVRC 2012分類數(shù)據(jù)集上預先將MFFD訓練16個迭代周期,起始學習率為0.1。基于預訓練模型,然后我們在Nvidia TianX GPU平臺上用KITTI數(shù)據(jù)集訓練MFFD,批量大小為4,此批量大小只需要少量GPU內(nèi)存,因此可以在有限的時間內(nèi)輕松訓練所提出的模型。為了學習,使用動量為0.9的隨機梯度下降(SGD)進行優(yōu)化。權重衰減設定為0.0005。MFFD訓練總共160個迭代周期,起始學習率為0.001,起始學習率在達到60和90個迭代周期時都除以10。在訓練期間,我們使用標準數(shù)據(jù)增強技巧,包括旋轉,色調(diào),飽和度和曝光偏移。

B. 特征融合評估
在本小節(jié)中,我們將定量評估特征融合的貢獻。在這些實驗中,同[28],如果預測邊界框與真實標簽的交并比(IOU)高于0.5(這應用在 PASCAL VOC測試中),則判斷此預測框為正確。本小節(jié)不考慮難度級別,因此測試結果與以下部分略有不同。我們采用平均精度(mAP)作為評估檢測性能的度量。

本節(jié)評估了四種變體。單尺度檢測器,其結構為參考模型結構,如圖3(a)所示,具有單個檢測流程,最終特征圖尺寸為10×18×1024。多尺度檢測器的結構非常接近單尺度檢測器,唯一的區(qū)別是檢測層連接到Tin.3和Tin.4的輸出,其特征圖尺寸分別為20×36×512和10×18×1024。這種多尺度路線的靈感來自SSD [10],并且在沒有特征融合的情況下將兩個單獨的特征圖獨立檢測。MFFD_A和MFFD_B是本文介紹的特征融合模型,其結構如圖3(b)和(c)所示。

評估結果總結在表2中,其中最好的檢測結果標記為粗體紅色,其次標記為粗體藍色。如表2所示,如果我們僅以空間特征尺寸為10×18的單一尺度預測對象,則mAP(第1行)為56.95%。如果我們在兩個不同的空間尺度(10×18和20×36)上應用檢測,則mAP增加到61.13%(第2行)。特別是,行人和騎行者等小物體的檢測性能得到了顯著提高。這證明較大的特征圖有益于小物體檢測。

另外,除了多尺度檢測之外,特征融合模塊應用于MFFD_A(第3行)和MFFD_B(第4行),并且可以觀察到更大的性能提升。他們以大幅度擊敗了多尺度檢測器,并將mAP提高了7.35%和11.58%。這些有希望的結果受益于上下文信息的使用。此外,結果表明MFFD_B融合模塊的檢測性能比MFFD_A融合模塊高4.3%。應該注意的是,MFFD_A融合模塊在檢測速度方面更具競爭力,這將在以下小節(jié)中介紹。

由于本文的重點是模塊化特征融合檢測器,因此不再詳細討論單尺度和多尺度檢測器,并且針對現(xiàn)有技術的定量評估僅應用于MFFD模型。

表2 特征融合的貢獻


C. 與先進方法的比較
在該小節(jié)中,將所提出的MFFD檢測器與為道路物體檢測設計的現(xiàn)有先進技術進行比較。其中有一些非常有前景的模型,如RRC[43],但由于我們的工作是輕量級模型,并且考慮了精度和計算成本,因此我們選擇一些輕量級基線進行比較。選定的輕量級基線是:Pose-RCNN [52],F(xiàn)aster-RCNN [12],F(xiàn)YSqueeze [53],HNet [54],tiny-det [55],ReSqueeze [56],Vote3Deep [57]。為了評估,我們計算了不同難度級別的汽車,行人和騎車人的精確召回曲線,這些曲線用于官方KITTI排名。根據(jù)標準的KITTI設置,汽車的IoU閾值為70%,行人和騎車者的閾值為50%。為了對不同的方法進行排序,我們還計算平均精度(AP)。
圖5繪制了所有基線的精確召回曲線。從上到下,給出了不同類別的結果,例如汽車,行人和騎車人。從左到右,呈現(xiàn)出不同難度級別的結果:簡單,中等和困難。本文提出的方法MFFD_A和MFFD_B以藍色曲線繪制。我們可以看到在大多數(shù)情況下,MFFD檢測器性能極具競爭力。
為了對所有方法進行更直觀的比較,表3給出了不同級別、不同類別的物體檢測的平均精度(AP)。在表中3,我們用深紅色來標記最好的方法以及深藍色來標記第二好的方法??梢钥闯?,對中等檢測難度的車和困難檢測難度的行人,本文提出的MFFD_A得到了最佳的檢測結果,對簡單檢測難度的車和困難檢測難度的騎車者獲得了第二的檢測結果。對于簡單檢測難度的車,MFFD_B獲得最佳結果,對于困難檢測難度的車、困難檢測難度的行人以及中等檢測難度的騎車者,輕松獲得第二好的結果。應該指出的是,雖然是MFFD在所有情況下都沒有得到最好的結果,顯然MFFD和最佳方法之間的差距很小。例如,對于中等檢測難度的行人,MFFD的精度是65.46%,比最佳方法慢1.28%。圖6顯示關于KITTI測試集的一些檢測示例。

圖5 汽車,行人和騎車人在不同難度級別的精確召回曲線。本文提出MFFD用藍線表示。

表3 不同方法在KITTI驗證集的比較


圖6 使用MFFD_A在KITTI測試集上物體檢測結果的示例。對于每個圖像,一種顏色對應于該圖像中的物體類別。

D. 模型尺寸以及運行時間
為了證明本文提出的模型計算效率,表4提供了每張圖像的平均測試時間(秒)。我們在不同的平臺上,例如CPU,GPU和 嵌入式GPU評估測試時間。具體來說,CPU是2.70 GHz的i7-6820HQ,GPU是Nvidia 1080Ti,以及嵌入式GPU是Nvidia Drive PX2和Jetson TX2。

不同的深度學習后端可能導致不同的運行時間。為了公平地比較,本小節(jié)中的所有基線具有完全相同的后端和運行環(huán)境,因此,他們的模型大小和預測時間可以直接比較。具體來說,因為我們的后端是Darknet,我們采用兩種廣泛使用的輕量級和快速網(wǎng)絡模型YOLOv2-Tiny[33],YOLOv3-Tiny [58]作為基線并將其與本文提出的MFFD_A和MFFD_B檢測器進行比較。所有方法的模型大小,mAP和運行時間如表4所示。應該注意,即使是基線YOLOv2-Tiny [33]和YOLOv3- Tiny [58],我們也在KITTI數(shù)據(jù)集上重新訓練了模型,并使用和MFFD相同的圖像大小和訓練參數(shù)。

如表4所示,我們有以下觀察:



1)從準確度的角度出發(fā),本文提出的方法大幅度超越參考模型。特別是MFFD_B的mAP為72.71%,比YOLOv3-Tiny高出10%以上,MFFD_A以68.48%為第二高的檢測結果。

2)在模型尺寸方面,MFFD_A是最好的,只有29.7MB。YOLOv3-Tiny其次,34.7MB,MFFD_B和YOLOv2-Tiny相對較大,分別為55.6MB和63.5MB。

3)關于運行時間,在所有的平臺上,YOLOv2-Tiny和 YOLOv3-Tiny比本文提出的方法都要快。但應該指出的是,即使本文提出的模型速度較低,但差異不大,實際上所有的方法都很快。拿最慢的一個MFFD_B為例,它仍然可以在嵌入式GPU,Jetson TX2上以100fps運行。

另外,我們繪制模型尺寸和mAP的散點圖,GPU_time和mAP的散點圖,見圖7(a)和(b)。(a)顯示MFFD_A通過更小的尺寸和獲得更好的性能,更高的mAP。(b)表明在精度和速度之間存在權衡。所以,一般來說,如果準確,模型大小和運行時間是聯(lián)合考慮的,MFFD_A是非常有競爭的模型;反之,從性能和測試速度的角度考慮,MFFD_B是不錯的選擇。
表4 不同方法從mAP,尺寸,檢測時間角度的比較


圖7 (a):尺寸與精度(mAP)(b):速度與準確度。如果方法的尺寸較小(或時間較短),則獲得更高的mAP,它比其他方法更好。因此,圖中左上角的方法代表了更好的結果。

5、結論
在本文中,本文設計了一種新的輕量級網(wǎng)絡,模塊化特征融合檢測器(MFFD),用于ADAS應用程序背景中檢測道路上的物體。首先,網(wǎng)絡的組件不是個別層,而是精心設計的模塊,并且用這些模塊構建網(wǎng)絡可確保高效性能和計算效率。其次,本文已經(jīng)開發(fā)出兩個不同的特征融合模型來添加用于檢測的上下文信息。受益于輕量化的模塊化設計,MFFD可以部署在內(nèi)存和計算資源有限的平臺。本文提出的方法已經(jīng)在不同平臺上進行了測試,例如CPU,GPU和嵌入式GPU。本文在公眾可用的KITTI檢測數(shù)據(jù)集進行評估,從性能,模型大小和運行時間方面,證明了本文所提出的方法非常有競爭力。即使這些方法是在ADAS的背景下提出的,它可能在其他嵌入式系統(tǒng)中有潛在的應用,比如機器人或無人機。

聯(lián)系人:李老師
電話:021-69589225
郵箱:11666104@#edu.cn 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25