基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測

2021-01-28 00:19:01· 來源：同濟(jì)智能汽車研究所

編者按：為實(shí)現(xiàn)全天候自動(dòng)駕駛，需要在不同的光照條件下檢測出行人。遠(yuǎn)紅外相機(jī)拍攝的熱圖像在低光照條件下能提供額外的目標(biāo)信息，將熱圖像和可見光圖像融合的多

編者按：為實(shí)現(xiàn)全天候自動(dòng)駕駛，需要在不同的光照條件下檢測出行人。遠(yuǎn)紅外相機(jī)拍攝的熱圖像在低光照條件下能提供額外的目標(biāo)信息，將熱圖像和可見光圖像融合的多光譜行人檢測性能優(yōu)于單獨(dú)采用可見光圖像。本文提出了一種基于光照感知行人檢測和語義分割多任務(wù)學(xué)習(xí)的多光譜行人檢測框架，一方面從融合特征圖中學(xué)習(xí)場景的光照條件，另一方面將行人檢測和語義分割網(wǎng)絡(luò)都分為兩個(gè)子網(wǎng)絡(luò)，分別負(fù)責(zé)學(xué)習(xí)白天和夜間的行人特征。通過學(xué)習(xí)到的光照信息對(duì)兩個(gè)子網(wǎng)絡(luò)的輸出加權(quán)，得到最終結(jié)果。設(shè)計(jì)光照感知、行人檢測、語義分割的多任務(wù)損失函數(shù)以進(jìn)行端到端的聯(lián)合訓(xùn)練。實(shí)驗(yàn)證明，該光照感知加權(quán)機(jī)制為多光譜行人檢測器的性能提升提供了一種有效的策略。

本文譯自：
Fusion of Multispectral Data Through Illumination-aware Deep Neural Networks for Pedestrian Detection
文章來源：
2018 SCI Information Fusion
作者：
Dayan Guan, Yanpeng Cao, Jiangxin Yang, Yanlong Cao, Michael Ying Yang
原文鏈接：
https://doi.org/10.1016/j.inffus.2018.11.017

摘要：多光譜行人檢測作為促進(jìn)全天候應(yīng)用（如安全監(jiān)控和自動(dòng)駕駛）魯棒人體目標(biāo)檢測的一種有前景的解決方案，近年來受到了廣泛關(guān)注。在本文中，我們證明了編碼在多光譜圖像中的光照信息可以顯著提高行人檢測的性能。提出了一種新的光照感知加權(quán)機(jī)制來準(zhǔn)確描述場景的光照條件。將這些光照信息整合到雙流深度卷積神經(jīng)網(wǎng)絡(luò)中，學(xué)習(xí)不同光照條件下（白天和夜間）的多光譜人體相關(guān)特征。此外，我們利用光照信息與多光譜數(shù)據(jù)結(jié)合來生成更準(zhǔn)確的語義分割，從而提高行人檢測的準(zhǔn)確率。將所有部分放在一起，我們提出了一個(gè)強(qiáng)大的基于光照感知行人檢測和語義分割多任務(wù)學(xué)習(xí)的多光譜行人檢測框架。我們提出的方法使用精心設(shè)計(jì)的多任務(wù)損失函數(shù)進(jìn)行端到端的訓(xùn)練，在KAIST多光譜行人數(shù)據(jù)集上表現(xiàn)優(yōu)于最先進(jìn)的方法。

關(guān)鍵詞：多光譜融合，行人檢測，深度神經(jīng)網(wǎng)絡(luò)，光照感知，語義分割

1 引言

行人檢測是近幾十年來計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門研究課題[29, 5, 8, 11, 10, 4, 41]。給定在各種現(xiàn)實(shí)世界監(jiān)控情況下拍攝的圖像，行人檢測要求生成邊界框，以準(zhǔn)確定位單個(gè)行人實(shí)例。它提供了一個(gè)重要的功能，促進(jìn)一系列以人體為中心的應(yīng)用，如視頻監(jiān)控[36,1,25]和自動(dòng)駕駛[37,24,39]。

盡管近年來已經(jīng)取得了顯著的進(jìn)步，但開發(fā)一種可用于實(shí)際應(yīng)用的魯棒行人檢測算法仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。值得注意的是，現(xiàn)有的行人檢測器大多僅使用可見光信息進(jìn)行訓(xùn)練，因此其性能對(duì)光照、天氣和遮擋的變化非常敏感[18]。為了克服上述的局限性，許多研究工作已經(jīng)聚焦在開發(fā)多光譜行人檢測方法上，以促進(jìn)對(duì)全天候應(yīng)用的魯棒人體目標(biāo)檢測[22, 21, 34, 28, 16, 13]。直覺上，多光譜圖像（如可見光和熱圖像）提供了有關(guān)感興趣目標(biāo)的互補(bǔ)信息，有效地融合這些數(shù)據(jù)可以得到更魯棒、更準(zhǔn)確的檢測結(jié)果。

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測

圖1 在(a)白天和(b)夜間場景下拍攝的多光譜行人實(shí)例特征。(a)和(b)中的第一行是行人實(shí)例的多光譜圖像。(a)和(b)中的第二行是相應(yīng)行人實(shí)例特征圖的可視化?？梢姽夂蜔釄D像的特征圖由在相應(yīng)通道訓(xùn)練好的深度神經(jīng)區(qū)域建議網(wǎng)絡(luò)[38]生成。注意，多光譜行人實(shí)例在白天和夜間光照條件下展示出明顯不同的人體相關(guān)特征。

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測1

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測1

圖2 光照感知加權(quán)機(jī)制的說明。給出一對(duì)對(duì)齊的可見光和熱圖像，雙流深度神經(jīng)網(wǎng)絡(luò)(TDNN)生成多光譜語義特征圖。白天-光照子網(wǎng)絡(luò)和夜間-光照子網(wǎng)絡(luò)利用多光譜語義特征圖在不同光照條件下進(jìn)行行人檢測和語義分割。最終的檢測結(jié)果是由多個(gè)光照感知子網(wǎng)絡(luò)的輸出融合而成。

在本文工作中，我們?cè)O(shè)計(jì)了一個(gè)框架，通過提出的光照感知深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)在不同光照條件下（白天和夜間）的多光譜人體相關(guān)特征。我們觀察到多光譜行人實(shí)例在白天和夜間光照條件下展示出明顯不同的人體相關(guān)特征，如圖1所示，因此利用多個(gè)內(nèi)置的子網(wǎng)絡(luò)，每個(gè)子網(wǎng)絡(luò)專門捕捉特定光照的視覺形態(tài)，提供一種有效的方案來處理大量由不同光照條件導(dǎo)致的類間差異，以實(shí)現(xiàn)更魯棒的目標(biāo)探測。根據(jù)多光譜數(shù)據(jù)對(duì)光照信息進(jìn)行魯棒估計(jì)，并將光照信息引入到多個(gè)光照感知子網(wǎng)絡(luò)中學(xué)習(xí)多光譜語義特征圖，用于不同光照條件下的魯棒行人檢測和語義分割。給出一對(duì)白天捕獲的多光譜圖像，我們提出的光照感知加權(quán)機(jī)制自適應(yīng)地為白天-光照子網(wǎng)絡(luò)（行人檢測和語義分割）分配一個(gè)高權(quán)重來學(xué)習(xí)白天的人體相關(guān)特征。與此相對(duì)，夜間場景的多光譜圖像被用來生成夜間-光照特征。我們?cè)趫D2中說明了這種光照感知加權(quán)機(jī)制是如何工作的。最終的檢測結(jié)果是由多個(gè)光照感知子網(wǎng)絡(luò)的輸出融合而成，在場景光照變化中對(duì)大的變化保持魯棒性。本文工作有以下幾點(diǎn)貢獻(xiàn)。

首先，我們證明了通過一種考慮多光譜語義特征的全連接神經(jīng)網(wǎng)絡(luò)架構(gòu)可以魯棒地確定場景的光照條件，且估計(jì)的光照信息為提高行人檢測性能提供了有用的信息。

其次，我們將光照感知機(jī)制整合到雙流深度卷積神經(jīng)網(wǎng)絡(luò)中，以學(xué)習(xí)不同光照條件下（白天和夜間）的多光譜人體相關(guān)特征。據(jù)我們所知，這是探索光照信息用于訓(xùn)練多光譜行人檢測器的首次嘗試。

第三，我們提出了一個(gè)基于光照感知行人檢測和語義分割多任務(wù)學(xué)習(xí)的完整的多光譜行人檢測框架，并利用精心設(shè)計(jì)的多任務(wù)損失對(duì)其進(jìn)行端到端的訓(xùn)練。與最先進(jìn)的多光譜行人檢測器相比，我們的方法獲得了更低的遺漏率和更快的運(yùn)行時(shí)間[16,18,19]。

本文其余部分組織如下。在第2節(jié)中，我們回顧了一些現(xiàn)有的多光譜行人檢測方法。第3節(jié)介紹了我們提出的光照感知深度神經(jīng)網(wǎng)絡(luò)的細(xì)節(jié)。第4節(jié)對(duì)多光譜行人檢測方法進(jìn)行了廣泛的實(shí)驗(yàn)比較，第5節(jié)總結(jié)了本文。

2 相關(guān)研究

使用可見光和多光譜圖像的行人檢測方法與我們的工作密切相關(guān)。我們?cè)谙旅鎸?duì)這些主題的最新研究進(jìn)行綜述。

可見光行人檢測。利用可見光信息進(jìn)行行人檢測已有大量方法被提出。Piotr等人提出的融合通道特征（ICF）行人檢測器基于特征金字塔和增強(qiáng)分類器[6]。其性能通過多種方法包括ACF[7]、LDCF[27]、Checkerboards[40]等得到進(jìn)一步提高。最近，基于DNN的目標(biāo)檢測方法[12, 31, 15]已經(jīng)被用于提高行人檢測的性能。Li等人[23] 提出了一種尺度感知的深度網(wǎng)絡(luò)框架，將一個(gè)大尺度的子網(wǎng)絡(luò)和一個(gè)小尺度的子網(wǎng)絡(luò)組合成一個(gè)統(tǒng)一的架構(gòu)，以描述不同尺度下行人的獨(dú)特特征。Cai等人[3]提出了一種統(tǒng)一的多尺度深度神經(jīng)網(wǎng)絡(luò)架構(gòu)，將互補(bǔ)的特定尺度的檢測器組合在一起，從而提供大量的感受野來匹配不同尺度的對(duì)象。Zhang等人[38]利用高分辨率卷積特征圖進(jìn)行分類，并提出了一種利用區(qū)域建議網(wǎng)絡(luò)（RPN）加上增強(qiáng)森林的行人檢測有效流程。Mao等人[26]提出了一種新的網(wǎng)絡(luò)架構(gòu)，聯(lián)合學(xué)習(xí)行人檢測以及給定的額外特征。這種多任務(wù)訓(xùn)練方案能夠利用給定特征的信息，在推理階段無額外輸入的情況下提高檢測性能。Brazil等人[2] 開發(fā)了一種引入分割的網(wǎng)絡(luò)，通過對(duì)語義分割和行人檢測的聯(lián)合監(jiān)督來提高行人檢測的準(zhǔn)確率。事實(shí)證明，弱注釋框提供了足夠的信息獲得可觀的性能提升。

多光譜行人檢測。多光譜圖像提供了有關(guān)感興趣目標(biāo)的互補(bǔ)信息，因此利用多模態(tài)數(shù)據(jù)源訓(xùn)練的行人檢測器產(chǎn)生魯棒的檢測結(jié)果。Hwang等人[16]建立了一個(gè)大規(guī)模多光譜行人數(shù)據(jù)集（KAIST）。使用對(duì)齊好的標(biāo)有密集的行人注釋的可見光和熱圖像對(duì)，作者提出了一種新的多光譜聚合特征（ACF+T+THOG）來處理彩色-熱圖像對(duì)，并應(yīng)用了增強(qiáng)決策樹（BDT）進(jìn)行目標(biāo)分類。Wagner等人[35]首次將DNN應(yīng)用于多光譜行人檢測，并對(duì)兩種決策網(wǎng)絡(luò)（early-fusion和late-fusion）的性能進(jìn)行了評(píng)估。這些決策網(wǎng)絡(luò)對(duì)ACF+T+THOG[16]生成的行人候選框進(jìn)行驗(yàn)證，從而獲得更準(zhǔn)確的檢測結(jié)果。Liu等人[18]研究了如何利用Faster R-CNN[31]來完成多光譜行人檢測任務(wù)，并設(shè)計(jì)了四種卷積網(wǎng)絡(luò)融合結(jié)構(gòu)，其中雙分支卷積網(wǎng)絡(luò)是在DNN不同階段融合的。最優(yōu)的結(jié)構(gòu)是Halfway Fusion，該模型利用中層卷積特征融合雙分支卷積網(wǎng)絡(luò)。Konig等人[19] 修改了RPN + BDT[38]的架構(gòu)，構(gòu)建了用于多光譜行人檢測的Fusion RPN + BDT。Fusion RPN融合了中層卷積特征上的雙分支RPN，在KAIST多光譜數(shù)據(jù)集上獲得了最先進(jìn)的性能。我們的方法明顯不同于上述方法，它開發(fā)了一個(gè)在不同光照條件下（白天和夜間）通過提出的光照感知多光譜深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多光譜人體相關(guān)特征的框架。據(jù)我們所知，這是探索光照信息用于提高多光譜行人檢測性能的首次嘗試。

3 我們的方法

3.1 提出模型概述

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測2

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測2

圖3 我們提出的光照感知多光譜深度神經(jīng)網(wǎng)絡(luò)（IATDNN+IASS）的架構(gòu)。注意，綠色方框表示卷積層和全連接層，黃色方框表示池化層，藍(lán)色方框表示融合層，灰色方框表示分割層，橙色方框表示輸出層。最好用彩圖觀看。

光照感知多光譜深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)如圖3所示。它由三個(gè)集成處理模塊組成，分別是光照全連接神經(jīng)網(wǎng)絡(luò)（IFCNN）、光照感知雙流深度卷積神經(jīng)網(wǎng)絡(luò)（IATDNN）和光照感知多光譜語義分割（IAMSS）。給定對(duì)齊的可見光和熱圖像，IFCNN計(jì)算光照感知權(quán)重，以確定它是白天場景還是夜間場景。通過提出的光照感知機(jī)制，IATDNN和IASS利用多個(gè)子網(wǎng)絡(luò)生成檢測結(jié)果（分類分?jǐn)?shù)- Cls和邊界框- Bbox）和分割掩膜（Seg）。例如，IATDNN使用兩個(gè)獨(dú)立的分類子網(wǎng)絡(luò)（D-Cls和N-Cls）分別在白天和夜間光照條件下對(duì)行人進(jìn)行分類。將每個(gè)子網(wǎng)絡(luò)的Cls、Bbox和Seg結(jié)果結(jié)合起來，通過根據(jù)場景光照條件定義的門函數(shù)得到最終輸出。基于光照感知行人檢測和語義分割的多任務(wù)學(xué)習(xí)，對(duì)該方法進(jìn)行端到端的訓(xùn)練。

3.2 光照全連接神經(jīng)網(wǎng)絡(luò)（IFCNN）

如圖3所示，將一對(duì)可見光和熱圖像送入雙流深度卷積神經(jīng)網(wǎng)絡(luò)（TDNN）[19]的前5個(gè)卷積層和池化層，提取出單個(gè)通道的語義特征圖。注意TDNN中特征提取層的每個(gè)流（可見光圖像流的Conv1-V到Conv5-V、熱圖像流的Conv1-T到Conv5-T）采用VGG16[33]的1-5層卷積層作為backbone。然后融合兩個(gè)通道的特征圖，通過一個(gè)連接層（Concat）生成雙流特征圖（TSFM）。TSFM用作IFCNN的輸入，計(jì)算決定場景光照條件的光照感知權(quán)重

和

。

IFCNN由一個(gè)池化層（IA-Pool）、三個(gè)全連接層（IA-FC1、IA-FC2、IA-FC3）和soft-max層（Soft-max）組成。類似于空間金字塔池化（SPP）層，消除了網(wǎng)絡(luò)的固定大小約束[14]，IA-Pool使用雙線性插值將TSFM的特征調(diào)整為固定尺度的圖（7×7），并為全連接層生成固定大小的輸出。IA-FC1、IA-FC2、IA-FC3的通道數(shù)根據(jù)經(jīng)驗(yàn)分別設(shè)置為512、64、2。Soft-max是IFCNN的最后一層。Soft-max的輸出為

和

。我們將光照誤差用

表示，定義為

其中

和

為對(duì)于白天和夜間場景的估計(jì)光照權(quán)重，

和

為光照標(biāo)簽。如果訓(xùn)練圖片是在白天光照條件下拍攝的，我們?cè)O(shè)

，否則

。

3.3 光照感知雙流深度卷積神經(jīng)網(wǎng)絡(luò)（IATDNN）

IATDNN架構(gòu)是基于雙流深度卷積神經(jīng)網(wǎng)絡(luò)（TDNN）[19]設(shè)計(jì)的。采用了區(qū)域建議網(wǎng)絡(luò)（RPN）模型[38]由于其優(yōu)越的行人檢測性能。給定單個(gè)輸入圖像，RPN輸出大量與置信度分?jǐn)?shù)關(guān)聯(lián)的邊界框，通過分類和邊界框回歸生成行人建議。如圖4(a)所示，一個(gè)3×3卷積層（Conv-Pro）連接在Concat層之后，再附加兩個(gè)兄弟1×1卷積層（Cls和Bbox）分別用于分類和邊界框回歸。TDNN模型提供了一個(gè)有效的框架，利用雙流特征圖（TSFM）進(jìn)行魯棒行人檢測。

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測15

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測15

圖4 TDNN和IATDNN架構(gòu)的比較。注意

和

，綠色方框表示卷積層和全連接層，黃色方框表示池化層，藍(lán)色方框表示融合層，橙色方框表示輸出層。最好用彩圖觀看。

我們進(jìn)一步將光照信息整合到TDNN中，以生成不同光照條件下的分類和回歸結(jié)果。具體而言，IATDNN包含4個(gè)子網(wǎng)絡(luò)（D-Cls、N-Cls、D-Bbox、N-Bbox）來產(chǎn)生光照感知的檢測結(jié)果，如圖4(b)所示。D-Cls和N-Cls分別計(jì)算白天和夜間光照條件下的分類得分，D-Bbox和N-Bbox分別生成白天和夜間場景的邊界框。對(duì)這些子網(wǎng)絡(luò)的輸出使用IFCNN中計(jì)算出的光照權(quán)重進(jìn)行組合，從而產(chǎn)生最終的檢測結(jié)果。檢測損失項(xiàng)

定義為

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測17

其中

是分類損失

和回歸損失

的組合，

定義了它們之間的正則化參數(shù)（我們根據(jù)Zhang等人[38]提出的方法，設(shè)

），

定義了一個(gè)mini-batch的訓(xùn)練樣本集。若一個(gè)訓(xùn)練樣本與某一真值邊界框的交并比（IoU）大于0.5，則認(rèn)為該訓(xùn)練樣本為正樣本，否則為負(fù)樣本。我們對(duì)正樣本設(shè)置訓(xùn)練標(biāo)簽

，負(fù)樣本設(shè)

。對(duì)每個(gè)正樣本，其邊界框設(shè)置為

以計(jì)算邊界框回歸損失。在式2中分類損失項(xiàng)

定義為

回歸損失項(xiàng)

定義為

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測30

其中

和

分別為預(yù)測的分類分?jǐn)?shù)和邊界框，

損失函數(shù)

在[12]中定義來學(xué)習(xí)

和

之間的轉(zhuǎn)化映射。在IATDNN中，

作為白天-光照分類得分

和夜間-光照分類得分

的加權(quán)和來計(jì)算
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測40

為D-Bbox和N-Bbox子網(wǎng)絡(luò)分別預(yù)測的兩個(gè)邊界框

和

的光照加權(quán)和
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測44

通過上述光照加權(quán)機(jī)制，在白天場景下，白天-光照子網(wǎng)絡(luò)（分類和回歸）將被給予一個(gè)高優(yōu)先級(jí)來學(xué)習(xí)人體相關(guān)特征。另一方面，利用夜間場景的多光譜特征圖，在夜間光照條件下生成可靠的檢測結(jié)果。
3.4 光照感知語義分割（IASS）

最近，語義分割掩膜已被成功地用作強(qiáng)線索提高單通道目標(biāo)檢測的性能[15,2]。簡單的基于邊界框的分割掩膜提供了額外的監(jiān)督，引導(dǎo)共享層中的特征對(duì)下游行人檢測器變得更為顯著。在本文中，我們將語義分割方案與雙流深度卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合，實(shí)現(xiàn)對(duì)多光譜圖像上的行人同時(shí)檢測和分割。
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測45

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測45

圖5 MSS-F、MSS、IAMSS-F和IAMSS架構(gòu)的比較。注意，綠色方框表示卷積層，藍(lán)色方框表示融合層，灰色方框表示分割層。最好用彩圖觀看。

給定來自兩個(gè)多光譜通道（可見光通道和熱通道）的信息，在不同階段（特征階段和決策階段）的融合會(huì)導(dǎo)致不同的分割結(jié)果。因此，我們希望研究一種適合多光譜分割任務(wù)的最佳融合結(jié)構(gòu)。為此，我們?cè)O(shè)計(jì)了兩種在不同階段進(jìn)行融合的多光譜語義分割架構(gòu)，分別為特征階段多光譜語義分割（MSS-F）和決策階段多光譜語義分割（MSS）。如圖5(a)-(b)所示，MSS-F首先將Conv5-V和Conv5-T的特征圖融合起來，然后應(yīng)用一個(gè)公共的Conv-Seg層產(chǎn)生分割掩膜。相比之下，MSS使用兩個(gè)卷積層（Conv-seg-V和Conv-seg-T）為每個(gè)通道產(chǎn)生不同的分割圖，然后結(jié)合兩個(gè)流的輸出生成最終的分割掩膜。

此外，我們希望研究考慮場景的光照條件能否提高語義分割的性能。基于MSS-F和MSS架構(gòu)，我們?cè)O(shè)計(jì)了另外兩種光照感知的多光譜語義分割架構(gòu)（IAMSS-F和IAMSS）。如圖5(c)-(d)所示，我們使用了兩個(gè)分割子網(wǎng)絡(luò)（D-Seg和N-seg）來生成光照感知語義分割的結(jié)果。注意IAMSS-F包含兩個(gè)子網(wǎng)絡(luò)，IAMSS包含四個(gè)子網(wǎng)絡(luò)。通過光照加權(quán)機(jī)制，利用IFCNN預(yù)測的光照權(quán)重融合這些子網(wǎng)絡(luò)的輸出，生成多光譜語義分割。在第4節(jié)中，我們給出了這四種不同的多光譜分割架構(gòu)的評(píng)估結(jié)果。

這里我們定義分割損失項(xiàng)為
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測46

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測46

其中

為預(yù)測的分割掩膜，

為分割流（MSS-F和IAMSS-F只包含一個(gè)分割流，而MSS和IAMSS包含兩個(gè)流），

為基于邊界框的分割在單個(gè)mini-batch中的訓(xùn)練樣本數(shù)。若樣本落在真值邊界框內(nèi)，我們?cè)O(shè)

，否則設(shè)

。在光照感知的多光譜語義分割架構(gòu)IAMSS-F和IAMSS中，

是D-Seg和N-Seg子網(wǎng)絡(luò)分別預(yù)測的兩個(gè)分割掩膜

和

的光照加權(quán)組合

為進(jìn)行光照感知行人檢測和語義分割的多任務(wù)學(xué)習(xí)，我們將式1、2、7定義的損失項(xiàng)組合，得到最終的多任務(wù)損失函數(shù)如下

其中

和

分別為損失項(xiàng)

和

的平衡系數(shù)。根據(jù)Brazil等人[2]提出的方法，我們?cè)O(shè)

，

。我們利用這個(gè)損失函數(shù)來聯(lián)合訓(xùn)練光照感知的多光譜深度神經(jīng)網(wǎng)絡(luò)。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集：我們的實(shí)驗(yàn)是利用公共數(shù)據(jù)集KAIST多光譜行人基準(zhǔn)[16]進(jìn)行的?？偟膩碚f，KAIST訓(xùn)練數(shù)據(jù)集包含50172張對(duì)齊的彩色-紅外圖像對(duì)，這些圖像對(duì)拍攝于不同的城市地點(diǎn)、不同的光照條件下，帶有密集的標(biāo)注。我們每2幀對(duì)圖像進(jìn)行采樣，并按照Konig等人[19]提出的方法獲得25086張訓(xùn)練圖像。KAIST的測試集包含2252對(duì)圖像，其中797對(duì)是在夜間拍攝的。“合理”設(shè)置（行人大于55像素，至少50%可見）下的原始注釋用于性能評(píng)估[16]。

實(shí)現(xiàn)細(xì)節(jié)：我們采用以圖像為中心的訓(xùn)練方案，生成1幅圖像和隨機(jī)選取的120個(gè)anchor組成的mini-batch。如果anchor與某一真值邊界框的交并比（IoU）大于0.5，則認(rèn)為該anchor為正樣本，否則為負(fù)樣本。TDNN每個(gè)流中的前5個(gè)卷積層（可見光圖像流的Conv1-V到Conv5-V、熱圖像流的Conv1-T到Conv5-T）使用在ImageNet數(shù)據(jù)集[32]上預(yù)訓(xùn)練的VGG-16[33]深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)并行初始化。所有其他卷積層和全連接層都以標(biāo)準(zhǔn)偏差（0.01）的零均值高斯分布進(jìn)行初始化。深度神經(jīng)網(wǎng)絡(luò)是在Caffe[17]框架下訓(xùn)練的，采用隨機(jī)梯度下降（SGD）[42]，動(dòng)量項(xiàng)為0.9，權(quán)重衰減為0.0005[20]。為了避免因梯度爆炸[30]導(dǎo)致的學(xué)習(xí)失敗，我們使用了閾值10來對(duì)梯度削波。

評(píng)估指標(biāo)：我們使用對(duì)數(shù)平均遺漏率（MR）[7]來評(píng)估多光譜行人檢測算法的性能。如果檢測的邊界框結(jié)果能夠成功匹配到某一真值邊界框（IoU超過50%[16]），則認(rèn)為該結(jié)果為真陽性。未匹配到的檢測邊界框和未匹配到的真值邊界框分別被認(rèn)為是假陽性和假陰性。根據(jù)Dollar等人[7]提出的方法，與被忽略的真值邊界框匹配的檢測邊界框不被視為真陽性，同樣未被匹配的被忽略的真值邊界框標(biāo)簽不被視為假陰性。MR通過在

到

范圍對(duì)數(shù)空間均勻分布的9個(gè)每幅圖像假陽性（FPPI）率值上的平均遺漏率（假陰性率）來計(jì)算 [16,18,19]。

4.2 IFCNN評(píng)估

光照加權(quán)機(jī)制在我們提出的光照感知深度神經(jīng)網(wǎng)絡(luò)中提供了一個(gè)必要的功能。我們首先評(píng)估IAFCNN能否準(zhǔn)確計(jì)算出提供關(guān)鍵信息的光照權(quán)重，以平衡光照感知子網(wǎng)絡(luò)的輸出。我們使用KAIST測試集來評(píng)估IAFCNN的性能，其中包含白天（1455幀）和夜間（797幀）拍攝的多光譜圖像。給出一對(duì)對(duì)齊的可見光和熱圖像，IAFCNN將輸出白天的光照權(quán)重

。如果白天場景得到

，或者夜間場景得到

，則光照條件預(yù)測正確。此外，我們單獨(dú)使用可見光圖像通道（IFCNN-V）或熱圖像通道（IFCNN-T）提取的特征圖來評(píng)估光照預(yù)測的性能，以研究哪個(gè)通道提供了最可靠的信息來確定場景的光照條件。IFCNN-V、IFCNN-T和IFCNN的架構(gòu)如圖6所示，表1比較了它們的預(yù)測精度。
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測68

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測68

圖6 IFCNN、IFCNN-V和IFCNN-T的架構(gòu)。注意，綠色方框表示卷積層和全連接層，黃色方框表示池化層，藍(lán)色方框表示融合層，橙色方框表示soft-max層。最好用彩圖觀看。

表1 使用IFCNN-V、IFCNN-T和IFCNN的光照預(yù)測準(zhǔn)確率

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測69

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測69

結(jié)果表明，使用來自可見光圖像通道的信息可以對(duì)白天和夜間場景（白天- 97.94%和夜間-97.11%）都生成可靠的光照預(yù)測。這個(gè)結(jié)果是合理的，因?yàn)槿祟惪梢院苋菀椎馗鶕?jù)視覺觀察確定這是一個(gè)白天場景還是一個(gè)夜間場景。雖然熱圖像通道不能單獨(dú)用于光照預(yù)測，但它提供了對(duì)可見光圖像通道的補(bǔ)充信息，從而提高了光照預(yù)測的性能。通過對(duì)可見光和熱圖像通道互補(bǔ)信息的融合，IFCNN比IFCNN-V（僅使用可見光圖像）或IFCNN-T（僅使用熱圖像）計(jì)算出更精確的光照權(quán)重。實(shí)驗(yàn)結(jié)果表明，通過考慮多光譜語義特征，基于我們提出的IFCNN能夠魯棒地確定場景的光照條件。

4.3 IATDNN評(píng)估

我們進(jìn)一步評(píng)估光照信息能否用來提高多光譜行人檢測器的性能。具體來說，我們比較了TDNN和IATDNN的性能。為了公平比較，TDNN和IATDNN兩種架構(gòu)都沒有考慮語義分割的信息。我們結(jié)合式1中定義的光照損失項(xiàng)和式2中定義的檢測損失項(xiàng)來聯(lián)合訓(xùn)練IAFCNN和IATDNN，并使用檢測損失項(xiàng)訓(xùn)練TDNN。TDNN模型提供了一種利用雙流特征圖（TSFM）進(jìn)行魯棒行人檢測的有效框架[19]。然而，它沒有區(qū)分在白天和夜間光照條件下的人體實(shí)例，使用一個(gè)公共的Con-Prov層生成檢測結(jié)果。相比之下，IATDNN應(yīng)用光照加權(quán)機(jī)制自適應(yīng)地組合多個(gè)光照感知子網(wǎng)絡(luò)（D-Cls、N-Cls、D-Reg、N-Reg）的輸出，生成最終的檢測結(jié)果。
表2 IDNN和IATDNN的MR
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測70

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測70

使用對(duì)數(shù)平均遺漏率（MR）作為評(píng)估指標(biāo)，IATDNN和TDNN的檢測精度如表2所示。通過考慮場景的光照信息，IATDNN能夠顯著提高白天和夜間場景的檢測精度。值得一提的是，這樣的性能提升（TDNN 32.60% 對(duì)比 IATDNN 29.62% MR）是以很小的計(jì)算開銷為代價(jià)實(shí)現(xiàn)的?；趩蝹€(gè)Titan X GPU, TDNN模型需要0.22s來處理KAIST數(shù)據(jù)集中的一對(duì)可見光和熱圖像（640×512像素），而IATDNN模型需要0.24s。第4.5節(jié)提供了更多計(jì)算效率的比較結(jié)果。實(shí)驗(yàn)結(jié)果表明，基于多光譜數(shù)據(jù)我們能夠魯棒地估計(jì)光照信息，并進(jìn)一步引入多個(gè)光照感知子網(wǎng)絡(luò)中，更好地學(xué)習(xí)人體相關(guān)特征圖，從而提高行人檢測器的性能。

4.4 IAMSS評(píng)估

我們通過將語義分割方案與IATDNN結(jié)合來評(píng)估性能的提高。這里我們比較了用于行人檢測的四種不同的多光譜語義分割模型，包括MSS-F（特征階段MSS）、MSS（決策階段MSS）、IAMSS-F（光照感知的特征階段MSS）、IAMSS（光照感知的決策階段MSS）。這四種模型的架構(gòu)如圖5所示。MSS模型輸出大量基于邊界框的分割掩膜，這樣的弱注釋邊界框提供了額外信息，從而能夠訓(xùn)練IATDNN中更顯著的特征。表3比較了IATDNN、IATDNN+MSS-F、IATDNN+MSS、IATDNN+IAMSS-F、IATDNN+IAMSS的檢測性能。

表3 IATDNN、IATDNN+SS和IATDNN+IASS的MR比較
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測71

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測71

值得注意的是，使用四種不同的多光譜語義分割模型（除了夜間場景使用IATDNN+MSS-F），一般都可以通過行人檢測和語義分割的聯(lián)合訓(xùn)練來獲得性能的提高。其基本原理是，語義分割掩膜將提供額外的監(jiān)督，以促進(jìn)訓(xùn)練更復(fù)雜的特征，從而實(shí)現(xiàn)更魯棒的行人檢測[2]。另一個(gè)觀察結(jié)果是，融合方案的選擇（特征階段還是決策階段）會(huì)顯著影響檢測性能。結(jié)果表明，決策階段融合的多光譜語義分割模型（MSS和IA-MSS）優(yōu)于特征階段融合模型（MSS-F和IA-MSS-F）。對(duì)這一現(xiàn)象的一種可能解釋是，后融合策略（如決策階段融合）更適合結(jié)合高水平的分割結(jié)果。尋找最優(yōu)的分割融合策略來處理多光譜數(shù)據(jù)將是我們未來的研究方向。最后，考慮場景的光照條件可以提高語義分割的性能。通過光照加權(quán)機(jī)制自適應(yīng)地融合子網(wǎng)絡(luò)輸出，在不同光照條件下生成更準(zhǔn)確的分割結(jié)果。圖7顯示了使用四種不同MSS模型的語義分割結(jié)果的比較。觀察到，IATDNN+IASS（使用光照）生成的語義分割可以更準(zhǔn)確地覆蓋小目標(biāo)，抑制背景噪聲。更準(zhǔn)確的分割可以提供更好的監(jiān)督來訓(xùn)練最顯著的人體相關(guān)特征圖。

在圖8中我們可以看到TDNN、IATDNN和IATDNN+IAMSS的特征圖，來了解不同的光照感知模塊所實(shí)現(xiàn)的改進(jìn)增益。我們發(fā)現(xiàn)，與TDNN相比，IATDNN通過將光照信息整合到多個(gè)光照感知子網(wǎng)絡(luò)中以更好地學(xué)習(xí)人體相關(guān)特征圖，生成了更多顯著的行人特征。IATDNN+IASS通過分割引入方案可以實(shí)現(xiàn)進(jìn)一步的提高，該方案使用光照感知的可見光和熱圖像語義分割掩膜來監(jiān)督特征圖的訓(xùn)練。

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測72

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測72

圖7 使用四種不同多光譜語義分割模型生成的多光譜行人語義分割結(jié)果示例。(a)和(b)的前兩列分別顯示了可見光圖像和熱圖像的行人實(shí)例。(a)和(b)的第三至第六列分別顯示了MSS-F、MSS、IAMSS-F和IAMSS生成的語義分割。注意，綠色實(shí)線邊界框（BBs）表示正樣本標(biāo)簽，黃色虛線BBs表示忽略的標(biāo)簽。最好用彩圖觀看。

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測73

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測73

圖8 在(a)白天和(b)夜間場景中，由光照感知機(jī)制提升的多光譜行人特征圖示例。(a)和(b)的前兩列分別顯示可見光圖像和熱圖像的行人實(shí)例。(a)和(b)的第三至第五列分別為TDNN、IATDNN和IATDNN+IASS生成的特征圖可視化。注意，通過逐步插入我們提出的兩個(gè)光照感知模塊IA（用于分類和邊界框回歸）和IASS（用于生成多光譜語義分割）來改進(jìn)多光譜行人的特征圖。

4.5與最先進(jìn)的多光譜行人檢測方法比較

我們提出的IATDNN和IATDNN+IASS與其他三種多光譜行人檢測器：ACF+T+THOG[16]、Halfway Fusion[18]和Fusion RPN+ BDT[19]進(jìn)行了比較。為了比較檢測器，我們通過改變檢測置信度的閾值，繪制MR-FPPI曲線（使用log-log繪制），如圖9所示。

我們提出的IATDNN+IASS在全天場景取得了杰出的26.37%的MR。與目前最先進(jìn)的多光譜行人檢測方法Fusion RPN+BDT（29.68%）相比，性能有11%的相對(duì)提升率。同時(shí)，提出檢測器的性能在白天（27.29%對(duì)比30.51%）和夜間（24.41%對(duì)比27.62%）都超過了最先進(jìn)的方法。

此外，我們提出的IATDNN在不使用語義分割架構(gòu)的情況下，可以實(shí)現(xiàn)與最先進(jìn)的方法相當(dāng)?shù)男阅埽ò滋欤篒ATDNN（30.30%）對(duì)比Fusion RPN+BDT（30.51%）以及夜間：IATDNN（26.88%）對(duì)比Fusion RPN+BDT（27.62%））。

我們將Fusion RPN+BDT和我們提出的IATDNN、IATDNN+IASS的一些檢測結(jié)果可視化如圖10。與Fusion RPN+BDT相比較，我們提出的IATDNN和IATDNN+IASS能夠在不同光照條件下成功檢測大多數(shù)行人實(shí)例。同時(shí)結(jié)合光照感知的語義分割，減少了重復(fù)檢測導(dǎo)致的假陽性。

此外，我們比較了IATDNN+IASS、IATDNN、TDNN和最先進(jìn)方法的計(jì)算效率，如表4所示。在多光譜行人檢測方面，IATDNN+IASS的效率大大超過了目前最先進(jìn)的深度學(xué)習(xí)方法，運(yùn)行時(shí)0.25s/每張圖像對(duì)比0.40s/每張圖像。Halfway Fusion架構(gòu)是TDNN和Fast R-CNN的結(jié)合[12]。可以看出，F(xiàn)ast R-CNN模型使計(jì)算效率幾乎減半。同時(shí)，F(xiàn)usion RPN+BDT架構(gòu)是TDNN和增強(qiáng)森林的集成。我們可以觀察到，增強(qiáng)模塊非常耗時(shí)，將運(yùn)行時(shí)間增加了3倍。值得注意的是，我們提出的光照感知加權(quán)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)效率的影響很小，與TDNN相比是0.25s對(duì)比0.22s。

表4 比較IATDNN+IASS和最先進(jìn)方法的MR（全天）和運(yùn)行時(shí)間性能。利用單個(gè)Titan X GPU對(duì)計(jì)算效率進(jìn)行評(píng)估。注意DL表示深度學(xué)習(xí)，BF表示增強(qiáng)森林[9]。
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測74

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測74

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測75

圖9 “合理“設(shè)置下在全天(a)、白天(b)、夜間(c) KAIST測試集上的比較（標(biāo)簽表示MR）

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測76

圖10 與目前最先進(jìn)方法（Fusion RPN + BDT）行人檢測結(jié)果的比較。第一列為帶真值的輸入多光譜圖像（展示了可見光圖像通道），其余為Fusion RPN + BDT、IATDNN、IATDNN+IASS的檢測結(jié)果（展示了熱圖像通道）。注意，綠色實(shí)線邊界框（BBs）表示正樣本標(biāo)簽，綠色虛線BBs表示忽略的標(biāo)簽，黃色實(shí)線BBs表示真陽性，黃色虛線BBs表示忽略標(biāo)簽的檢測，紅色BBs表示假陽性。最好用彩圖觀看。

5 總結(jié)

本文提出了一種功能強(qiáng)大的多光譜行人檢測器，它基于光照感知行人檢測和語義分割的多任務(wù)學(xué)習(xí)。利用編碼在多光譜圖像中的光照信息計(jì)算光照感知權(quán)重。我們證明了我們?cè)O(shè)計(jì)的光照全連接神經(jīng)網(wǎng)絡(luò)（IFCNN）可以準(zhǔn)確地預(yù)測權(quán)重。提出了一種新的光照感知加權(quán)機(jī)制，將白天和夜間光照子網(wǎng)絡(luò)（行人檢測和語義分割）結(jié)合起來。實(shí)驗(yàn)結(jié)果表明，光照感知加權(quán)機(jī)制為多光譜行人檢測器的性能提升提供了一種有效的策略。此外，我們探索了四種不同的多光譜語義分割架構(gòu)，發(fā)現(xiàn)光照感知決策階段融合的多光譜語義分割生成最可靠的輸出。在KAIST基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明，我們所提出的方法優(yōu)于目前最先進(jìn)的方法，并且使用更少的運(yùn)行時(shí)間獲得了更準(zhǔn)確的行人檢測結(jié)果。

參考文獻(xiàn)
基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測77

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測77

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測78

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測79

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測80

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測81

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：典型V2X通信技術(shù)標(biāo)準(zhǔn)化進(jìn)展及對(duì)比分析研究
上一篇：汽車測試假人的路該怎么走？

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于光照感知深度神經(jīng)網(wǎng)絡(luò)的多光譜數(shù)據(jù)融合行人檢測

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對(duì)摩托車前照燈配光性能的工