日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

Point-GNN:用于點(diǎn)云中三維目標(biāo)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)

2021-09-29 09:44:07·  來(lái)源:同濟(jì)智能汽車(chē)研究所  作者:安全與性能研究室  
 
編者按:近年來(lái),由于圖結(jié)構(gòu)的強(qiáng)大表現(xiàn)力,用機(jī)器學(xué)習(xí)方法分析圖的研究越來(lái)越受到重視。圖神經(jīng)網(wǎng)絡(luò)(GNN)是一類(lèi)基于深度學(xué)習(xí)的處理圖域信息的方法。由于其較好
編者按:近年來(lái),由于圖結(jié)構(gòu)的強(qiáng)大表現(xiàn)力,用機(jī)器學(xué)習(xí)方法分析圖的研究越來(lái)越受到重視。圖神經(jīng)網(wǎng)絡(luò)(GNN)是一類(lèi)基于深度學(xué)習(xí)的處理圖域信息的方法。由于其較好的性能和可解釋性,GNN最近已成為一種廣泛應(yīng)用的圖分析方法。在3D點(diǎn)云語(yǔ)義分割方法中,GNN已經(jīng)做了很多可用的方案,但是在目標(biāo)檢測(cè)上依舊是采用比較傳統(tǒng)的CNN和稀疏卷積的組合,本篇文章則研究了圖卷積在3D檢測(cè)的中的用法。其提出的Point-GNN的檢測(cè)精度表現(xiàn)在KITTI上有著領(lǐng)先的排名。

本文譯自:
《Point-GNN: Graph Neural Network for 3D ObjectDetection in a Point Cloud》
文章來(lái)源:2020 IEEE/CVF Conference onComputer Vision and Pattern Recognition
作者:Weijing Shi, Raj Rajkumar

原文鏈接:https://ieeexplore.ieee.org/document/9156733

摘要:本文提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的激光雷達(dá)點(diǎn)云目標(biāo)檢測(cè)方法。為此,我們?cè)诠潭ò霃降慕張D中對(duì)點(diǎn)云進(jìn)行了有效的編碼。我們?cè)O(shè)計(jì)了一個(gè)名為Point-GNN的圖神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)圖中每個(gè)頂點(diǎn)所屬的對(duì)象的類(lèi)別和形狀。在Point-GNN中,我們提出了一種自動(dòng)配準(zhǔn)機(jī)制來(lái)降低平移方差,并設(shè)計(jì)了一種框合并和評(píng)分操作,以精確地組合來(lái)自多個(gè)頂點(diǎn)的檢測(cè)。我們?cè)贙ITTI基準(zhǔn)上的實(shí)驗(yàn)表明,該方法僅使用點(diǎn)云就能達(dá)到領(lǐng)先的精度,甚至可以超過(guò)基于融合的算法。我們的結(jié)果證明了圖神經(jīng)網(wǎng)絡(luò)作為一種新的三維目標(biāo)檢測(cè)方法的潛力。
關(guān)鍵詞:圖神經(jīng)網(wǎng)絡(luò),自動(dòng)配準(zhǔn),框合并和評(píng)分,目標(biāo)檢測(cè)

1 引言
理解3D環(huán)境對(duì)機(jī)器人感知至關(guān)重要。構(gòu)成空間點(diǎn)集的點(diǎn)云是激光雷達(dá)等3D傳感器的一種廣泛使用的格式。在自動(dòng)駕駛等應(yīng)用中,準(zhǔn)確地從點(diǎn)云中檢測(cè)對(duì)象是至關(guān)重要的。
從圖像中檢測(cè)目標(biāo)的卷積神經(jīng)網(wǎng)絡(luò)依賴(lài)于卷積運(yùn)算。雖然卷積運(yùn)算是高效的,但它需要規(guī)則的網(wǎng)格作為輸入。與圖像不同,點(diǎn)云通常是稀疏的,并且在規(guī)則網(wǎng)格上不是均勻分布的。將點(diǎn)云放置在規(guī)則網(wǎng)格上會(huì)在網(wǎng)格單元中生成不均勻數(shù)量的點(diǎn)。在這樣的網(wǎng)格上應(yīng)用相同的卷積運(yùn)算會(huì)導(dǎo)致?lián)頂D單元中的潛在信息丟失或空單元中的計(jì)算浪費(fèi)。
最近在使用神經(jīng)網(wǎng)絡(luò)方面的突破[3][22]允許一組無(wú)序的點(diǎn)作為輸入。一些研究利用這種類(lèi)型的神經(jīng)網(wǎng)絡(luò)來(lái)提取點(diǎn)云特征,而不需要將點(diǎn)云映射到網(wǎng)格。但是,它們通常需要迭代地對(duì)點(diǎn)進(jìn)行采樣和分組,以創(chuàng)建一個(gè)點(diǎn)集表示。在大型點(diǎn)云上重復(fù)分組和采樣的計(jì)算成本可能會(huì)很高。最近的3D檢測(cè)方法[10][21][16]通常采用混合方法,在不同階段使用網(wǎng)格和集合表示。雖然它們顯示了一些有希望的結(jié)果,但這種混合策略可能會(huì)受到這兩種表示的缺點(diǎn)的影響。
在本文中,我們提出使用圖形作為點(diǎn)云的緊湊表示,并設(shè)計(jì)一個(gè)名為Point-GNN的圖神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)目標(biāo)。我們使用點(diǎn)作為圖的頂點(diǎn),在圖中對(duì)點(diǎn)云進(jìn)行自然編碼。圖的邊連接位于固定半徑內(nèi)的鄰域點(diǎn),這允許特征信息在鄰域之間流動(dòng)。這種圖形表示直接適應(yīng)點(diǎn)云的結(jié)構(gòu),而無(wú)需使其規(guī)則化。圖神經(jīng)網(wǎng)絡(luò)重用每一層的圖邊,避免了對(duì)點(diǎn)的重復(fù)分組和采樣。
研究[15][9][2][17]研究了使用圖神經(jīng)網(wǎng)絡(luò)對(duì)點(diǎn)云進(jìn)行分類(lèi)和語(yǔ)義分割。然而,很少有研究考慮使用圖形神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)點(diǎn)云中的3D對(duì)象。我們的工作證明了在點(diǎn)云中使用GNN進(jìn)行高精度目標(biāo)檢測(cè)的可行性。
我們提出的圖神經(jīng)網(wǎng)絡(luò)Point-GNN以點(diǎn)圖為輸入。它輸出每個(gè)頂點(diǎn)所屬對(duì)象的類(lèi)別和邊界框。Point-GNN是一種在單次拍攝中檢測(cè)多個(gè)目標(biāo)的一階段檢測(cè)方法。為了減少圖神經(jīng)網(wǎng)絡(luò)中的平移方差,我們引入了一種自動(dòng)配準(zhǔn)機(jī)制,允許點(diǎn)根據(jù)它們的特征對(duì)齊它們的坐標(biāo)。在此基礎(chǔ)上,設(shè)計(jì)了一種框合并和評(píng)分操作,對(duì)多個(gè)頂點(diǎn)的檢測(cè)結(jié)果進(jìn)行了準(zhǔn)確的組合。
我們?cè)贙ITTI基準(zhǔn)上對(duì)提出的方法進(jìn)行評(píng)估。在KITTI基準(zhǔn)測(cè)試中,Point-GNN僅使用點(diǎn)云就達(dá)到了最先進(jìn)的精度,甚至超過(guò)了傳感器融合方法。我們的Point-GNN展示了一種新型的基于圖神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測(cè)方法的潛力,它可以作為未來(lái)研究的一個(gè)很好的基礎(chǔ)。我們對(duì)Point-GNN中組件的有效性進(jìn)行了廣泛的消融研究。
綜上所述,本文的貢獻(xiàn)在于:
提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的點(diǎn)云目標(biāo)檢測(cè)新方法;
設(shè)計(jì)了Point-GNN,一個(gè)具有自動(dòng)配準(zhǔn)機(jī)制的圖神經(jīng)網(wǎng)絡(luò),可以在一次拍攝中檢測(cè)多個(gè)目標(biāo);
在KITTI基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的3D目標(biāo)檢測(cè)準(zhǔn)確率,并深入分析了每個(gè)組件的有效性。

2 相關(guān)工作
在此背景下,先前的工作可以分為三類(lèi),如圖1所示。


圖1 三種點(diǎn)云表示及其常用處理方法。
網(wǎng)格中的點(diǎn)云。許多最近的研究將點(diǎn)云轉(zhuǎn)換成規(guī)則的網(wǎng)格,以利用卷積神經(jīng)網(wǎng)絡(luò)。[20]將點(diǎn)云投影到2D鳥(niǎo)瞰(BEV)圖像上,并使用2D CNN進(jìn)行目標(biāo)檢測(cè)。[4]在應(yīng)用2D CNN之前,將點(diǎn)云投影到BEV圖像和前視(FV)圖像上。由于圖像分辨率有限,這種投影會(huì)產(chǎn)生量化誤差。一些方法將點(diǎn)云保持在三維坐標(biāo)中。[23]提出3D體素中的點(diǎn),并應(yīng)用3D卷積進(jìn)行對(duì)象檢測(cè)。當(dāng)體素的分辨率增加時(shí),3D CNN的計(jì)算成本呈立方增長(zhǎng),但由于點(diǎn)的稀疏性,很多體素是空的。像稀疏卷積[19]這樣的優(yōu)化則降低了計(jì)算成本。將點(diǎn)云轉(zhuǎn)換為2D/3D網(wǎng)格的方法存在點(diǎn)的不規(guī)則分布和網(wǎng)格的規(guī)則結(jié)構(gòu)不匹配的問(wèn)題。
集合中的點(diǎn)云。在集合上的深度學(xué)習(xí)技術(shù),如PointNet[3]和DeepSet[22]表明,神經(jīng)網(wǎng)絡(luò)可以直接從無(wú)序的點(diǎn)集合中提取特征。在這種方法中,每個(gè)點(diǎn)由多層感知器(MLP)處理以獲得點(diǎn)特征向量。這些特征通過(guò)平均或最大池化函數(shù)聚合,形成整個(gè)集合的全局特征向量。[14]在此基礎(chǔ)上,提出了點(diǎn)特征的層次聚合,并通過(guò)在關(guān)鍵點(diǎn)周?chē)蓸觼?lái)生成點(diǎn)的局部子集。然后,這些子集的特征被再次分組到集合中,用于進(jìn)一步的特征提取。許多3D對(duì)象檢測(cè)方法利用這種神經(jīng)網(wǎng)絡(luò)來(lái)處理點(diǎn)云,而無(wú)需將其映射到網(wǎng)格。然而,大規(guī)模的點(diǎn)采樣和分組會(huì)導(dǎo)致額外的計(jì)算開(kāi)銷(xiāo)。大多數(shù)目標(biāo)檢測(cè)研究只使用集合上的神經(jīng)網(wǎng)絡(luò)作為解決方案的一部分。[13]從相機(jī)圖像中生成object proposals,并使用[14]將屬于目標(biāo)的點(diǎn)從背景中分離出來(lái),預(yù)測(cè)一個(gè)邊界框。[16]使用[14]作為主干網(wǎng)絡(luò),直接從點(diǎn)云生成邊界框方案。然后,使用第二階段的點(diǎn)網(wǎng)絡(luò)來(lái)細(xì)化邊界框?;旌戏椒ㄈ鏪23][19][10][21]使用[3]從局部點(diǎn)集提取特征,并將特征放置在規(guī)則網(wǎng)格上進(jìn)行卷積運(yùn)算。雖然它們?cè)谝欢ǔ潭壬蠝p少了點(diǎn)云的局部不規(guī)則性,但仍然存在規(guī)則網(wǎng)格和整體點(diǎn)云結(jié)構(gòu)之間的不匹配問(wèn)題。
圖中的點(diǎn)云。圖神經(jīng)網(wǎng)絡(luò)[18]的研究旨在將卷積神經(jīng)網(wǎng)絡(luò)推廣為一種圖表示。GNN通過(guò)沿著邊緣聚合特征來(lái)迭代更新其頂點(diǎn)特征。雖然聚合方案有時(shí)與集合上的深度學(xué)習(xí)類(lèi)似,但GNN允許沿邊緣確定更復(fù)雜的特征。它通常不需要重復(fù)對(duì)頂點(diǎn)進(jìn)行采樣和分組。在計(jì)算機(jī)視覺(jué)領(lǐng)域,有幾種方法將點(diǎn)云表示為圖形。[15]使用遞歸GNN對(duì)RGBD數(shù)據(jù)進(jìn)行語(yǔ)義分割。[9]將點(diǎn)云分割為簡(jiǎn)單的幾何形狀,并將它們鏈接到圖形中以進(jìn)行語(yǔ)義分割。[2][17]研究使用GNN對(duì)點(diǎn)云進(jìn)行分類(lèi)。到目前為止,很少有研究著眼于設(shè)計(jì)一種用于目標(biāo)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò),來(lái)對(duì)目標(biāo)形狀進(jìn)行明確的預(yù)測(cè)。
與以往的工作不同,我們?cè)O(shè)計(jì)了一個(gè)用于目標(biāo)檢測(cè)的GNN。我們不是將點(diǎn)云轉(zhuǎn)換為規(guī)則網(wǎng)格(如圖像或體素),而是使用圖形表示來(lái)保留點(diǎn)云的不規(guī)則性。與重復(fù)對(duì)點(diǎn)進(jìn)行采樣和分組為集合的技術(shù)不同,我們只需構(gòu)建一次圖形。提出的Point-GNN算法通過(guò)迭代更新同一圖上的頂點(diǎn)特征來(lái)提取點(diǎn)云特征。我們的工作是一種單級(jí)檢測(cè)方法,不需要開(kāi)發(fā)像[4][16][21][11][13]中那樣的二級(jí)精化神經(jīng)網(wǎng)絡(luò)。

3 點(diǎn)云中3D目標(biāo)檢測(cè)的Point-GNN算法
在本節(jié)中,我們將介紹所提出的從點(diǎn)云中檢測(cè)3D對(duì)象的方法。如圖2所示,方法的總體架構(gòu)包含三個(gè)部分:(a)圖形構(gòu)造,(b)T次迭代的GNN,(c)邊界框合并和評(píng)分。


圖2 所提出方法的體系結(jié)構(gòu)。它有三個(gè)主要組成部分:(a)從點(diǎn)云構(gòu)建圖形,(b)用于目標(biāo)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò),(c)邊界框合并和評(píng)分。
3.1 圖形構(gòu)造
在形式上,我們將N個(gè)點(diǎn)的點(diǎn)云定義為一個(gè)集合P = { p1,…, pN },其中pi = (xi,si)為一個(gè)帶有三維坐標(biāo)xi∈?3和狀態(tài)值si∈?k(長(zhǎng)度為k的矢量代表點(diǎn)屬性)的點(diǎn)。狀態(tài)值si可以是反射的激光強(qiáng)度,也可以是編碼周?chē)矬w的特征。在給定一個(gè)點(diǎn)云P的情況下,我們以P為頂點(diǎn),將一個(gè)點(diǎn)與其在固定半徑r內(nèi)的相鄰點(diǎn)連接起來(lái),從而構(gòu)造一個(gè)圖G = (P, E),例如:


這種圖的構(gòu)造就是眾所周知的固定半徑近鄰搜索問(wèn)題。通過(guò)使用單元列表查找在給定截止距離內(nèi)的點(diǎn)對(duì),我們可以在運(yùn)行時(shí)間復(fù)雜度為O(cN)的情況下有效地解決這個(gè)問(wèn)題,其中c為半徑內(nèi)的最大鄰居數(shù)[1]。實(shí)際上,一個(gè)點(diǎn)云通常由數(shù)萬(wàn)個(gè)點(diǎn)組成。構(gòu)造一個(gè)以所有點(diǎn)為頂點(diǎn)的圖會(huì)帶來(lái)很大的計(jì)算負(fù)擔(dān)。因此,我們使用體素下采樣點(diǎn)云
來(lái)構(gòu)建圖形。必須注意的是,這里的體素僅用于降低點(diǎn)云的密度,并不用作點(diǎn)云的表示。我們?nèi)匀皇褂脠D來(lái)呈現(xiàn)下采樣的點(diǎn)云。為了保留原始點(diǎn)云中的信息,我們?cè)陧旤c(diǎn)的初始狀態(tài)值si中對(duì)密集的點(diǎn)云進(jìn)行編碼。更具體地說(shuō),我們搜索每個(gè)頂點(diǎn)r0半徑內(nèi)的原始點(diǎn),并使用集合上的神經(jīng)網(wǎng)絡(luò)來(lái)提取它們的特征。我們遵循[10][23],使用MLP嵌入激光雷達(dá)反射強(qiáng)度和相對(duì)坐標(biāo),然后用Max函數(shù)對(duì)它們進(jìn)行聚合。我們使用生成的特征作為頂點(diǎn)的初始狀態(tài)值。在圖形構(gòu)建之后,我們使用GNN處理圖形,如圖2b所示。
3.2 具有自動(dòng)配準(zhǔn)功能的圖神經(jīng)網(wǎng)絡(luò)
典型的圖神經(jīng)網(wǎng)絡(luò)通過(guò)沿邊聚合特征來(lái)細(xì)化頂點(diǎn)特征。在第(t+1)次迭代中,它以下列形式更新每個(gè)頂點(diǎn)要素:


其中,ev是來(lái)自第t次迭代的邊和頂點(diǎn)特征。函數(shù)f(.)計(jì)算兩個(gè)頂點(diǎn)之間的邊特征。ρ(.)是集合每個(gè)頂點(diǎn)的邊特征的集合函數(shù)。g(.)利用聚集的邊緣特征更新頂點(diǎn)特征。然后,圖神經(jīng)網(wǎng)絡(luò)輸出頂點(diǎn)特征或在下一次迭代中重復(fù)該過(guò)程。
在目標(biāo)檢測(cè)的情況下,我們?cè)O(shè)計(jì)GNN來(lái)優(yōu)化頂點(diǎn)的狀態(tài),以包括關(guān)于該頂點(diǎn)所屬的對(duì)象的信息。為了實(shí)現(xiàn)這一目標(biāo),我們重寫(xiě)公式(2),以使用其鄰居的狀態(tài)來(lái)優(yōu)化頂點(diǎn)的狀態(tài):


注意,我們使用鄰居的相對(duì)坐標(biāo)作為f(.)的輸入,用于邊緣特征提取。相對(duì)坐標(biāo)對(duì)點(diǎn)云的全局位移產(chǎn)生平移不變性。然而,它仍然對(duì)附近區(qū)域的平移敏感。當(dāng)向頂點(diǎn)添加小平移時(shí),其相鄰頂點(diǎn)的局部結(jié)構(gòu)保持相似。但是鄰居的相對(duì)坐標(biāo)都會(huì)改變,這會(huì)增加ft(.)的輸入方差。為了減小平移方差,我們提出根據(jù)鄰居的結(jié)構(gòu)特征而不是中心頂點(diǎn)坐標(biāo)來(lái)對(duì)齊鄰居坐標(biāo)。因?yàn)橹行捻旤c(diǎn)已經(jīng)包含了上一次迭代的一些結(jié)構(gòu)特征,所以我們可以使用它來(lái)預(yù)測(cè)對(duì)齊偏移,并提出一種自動(dòng)配準(zhǔn)機(jī)制:


Δxi是頂點(diǎn)配準(zhǔn)其坐標(biāo)的坐標(biāo)偏移。h(.)使用上一次迭代的中心頂點(diǎn)狀態(tài)值計(jì)算偏移。通過(guò)將h(.)設(shè)置為輸出零,GNN可以在必要時(shí)禁用偏移量。在這種情況下,GNN回到公式(3)。第四節(jié)分析了該自動(dòng)配準(zhǔn)機(jī)制的有效性。
如圖2b所示,我們使用多層感知器(MLP)對(duì)f(.),g(.)和h(.)進(jìn)行建模,并在g(.)中添加殘余連接。因其魯棒性我們選擇ρ(.)作為Max[3]。然后給出所提出的圖網(wǎng)絡(luò)中的單次迭代:


其中[,]表示級(jí)聯(lián)操作。
每個(gè)迭代t使用一組不同的MLP,在迭代之間不共享。圖神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)T次迭代后,我們利用頂點(diǎn)狀態(tài)值來(lái)預(yù)測(cè)頂點(diǎn)所在的對(duì)象的類(lèi)別和邊界框。分類(lèi)分支MLPcls計(jì)算多類(lèi)概率。最后,一個(gè)定位分支MLPloc為每個(gè)類(lèi)計(jì)算一個(gè)邊界框。
3.3 損失
對(duì)于目標(biāo)類(lèi)別,分類(lèi)分支為每個(gè)頂點(diǎn)計(jì)算一個(gè)多類(lèi)概率分布{pc1, …, pcM}。M是對(duì)象類(lèi)的總數(shù),包括背景類(lèi)。如果一個(gè)頂點(diǎn)在一個(gè)對(duì)象的邊界框內(nèi),我們將對(duì)象類(lèi)賦值給這個(gè)頂點(diǎn)。如果一個(gè)頂點(diǎn)在任何邊界框之外,我們就為它分配為背景類(lèi)。我們用平均交叉熵?fù)p失作為分類(lèi)損失。


其中lm, hm, wm,θ0,θm是恒定比例因子。
定位分支預(yù)測(cè)每個(gè)類(lèi)的編碼邊界框δb = (δxδy,δz,δl,δh,δw,δθ)。如果頂點(diǎn)在邊界框內(nèi),我們將計(jì)算真值和我們的預(yù)測(cè)之間的Huber損失[7]。如果頂點(diǎn)在任何邊界框之外,或者它屬于我們不需要定位的類(lèi),則將其定位損失設(shè)置為零。然后,我們平均所有頂點(diǎn)的定位損失:


為了防止過(guò)擬合,我們給每個(gè)MLP添加了L1正則化??倱p失為:


其中α,βγ是平衡每個(gè)損失的恒定權(quán)重。
3.4 框合并和評(píng)分
由于多個(gè)頂點(diǎn)可以位于同一對(duì)象上,因此神經(jīng)網(wǎng)絡(luò)可以輸出同一對(duì)象的多個(gè)邊界框。有必要將這些邊界框合并為一個(gè),并指定置信度分?jǐn)?shù)。非最大抑制(NMS)已被廣泛應(yīng)用于此目的。通常的做法是選擇分類(lèi)分?jǐn)?shù)最高的框,而不顯示其他重疊框。然而,分類(lèi)分?jǐn)?shù)并不總能反映定位質(zhì)量。值得注意的是,部分遮擋的對(duì)象可能具有指示對(duì)象類(lèi)型的強(qiáng)線索,但缺乏足夠的形狀信息。而標(biāo)準(zhǔn)NMS可以?xún)H基于分類(lèi)分?jǐn)?shù)來(lái)挑選不準(zhǔn)確的邊界框。
為了提高定位精度,我們提出了考慮整個(gè)重疊框簇來(lái)計(jì)算邊界框的方法。更具體地說(shuō),我們考慮了重疊邊界框的中值位置和大小。我們還將置信度分?jǐn)?shù)計(jì)算為由交并比(IoU)系數(shù)和遮擋系數(shù)加權(quán)的分類(lèi)分?jǐn)?shù)之和。遮擋系數(shù)表示占用體積比。給定一個(gè)框bi,使li, wi, hi分別為長(zhǎng)寬高,vi, vi, vi分別表示其方向的單位向量。xj為點(diǎn)pj的坐標(biāo)。遮擋系數(shù)為:


我們按照算法1所示修改了標(biāo)準(zhǔn)NMS。它返回合并的邊界框M和它們的置信度分?jǐn)?shù)Z。我們將在第四節(jié)研究它的有效性。
算法1 具有框合并和評(píng)分功能的NMS



4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
我們使用廣泛使用的KITTI目標(biāo)檢測(cè)基準(zhǔn)[6]來(lái)評(píng)估我們的設(shè)計(jì)。KITTI數(shù)據(jù)集包含7481個(gè)訓(xùn)練樣本和7518個(gè)測(cè)試樣本。每個(gè)樣例都提供點(diǎn)云和相機(jī)圖像。在我們的方法中,我們僅使用點(diǎn)云。由于數(shù)據(jù)集僅注釋圖像中可見(jiàn)的對(duì)象,因此我們僅在圖像的視場(chǎng)內(nèi)處理點(diǎn)云。KITTI基準(zhǔn)測(cè)試評(píng)估了三種對(duì)象的平均精度(AP):汽車(chē)、行人和騎自行車(chē)的人。由于規(guī)模不同,我們遵循慣例[10][23][19][21],為汽車(chē)訓(xùn)練一個(gè)網(wǎng)絡(luò),為行人和騎自行車(chē)的人訓(xùn)練另一個(gè)網(wǎng)絡(luò)。為了進(jìn)行訓(xùn)練,我們刪除了不包含感興趣對(duì)象的樣本。
4.2 實(shí)施詳情
我們?cè)谖覀兊膱D神經(jīng)網(wǎng)絡(luò)中使用了三次迭代(T=3)。在訓(xùn)練過(guò)程中,我們將每個(gè)頂點(diǎn)的最大輸入邊數(shù)限制為256。在推理過(guò)程中,我們使用所有的輸入邊。所有GNN層使用單元(64, 3)的雙層MLPh執(zhí)行自動(dòng)配準(zhǔn)。MLPcls大小為(64,#(classes))。對(duì)于每一個(gè)類(lèi),MLPloc大小為(64,64,7)。
汽車(chē):我們將(lm,hm,wm)設(shè)置為汽車(chē)邊界框大小的中位數(shù)(3.88m,1.5m,1.63m)。我們把θ∈[−π/4,π/4]的側(cè)視汽車(chē)和θ∈[π/4,3π/4]的前視汽車(chē)視為兩個(gè)不同的類(lèi)別。因此,我們分別設(shè)置θ0=0和θ0=π/2。范圍θm設(shè)為π/2。連同Background類(lèi)和DoNotCare類(lèi)一起,預(yù)測(cè)了4個(gè)類(lèi)。我們構(gòu)造了r=4m和r0=1m的圖。我們將
設(shè)置為下采樣點(diǎn)云,體素大小在訓(xùn)練時(shí)為0.8m,在推理中為0.4m。MLPfMLPg大小均為(300, 300)。對(duì)于初始頂點(diǎn)狀態(tài),我們使用(32, 64, 128, 300)的MLP嵌入原始點(diǎn),在Max聚合之后使用(300, 300)的MLP。我們?cè)贜MS中設(shè)置Th = 0.01。
行人和騎自行車(chē)的人:同樣,我們將(lm,hm,wm)設(shè)置為中間邊界框大小。我們?yōu)樾腥嗽O(shè)置了(0.88m,1.77m,0.65m),為騎自行車(chē)的人設(shè)置了(1.76m,1.75m,0.6m)。與對(duì)汽車(chē)類(lèi)所做的類(lèi)似,我們將前視圖和側(cè)視圖對(duì)象視為兩個(gè)不同的類(lèi)。連同Background類(lèi)和DoNotCare類(lèi)一起,預(yù)測(cè)了6個(gè)類(lèi)。我們使用r = 1.6m構(gòu)建圖形,并在訓(xùn)練中對(duì)點(diǎn)云進(jìn)行0.4m的體素大小下采樣,在推理中對(duì)點(diǎn)云進(jìn)行0.2m的下采樣。MLPfMLPg大小均為(256, 256)。對(duì)于頂點(diǎn)狀態(tài)初始化,我們?cè)O(shè)置r0= 0.4m。我們使用(32, 64, 128, 256,512)的MLP進(jìn)行嵌入,使用(256, 256)的MLP處理聚合特征。我們?cè)贜MS中設(shè)置Th = 0.2。
我們對(duì)提出的GNN進(jìn)行端到端的訓(xùn)練,批大小為4。損失權(quán)重α=0.1,β=10,γ=5e-7。我們使用隨機(jī)梯度下降(SGD)和階梯情況下的學(xué)習(xí)率衰減。對(duì)于汽車(chē),我們使用的初始學(xué)習(xí)率為0.125,衰減率為每400K步0.1。我們對(duì)這個(gè)網(wǎng)絡(luò)進(jìn)行了1400K步的訓(xùn)練。對(duì)于行人和騎自行車(chē)的人,我們使用的學(xué)習(xí)率為0.32,衰減率為每400K步0.25。我們訓(xùn)練了1000K步。
4.3 數(shù)據(jù)增強(qiáng)
為了防止過(guò)度擬合,我們對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。與許多使用復(fù)雜技術(shù)創(chuàng)建新的真值框的方法[19][10][16][21]不同,我們選擇了全局旋轉(zhuǎn)、全局翻轉(zhuǎn)、框平移和頂點(diǎn)抖動(dòng)的簡(jiǎn)單方案。在訓(xùn)練過(guò)程中,我們?cè)?Delta;θN(0,π/8)范圍內(nèi)隨機(jī)旋轉(zhuǎn)點(diǎn)云,然后以0.5的概率翻轉(zhuǎn)x軸。之后,每個(gè)框和框110%大小內(nèi)的點(diǎn)隨機(jī)移位(ΔxN(0,3),Δy=0,ΔzN(0,3))。我們使用一個(gè)擴(kuò)大10%的框來(lái)選擇點(diǎn),以防止切割對(duì)象。在平移過(guò)程中,我們檢查并避免了框之間、背景點(diǎn)與框之間的碰撞。在圖的構(gòu)建過(guò)程中,我們使用隨機(jī)的體素下采樣來(lái)誘導(dǎo)頂點(diǎn)抖動(dòng)。
4.3.1 結(jié)果
我們已經(jīng)將我們的結(jié)果提交給了KITTI 3D目標(biāo)檢測(cè)基準(zhǔn)和鳥(niǎo)瞰圖(BEV)目標(biāo)檢測(cè)基準(zhǔn)。在表1和表2中,我們將我們的結(jié)果與現(xiàn)有文獻(xiàn)進(jìn)行了比較。KITTI數(shù)據(jù)集評(píng)估三個(gè)難度級(jí)別的平均精度(AP):簡(jiǎn)單、中等和困難。我們的方法在簡(jiǎn)單和中等級(jí)別的汽車(chē)檢測(cè)和中等、困難級(jí)別的騎車(chē)人檢測(cè)上都取得了領(lǐng)先的結(jié)果。值得注意的是,在簡(jiǎn)單的BEV汽車(chē)檢測(cè)方面,我們超過(guò)了之前最先進(jìn)的方法3.45。此外,除了行人檢測(cè)之外,我們?cè)谒蓄?lèi)別上都優(yōu)于基于融合的算法。在圖3中,我們提供了所有類(lèi)別的定性檢測(cè)結(jié)果。相機(jī)圖像和點(diǎn)云上的結(jié)果都可以可視化。必須注意的是,我們的方法只使用點(diǎn)云數(shù)據(jù)。因?yàn)闇y(cè)試數(shù)據(jù)集不提供真值標(biāo)簽,相機(jī)圖像純粹用于視覺(jué)檢查。如圖3所示,盡管沒(méi)有達(dá)到最高分,我們的方法仍然能夠很好地檢測(cè)行人。行人檢測(cè)不如汽車(chē)和騎自行車(chē)的人檢測(cè)好的一個(gè)可能原因是頂點(diǎn)不夠密集,無(wú)法實(shí)現(xiàn)更準(zhǔn)確的邊界框。
表1 在KITTI測(cè)試數(shù)據(jù)集上進(jìn)行3D目標(biāo)檢測(cè)的平均精度(AP)比較。


表2 在KITTI測(cè)試數(shù)據(jù)集上進(jìn)行鳥(niǎo)瞰圖(BEV)目標(biāo)檢測(cè)的平均精度(AP)比較。




圖3 使用Point-GNN對(duì)KITTI測(cè)試數(shù)據(jù)集的定性結(jié)果。我們?cè)趫D像和點(diǎn)云上都顯示了預(yù)測(cè)的汽車(chē)(綠色)、行人(紅色)和騎自行車(chē)者(藍(lán)色)的3D邊界框。
4.4 消融研究
對(duì)于消融研究,我們遵循標(biāo)準(zhǔn)實(shí)踐[10][21][5],將訓(xùn)練樣本分為3712個(gè)樣本的訓(xùn)練拆分和3769個(gè)樣本的驗(yàn)證拆分。我們使用訓(xùn)練拆分來(lái)訓(xùn)練網(wǎng)絡(luò),并評(píng)估其在驗(yàn)證拆分上的準(zhǔn)確性。我們遵循相同的協(xié)議,并通過(guò)AP評(píng)估其準(zhǔn)確性。除非針對(duì)受控實(shí)驗(yàn)進(jìn)行明確修改,否則網(wǎng)絡(luò)配置和訓(xùn)練參數(shù)與上一節(jié)中的相同。由于汽車(chē)在數(shù)據(jù)集中占主導(dǎo)地位,我們將重點(diǎn)放在汽車(chē)的檢測(cè)上。
框合并和評(píng)分。在表3中,我們比較了有和沒(méi)有框合并和評(píng)分的目標(biāo)檢測(cè)準(zhǔn)確率。對(duì)于沒(méi)有框合并的測(cè)試,我們修改算法1中的第11行。我們不取中間邊界框,而是直接取標(biāo)準(zhǔn)NMS中分類(lèi)評(píng)分最高的邊界框。對(duì)于沒(méi)有框評(píng)分的測(cè)試,我們修改了算法1中的第12行和第13行,將最高的分類(lèi)評(píng)分設(shè)置為框評(píng)分。對(duì)于沒(méi)有框合并和評(píng)分的測(cè)試,我們修改了第11、12和13行,這實(shí)際上變成了標(biāo)準(zhǔn)NMS。表3的第2行顯示了使用帶有自動(dòng)配準(zhǔn)機(jī)制的標(biāo)準(zhǔn)NMS的基準(zhǔn)實(shí)現(xiàn)。如表3的第3行和第4行所示,框合并和框評(píng)分操作都優(yōu)于基準(zhǔn)操作。如表中第6行所示,當(dāng)結(jié)合使用時(shí),它們?cè)诿總€(gè)類(lèi)別中都進(jìn)一步優(yōu)于單個(gè)操作的精度。同樣,在不使用自動(dòng)配準(zhǔn)的情況下,框合并和框評(píng)分(第5行)的準(zhǔn)確率也高于標(biāo)準(zhǔn)NMS(第1行)。這些結(jié)果證明了框評(píng)分和框合并的有效性。
表3 對(duì)KITTI數(shù)據(jù)的驗(yàn)證拆分的消融研究。


自動(dòng)配準(zhǔn)機(jī)制。表3還顯示了自動(dòng)配準(zhǔn)機(jī)制帶來(lái)的準(zhǔn)確性改進(jìn)。如第2行所示,通過(guò)單獨(dú)使用自動(dòng)配準(zhǔn),我們?cè)谒?D檢測(cè)類(lèi)別和中等、困難BEV檢測(cè)類(lèi)別上也都超過(guò)了未自動(dòng)配準(zhǔn)的基準(zhǔn)(第1行)。簡(jiǎn)易BEV檢測(cè)類(lèi)別的性能略有下降,但仍較為接近。將自動(dòng)配準(zhǔn)機(jī)制與框合并和評(píng)分相結(jié)合(第6行),我們獲得了比單獨(dú)使用自動(dòng)配準(zhǔn)(第2行)更高的準(zhǔn)確率。然而,所有三個(gè)模塊的組合(第6行)并不比框合并和評(píng)分(第5行)更好。我們猜測(cè)在添加自動(dòng)配準(zhǔn)分支之后可能需要調(diào)整正則化。
我們通過(guò)可視化公式4中的偏移量Δx進(jìn)一步研究了自動(dòng)配準(zhǔn)機(jī)制。我們從不同的GNN迭代中提取Δx,并將它們添加到頂點(diǎn)位置。圖4顯示了輸出檢測(cè)結(jié)果的頂點(diǎn)及其添加了偏移量的位置。我們觀察到,帶有附加偏移量的頂點(diǎn)位置向車(chē)輛的中心移動(dòng)。無(wú)論原始頂點(diǎn)位置如何,我們都可以看到這樣的行為。換言之,當(dāng)GNN越深,相鄰頂點(diǎn)的相對(duì)坐標(biāo)對(duì)中心頂點(diǎn)位置的依賴(lài)程度越小,而更多地依賴(lài)于點(diǎn)云的屬性。偏移Δx取消了中心頂點(diǎn)的平移,從而降低對(duì)頂點(diǎn)平移的敏感度。這些定性結(jié)果表明,方程4有助于降低頂點(diǎn)位置的平移方差。有關(guān)更多示例,請(qǐng)參見(jiàn)補(bǔ)充材料。


圖4 驗(yàn)證拆分中的一個(gè)示例顯示了添加了偏移的頂點(diǎn)位置。藍(lán)點(diǎn)表示頂點(diǎn)的原始位置。橙色、紫色和紅色圓點(diǎn)表示添加了從第一次、第二次和第三次圖神經(jīng)網(wǎng)絡(luò)迭代中提取的偏移量的原始位置。
Point-GNN迭代。我們的Point-GNN迭代地細(xì)化頂點(diǎn)狀態(tài)。在表4中,我們研究了迭代次數(shù)對(duì)檢測(cè)精度的影響。我們用T=1、T=2訓(xùn)練Point-GNNs,并將其與第4.3.1節(jié)中的配置T=3進(jìn)行比較。此外,我們直接使用初始頂點(diǎn)狀態(tài)訓(xùn)練檢測(cè)器,無(wú)需任何Point-GNN迭代。如表4所示,僅有初始頂點(diǎn)狀態(tài)的精確度最低,因?yàn)樗陧旤c(diǎn)周?chē)挥幸粋€(gè)小的感受野。如果沒(méi)有Point-GNN迭代,局部信息就不能沿著圖的邊緣流動(dòng),因此它的感受野就不能擴(kuò)展。即使在單次Point-GNN迭代(T=1)的情況下,精度也有顯著提高。T=2比T=3具有更高的精度,這可能是由于神經(jīng)網(wǎng)絡(luò)深入時(shí)的訓(xùn)練困難。
運(yùn)行時(shí)間分析。檢測(cè)算法的速度對(duì)于自動(dòng)駕駛等實(shí)時(shí)應(yīng)用非常重要。然而,影響運(yùn)行時(shí)間的因素很多,包括算法體系結(jié)構(gòu)、代碼優(yōu)化和硬件資源。此外,優(yōu)化實(shí)現(xiàn)并不是這項(xiàng)工作的重點(diǎn)。但是,當(dāng)前推理時(shí)間的細(xì)分有助于未來(lái)的優(yōu)化。我們的實(shí)例使用Python編寫(xiě),并使用Tensorflow進(jìn)行GPU計(jì)算。我們?cè)谂鋫鋁eon E5-1630 CPU 和 GTX 1070 GPU 的臺(tái)式機(jī)上測(cè)量了推理時(shí)間。驗(yàn)證拆分中一個(gè)樣本的平均處理時(shí)間為643ms。讀取數(shù)據(jù)集并運(yùn)行校準(zhǔn)需要11.0%的時(shí)間(70ms),創(chuàng)建圖形表示將消耗18.9%的時(shí)間(121ms),GNN的推理需要56.4%的時(shí)間(363ms),框合并和評(píng)分花費(fèi)13.1%的時(shí)間(84ms)。有關(guān)實(shí)例細(xì)節(jié),請(qǐng)參見(jiàn)我們的代碼。
對(duì)激光雷達(dá)稀疏性的魯棒性。KITTI數(shù)據(jù)集使用64線激光雷達(dá)采集點(diǎn)云數(shù)據(jù)。如此高密度的激光雷達(dá)通常會(huì)導(dǎo)致較高的成本。因此,研究密度較小的點(diǎn)云環(huán)境下的目標(biāo)檢測(cè)性能是很有意義的。為了模擬掃描線較少的激光雷達(dá)系統(tǒng),我們對(duì)KITTI驗(yàn)證數(shù)據(jù)集中的掃描線進(jìn)行了下采樣。因?yàn)镵ITTI給出的點(diǎn)云沒(méi)有掃描線信息,所以我們使用k-means將點(diǎn)的仰角聚類(lèi)成64個(gè)簇,每個(gè)簇代表一條激光雷達(dá)掃描線。然后,我們通過(guò)跳過(guò)中間的掃描線,將點(diǎn)云向下采樣到32、16、8條掃描線。我們對(duì)下采樣的KITTI驗(yàn)證拆分的測(cè)試結(jié)果如表5所示。對(duì)于中等和困難檢測(cè)級(jí)別的精度隨著下采樣數(shù)據(jù)的下降而迅速下降,而對(duì)于簡(jiǎn)單級(jí)別數(shù)據(jù)的檢測(cè)保持合理的精度,直到它被下采樣到8個(gè)掃描線。這是因?yàn)楹?jiǎn)單級(jí)別的對(duì)象大多靠近激光雷達(dá),因此即使掃描線的數(shù)量減少,也會(huì)有密集的點(diǎn)云。

5 總結(jié)
我們提出了一種稱(chēng)為Point-GNN的圖神經(jīng)網(wǎng)絡(luò),用于從點(diǎn)云的圖形表示中檢測(cè)3D對(duì)象。通過(guò)使用圖形表示法,我們對(duì)點(diǎn)云進(jìn)行了緊湊的編碼,而不需要映射到網(wǎng)格,也不需要重復(fù)采樣和分組。我們的Point-GNN在KITTI基準(zhǔn)的3D和鳥(niǎo)瞰圖目標(biāo)檢測(cè)中都達(dá)到了領(lǐng)先的精度。實(shí)驗(yàn)結(jié)果表明,本文提出的自動(dòng)配準(zhǔn)機(jī)制降低了平移方差,并通過(guò)框合并和評(píng)分操作提高了檢測(cè)精度。在未來(lái),我們計(jì)劃優(yōu)化推理速度,并對(duì)來(lái)自其他傳感器的輸入進(jìn)行融合。
參考文獻(xiàn)



 
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25