Point-GNN:用于點(diǎn)云中三維目標(biāo)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)

2021-09-29 09:44:07· 來(lái)源：同濟(jì)智能汽車(chē)研究所作者：安全與性能研究室

編者按：近年來(lái)，由于圖結(jié)構(gòu)的強(qiáng)大表現(xiàn)力，用機(jī)器學(xué)習(xí)方法分析圖的研究越來(lái)越受到重視。圖神經(jīng)網(wǎng)絡(luò)（GNN）是一類(lèi)基于深度學(xué)習(xí)的處理圖域信息的方法。由于其較好的性能和可解釋性，GNN最近已成為一種廣泛應(yīng)用的圖分析方法。在3D點(diǎn)云語(yǔ)義分割方法中，GNN已經(jīng)做了很多可用的方案，但是在目標(biāo)檢測(cè)上依舊是采用比較傳統(tǒng)的CNN和稀疏卷積的組合，本篇文章則研究了圖卷積在3D檢測(cè)的中的用法。其提出的Point-GNN的檢測(cè)精度表現(xiàn)在KITTI上有著領(lǐng)先的排名。

本文譯自：

《Point-GNN: Graph Neural Network for 3D ObjectDetection in a Point Cloud》

文章來(lái)源：2020 IEEE/CVF Conference onComputer Vision and Pattern Recognition

作者：Weijing Shi, Raj Rajkumar

原文鏈接：https://ieeexplore.ieee.org/document/9156733

摘要：本文提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的激光雷達(dá)點(diǎn)云目標(biāo)檢測(cè)方法。為此，我們?cè)诠潭ò霃降慕張D中對(duì)點(diǎn)云進(jìn)行了有效的編碼。我們?cè)O(shè)計(jì)了一個(gè)名為Point-GNN的圖神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)圖中每個(gè)頂點(diǎn)所屬的對(duì)象的類(lèi)別和形狀。在Point-GNN中，我們提出了一種自動(dòng)配準(zhǔn)機(jī)制來(lái)降低平移方差，并設(shè)計(jì)了一種框合并和評(píng)分操作，以精確地組合來(lái)自多個(gè)頂點(diǎn)的檢測(cè)。我們?cè)贙ITTI基準(zhǔn)上的實(shí)驗(yàn)表明，該方法僅使用點(diǎn)云就能達(dá)到領(lǐng)先的精度，甚至可以超過(guò)基于融合的算法。我們的結(jié)果證明了圖神經(jīng)網(wǎng)絡(luò)作為一種新的三維目標(biāo)檢測(cè)方法的潛力。

關(guān)鍵詞：圖神經(jīng)網(wǎng)絡(luò)，自動(dòng)配準(zhǔn)，框合并和評(píng)分，目標(biāo)檢測(cè)

1 引言

理解3D環(huán)境對(duì)機(jī)器人感知至關(guān)重要。構(gòu)成空間點(diǎn)集的點(diǎn)云是激光雷達(dá)等3D傳感器的一種廣泛使用的格式。在自動(dòng)駕駛等應(yīng)用中，準(zhǔn)確地從點(diǎn)云中檢測(cè)對(duì)象是至關(guān)重要的。

從圖像中檢測(cè)目標(biāo)的卷積神經(jīng)網(wǎng)絡(luò)依賴(lài)于卷積運(yùn)算。雖然卷積運(yùn)算是高效的，但它需要規(guī)則的網(wǎng)格作為輸入。與圖像不同，點(diǎn)云通常是稀疏的，并且在規(guī)則網(wǎng)格上不是均勻分布的。將點(diǎn)云放置在規(guī)則網(wǎng)格上會(huì)在網(wǎng)格單元中生成不均勻數(shù)量的點(diǎn)。在這樣的網(wǎng)格上應(yīng)用相同的卷積運(yùn)算會(huì)導(dǎo)致?lián)頂D單元中的潛在信息丟失或空單元中的計(jì)算浪費(fèi)。

最近在使用神經(jīng)網(wǎng)絡(luò)方面的突破[3][22]允許一組無(wú)序的點(diǎn)作為輸入。一些研究利用這種類(lèi)型的神經(jīng)網(wǎng)絡(luò)來(lái)提取點(diǎn)云特征，而不需要將點(diǎn)云映射到網(wǎng)格。但是，它們通常需要迭代地對(duì)點(diǎn)進(jìn)行采樣和分組，以創(chuàng)建一個(gè)點(diǎn)集表示。在大型點(diǎn)云上重復(fù)分組和采樣的計(jì)算成本可能會(huì)很高。最近的3D檢測(cè)方法[10][21][16]通常采用混合方法，在不同階段使用網(wǎng)格和集合表示。雖然它們顯示了一些有希望的結(jié)果，但這種混合策略可能會(huì)受到這兩種表示的缺點(diǎn)的影響。

在本文中，我們提出使用圖形作為點(diǎn)云的緊湊表示，并設(shè)計(jì)一個(gè)名為Point-GNN的圖神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)目標(biāo)。我們使用點(diǎn)作為圖的頂點(diǎn)，在圖中對(duì)點(diǎn)云進(jìn)行自然編碼。圖的邊連接位于固定半徑內(nèi)的鄰域點(diǎn)，這允許特征信息在鄰域之間流動(dòng)。這種圖形表示直接適應(yīng)點(diǎn)云的結(jié)構(gòu)，而無(wú)需使其規(guī)則化。圖神經(jīng)網(wǎng)絡(luò)重用每一層的圖邊，避免了對(duì)點(diǎn)的重復(fù)分組和采樣。

研究[15][9][2][17]研究了使用圖神經(jīng)網(wǎng)絡(luò)對(duì)點(diǎn)云進(jìn)行分類(lèi)和語(yǔ)義分割。然而，很少有研究考慮使用圖形神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)點(diǎn)云中的3D對(duì)象。我們的工作證明了在點(diǎn)云中使用GNN進(jìn)行高精度目標(biāo)檢測(cè)的可行性。

我們提出的圖神經(jīng)網(wǎng)絡(luò)Point-GNN以點(diǎn)圖為輸入。它輸出每個(gè)頂點(diǎn)所屬對(duì)象的類(lèi)別和邊界框。Point-GNN是一種在單次拍攝中檢測(cè)多個(gè)目標(biāo)的一階段檢測(cè)方法。為了減少圖神經(jīng)網(wǎng)絡(luò)中的平移方差，我們引入了一種自動(dòng)配準(zhǔn)機(jī)制，允許點(diǎn)根據(jù)它們的特征對(duì)齊它們的坐標(biāo)。在此基礎(chǔ)上，設(shè)計(jì)了一種框合并和評(píng)分操作，對(duì)多個(gè)頂點(diǎn)的檢測(cè)結(jié)果進(jìn)行了準(zhǔn)確的組合。

我們?cè)贙ITTI基準(zhǔn)上對(duì)提出的方法進(jìn)行評(píng)估。在KITTI基準(zhǔn)測(cè)試中，Point-GNN僅使用點(diǎn)云就達(dá)到了最先進(jìn)的精度，甚至超過(guò)了傳感器融合方法。我們的Point-GNN展示了一種新型的基于圖神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測(cè)方法的潛力，它可以作為未來(lái)研究的一個(gè)很好的基礎(chǔ)。我們對(duì)Point-GNN中組件的有效性進(jìn)行了廣泛的消融研究。

綜上所述，本文的貢獻(xiàn)在于：

提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的點(diǎn)云目標(biāo)檢測(cè)新方法；

設(shè)計(jì)了Point-GNN，一個(gè)具有自動(dòng)配準(zhǔn)機(jī)制的圖神經(jīng)網(wǎng)絡(luò)，可以在一次拍攝中檢測(cè)多個(gè)目標(biāo)；

在KITTI基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的3D目標(biāo)檢測(cè)準(zhǔn)確率，并深入分析了每個(gè)組件的有效性。

2 相關(guān)工作

在此背景下，先前的工作可以分為三類(lèi)，如圖1所示。

圖1 三種點(diǎn)云表示及其常用處理方法。

網(wǎng)格中的點(diǎn)云。許多最近的研究將點(diǎn)云轉(zhuǎn)換成規(guī)則的網(wǎng)格，以利用卷積神經(jīng)網(wǎng)絡(luò)。[20]將點(diǎn)云投影到2D鳥(niǎo)瞰(BEV)圖像上，并使用2D CNN進(jìn)行目標(biāo)檢測(cè)。[4]在應(yīng)用2D CNN之前，將點(diǎn)云投影到BEV圖像和前視(FV)圖像上。由于圖像分辨率有限，這種投影會(huì)產(chǎn)生量化誤差。一些方法將點(diǎn)云保持在三維坐標(biāo)中。[23]提出3D體素中的點(diǎn)，并應(yīng)用3D卷積進(jìn)行對(duì)象檢測(cè)。當(dāng)體素的分辨率增加時(shí)，3D CNN的計(jì)算成本呈立方增長(zhǎng)，但由于點(diǎn)的稀疏性，很多體素是空的。像稀疏卷積[19]這樣的優(yōu)化則降低了計(jì)算成本。將點(diǎn)云轉(zhuǎn)換為2D/3D網(wǎng)格的方法存在點(diǎn)的不規(guī)則分布和網(wǎng)格的規(guī)則結(jié)構(gòu)不匹配的問(wèn)題。

集合中的點(diǎn)云。在集合上的深度學(xué)習(xí)技術(shù)，如PointNet[3]和DeepSet[22]表明，神經(jīng)網(wǎng)絡(luò)可以直接從無(wú)序的點(diǎn)集合中提取特征。在這種方法中，每個(gè)點(diǎn)由多層感知器（MLP）處理以獲得點(diǎn)特征向量。這些特征通過(guò)平均或最大池化函數(shù)聚合，形成整個(gè)集合的全局特征向量。[14]在此基礎(chǔ)上，提出了點(diǎn)特征的層次聚合，并通過(guò)在關(guān)鍵點(diǎn)周?chē)蓸觼?lái)生成點(diǎn)的局部子集。然后，這些子集的特征被再次分組到集合中，用于進(jìn)一步的特征提取。許多3D對(duì)象檢測(cè)方法利用這種神經(jīng)網(wǎng)絡(luò)來(lái)處理點(diǎn)云，而無(wú)需將其映射到網(wǎng)格。然而，大規(guī)模的點(diǎn)采樣和分組會(huì)導(dǎo)致額外的計(jì)算開(kāi)銷(xiāo)。大多數(shù)目標(biāo)檢測(cè)研究只使用集合上的神經(jīng)網(wǎng)絡(luò)作為解決方案的一部分。[13]從相機(jī)圖像中生成object proposals，并使用[14]將屬于目標(biāo)的點(diǎn)從背景中分離出來(lái)，預(yù)測(cè)一個(gè)邊界框。[16]使用[14]作為主干網(wǎng)絡(luò)，直接從點(diǎn)云生成邊界框方案。然后，使用第二階段的點(diǎn)網(wǎng)絡(luò)來(lái)細(xì)化邊界框?；旌戏椒ㄈ鏪23][19][10][21]使用[3]從局部點(diǎn)集提取特征，并將特征放置在規(guī)則網(wǎng)格上進(jìn)行卷積運(yùn)算。雖然它們?cè)谝欢ǔ潭壬蠝p少了點(diǎn)云的局部不規(guī)則性，但仍然存在規(guī)則網(wǎng)格和整體點(diǎn)云結(jié)構(gòu)之間的不匹配問(wèn)題。

圖中的點(diǎn)云。圖神經(jīng)網(wǎng)絡(luò)[18]的研究旨在將卷積神經(jīng)網(wǎng)絡(luò)推廣為一種圖表示。GNN通過(guò)沿著邊緣聚合特征來(lái)迭代更新其頂點(diǎn)特征。雖然聚合方案有時(shí)與集合上的深度學(xué)習(xí)類(lèi)似，但GNN允許沿邊緣確定更復(fù)雜的特征。它通常不需要重復(fù)對(duì)頂點(diǎn)進(jìn)行采樣和分組。在計(jì)算機(jī)視覺(jué)領(lǐng)域，有幾種方法將點(diǎn)云表示為圖形。[15]使用遞歸GNN對(duì)RGBD數(shù)據(jù)進(jìn)行語(yǔ)義分割。[9]將點(diǎn)云分割為簡(jiǎn)單的幾何形狀，并將它們鏈接到圖形中以進(jìn)行語(yǔ)義分割。[2][17]研究使用GNN對(duì)點(diǎn)云進(jìn)行分類(lèi)。到目前為止，很少有研究著眼于設(shè)計(jì)一種用于目標(biāo)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)，來(lái)對(duì)目標(biāo)形狀進(jìn)行明確的預(yù)測(cè)。

與以往的工作不同，我們?cè)O(shè)計(jì)了一個(gè)用于目標(biāo)檢測(cè)的GNN。我們不是將點(diǎn)云轉(zhuǎn)換為規(guī)則網(wǎng)格(如圖像或體素)，而是使用圖形表示來(lái)保留點(diǎn)云的不規(guī)則性。與重復(fù)對(duì)點(diǎn)進(jìn)行采樣和分組為集合的技術(shù)不同，我們只需構(gòu)建一次圖形。提出的Point-GNN算法通過(guò)迭代更新同一圖上的頂點(diǎn)特征來(lái)提取點(diǎn)云特征。我們的工作是一種單級(jí)檢測(cè)方法，不需要開(kāi)發(fā)像[4][16][21][11][13]中那樣的二級(jí)精化神經(jīng)網(wǎng)絡(luò)。

3 點(diǎn)云中3D目標(biāo)檢測(cè)的Point-GNN算法

在本節(jié)中，我們將介紹所提出的從點(diǎn)云中檢測(cè)3D對(duì)象的方法。如圖2所示，方法的總體架構(gòu)包含三個(gè)部分：（a）圖形構(gòu)造，（b）T次迭代的GNN，（c）邊界框合并和評(píng)分。

圖2 所提出方法的體系結(jié)構(gòu)。它有三個(gè)主要組成部分：(a)從點(diǎn)云構(gòu)建圖形，(b)用于目標(biāo)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)，(c)邊界框合并和評(píng)分。

3.1 圖形構(gòu)造

在形式上，我們將N個(gè)點(diǎn)的點(diǎn)云定義為一個(gè)集合P = { p1,…, pN }，其中pi = (xi,si)為一個(gè)帶有三維坐標(biāo)xi∈?3和狀態(tài)值si∈?k（長(zhǎng)度為k的矢量代表點(diǎn)屬性）的點(diǎn)。狀態(tài)值si可以是反射的激光強(qiáng)度，也可以是編碼周?chē)矬w的特征。在給定一個(gè)點(diǎn)云P的情況下，我們以P為頂點(diǎn)，將一個(gè)點(diǎn)與其在固定半徑r內(nèi)的相鄰點(diǎn)連接起來(lái)，從而構(gòu)造一個(gè)圖G = (P, E)，例如：

這種圖的構(gòu)造就是眾所周知的固定半徑近鄰搜索問(wèn)題。通過(guò)使用單元列表查找在給定截止距離內(nèi)的點(diǎn)對(duì)，我們可以在運(yùn)行時(shí)間復(fù)雜度為O(cN)的情況下有效地解決這個(gè)問(wèn)題，其中c為半徑內(nèi)的最大鄰居數(shù)[1]。實(shí)際上，一個(gè)點(diǎn)云通常由數(shù)萬(wàn)個(gè)點(diǎn)組成。構(gòu)造一個(gè)以所有點(diǎn)為頂點(diǎn)的圖會(huì)帶來(lái)很大的計(jì)算負(fù)擔(dān)。因此，我們使用體素下采樣點(diǎn)云

來(lái)構(gòu)建圖形。必須注意的是，這里的體素僅用于降低點(diǎn)云的密度，并不用作點(diǎn)云的表示。我們?nèi)匀皇褂脠D來(lái)呈現(xiàn)下采樣的點(diǎn)云。為了保留原始點(diǎn)云中的信息，我們?cè)陧旤c(diǎn)的初始狀態(tài)值si中對(duì)密集的點(diǎn)云進(jìn)行編碼。更具體地說(shuō)，我們搜索每個(gè)頂點(diǎn)r0半徑內(nèi)的原始點(diǎn)，并使用集合上的神經(jīng)網(wǎng)絡(luò)來(lái)提取它們的特征。我們遵循[10][23]，使用MLP嵌入激光雷達(dá)反射強(qiáng)度和相對(duì)坐標(biāo)，然后用Max函數(shù)對(duì)它們進(jìn)行聚合。我們使用生成的特征作為頂點(diǎn)的初始狀態(tài)值。在圖形構(gòu)建之后，我們使用GNN處理圖形，如圖2b所示。

3.2 具有自動(dòng)配準(zhǔn)功能的圖神經(jīng)網(wǎng)絡(luò)

典型的圖神經(jīng)網(wǎng)絡(luò)通過(guò)沿邊聚合特征來(lái)細(xì)化頂點(diǎn)特征。在第(t+1)次迭代中，它以下列形式更新每個(gè)頂點(diǎn)要素：

其中，e和v是來(lái)自第t次迭代的邊和頂點(diǎn)特征。函數(shù)f(.)計(jì)算兩個(gè)頂點(diǎn)之間的邊特征。ρ(.)是集合每個(gè)頂點(diǎn)的邊特征的集合函數(shù)。g(.)利用聚集的邊緣特征更新頂點(diǎn)特征。然后，圖神經(jīng)網(wǎng)絡(luò)輸出頂點(diǎn)特征或在下一次迭代中重復(fù)該過(guò)程。

在目標(biāo)檢測(cè)的情況下，我們?cè)O(shè)計(jì)GNN來(lái)優(yōu)化頂點(diǎn)的狀態(tài)，以包括關(guān)于該頂點(diǎn)所屬的對(duì)象的信息。為了實(shí)現(xiàn)這一目標(biāo)，我們重寫(xiě)公式(2)，以使用其鄰居的狀態(tài)來(lái)優(yōu)化頂點(diǎn)的狀態(tài)：

注意，我們使用鄰居的相對(duì)坐標(biāo)作為f(.)的輸入，用于邊緣特征提取。相對(duì)坐標(biāo)對(duì)點(diǎn)云的全局位移產(chǎn)生平移不變性。然而，它仍然對(duì)附近區(qū)域的平移敏感。當(dāng)向頂點(diǎn)添加小平移時(shí)，其相鄰頂點(diǎn)的局部結(jié)構(gòu)保持相似。但是鄰居的相對(duì)坐標(biāo)都會(huì)改變，這會(huì)增加ft(.)的輸入方差。為了減小平移方差，我們提出根據(jù)鄰居的結(jié)構(gòu)特征而不是中心頂點(diǎn)坐標(biāo)來(lái)對(duì)齊鄰居坐標(biāo)。因?yàn)橹行捻旤c(diǎn)已經(jīng)包含了上一次迭代的一些結(jié)構(gòu)特征，所以我們可以使用它來(lái)預(yù)測(cè)對(duì)齊偏移，并提出一種自動(dòng)配準(zhǔn)機(jī)制：

Δxi是頂點(diǎn)配準(zhǔn)其坐標(biāo)的坐標(biāo)偏移。h(.)使用上一次迭代的中心頂點(diǎn)狀態(tài)值計(jì)算偏移。通過(guò)將h(.)設(shè)置為輸出零，GNN可以在必要時(shí)禁用偏移量。在這種情況下，GNN回到公式(3)。第四節(jié)分析了該自動(dòng)配準(zhǔn)機(jī)制的有效性。

如圖2b所示，我們使用多層感知器(MLP)對(duì)f(.)，g(.)和h(.)進(jìn)行建模，并在g(.)中添加殘余連接。因其魯棒性我們選擇ρ(.)作為Max[3]。然后給出所提出的圖網(wǎng)絡(luò)中的單次迭代：

其中[,]表示級(jí)聯(lián)操作。

每個(gè)迭代t使用一組不同的MLP，在迭代之間不共享。圖神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)T次迭代后，我們利用頂點(diǎn)狀態(tài)值來(lái)預(yù)測(cè)頂點(diǎn)所在的對(duì)象的類(lèi)別和邊界框。分類(lèi)分支MLPcls計(jì)算多類(lèi)概率。最后，一個(gè)定位分支MLPloc為每個(gè)類(lèi)計(jì)算一個(gè)邊界框。

3.3 損失

對(duì)于目標(biāo)類(lèi)別，分類(lèi)分支為每個(gè)頂點(diǎn)計(jì)算一個(gè)多類(lèi)概率分布{pc1, …, pcM}。M是對(duì)象類(lèi)的總數(shù)，包括背景類(lèi)。如果一個(gè)頂點(diǎn)在一個(gè)對(duì)象的邊界框內(nèi)，我們將對(duì)象類(lèi)賦值給這個(gè)頂點(diǎn)。如果一個(gè)頂點(diǎn)在任何邊界框之外，我們就為它分配為背景類(lèi)。我們用平均交叉熵?fù)p失作為分類(lèi)損失。

其中lm, hm, wm,θ0,θm是恒定比例因子。

定位分支預(yù)測(cè)每個(gè)類(lèi)的編碼邊界框δb = (δx，δy，δz，δl，δh，δw，δθ)。如果頂點(diǎn)在邊界框內(nèi)，我們將計(jì)算真值和我們的預(yù)測(cè)之間的Huber損失[7]。如果頂點(diǎn)在任何邊界框之外，或者它屬于我們不需要定位的類(lèi)，則將其定位損失設(shè)置為零。然后，我們平均所有頂點(diǎn)的定位損失：

為了防止過(guò)擬合，我們給每個(gè)MLP添加了L1正則化?？倱p失為：

其中α,β和γ是平衡每個(gè)損失的恒定權(quán)重。

3.4 框合并和評(píng)分

由于多個(gè)頂點(diǎn)可以位于同一對(duì)象上，因此神經(jīng)網(wǎng)絡(luò)可以輸出同一對(duì)象的多個(gè)邊界框。有必要將這些邊界框合并為一個(gè)，并指定置信度分?jǐn)?shù)。非最大抑制(NMS)已被廣泛應(yīng)用于此目的。通常的做法是選擇分類(lèi)分?jǐn)?shù)最高的框，而不顯示其他重疊框。然而，分類(lèi)分?jǐn)?shù)并不總能反映定位質(zhì)量。值得注意的是，部分遮擋的對(duì)象可能具有指示對(duì)象類(lèi)型的強(qiáng)線索，但缺乏足夠的形狀信息。而標(biāo)準(zhǔn)NMS可以?xún)H基于分類(lèi)分?jǐn)?shù)來(lái)挑選不準(zhǔn)確的邊界框。

為了提高定位精度，我們提出了考慮整個(gè)重疊框簇來(lái)計(jì)算邊界框的方法。更具體地說(shuō)，我們考慮了重疊邊界框的中值位置和大小。我們還將置信度分?jǐn)?shù)計(jì)算為由交并比(IoU)系數(shù)和遮擋系數(shù)加權(quán)的分類(lèi)分?jǐn)?shù)之和。遮擋系數(shù)表示占用體積比。給定一個(gè)框bi，使li, wi, hi分別為長(zhǎng)寬高，vi, vi, vi分別表示其方向的單位向量。xj為點(diǎn)pj的坐標(biāo)。遮擋系數(shù)為：

我們按照算法1所示修改了標(biāo)準(zhǔn)NMS。它返回合并的邊界框M和它們的置信度分?jǐn)?shù)Z。我們將在第四節(jié)研究它的有效性。

算法1 具有框合并和評(píng)分功能的NMS

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

我們使用廣泛使用的KITTI目標(biāo)檢測(cè)基準(zhǔn)[6]來(lái)評(píng)估我們的設(shè)計(jì)。KITTI數(shù)據(jù)集包含7481個(gè)訓(xùn)練樣本和7518個(gè)測(cè)試樣本。每個(gè)樣例都提供點(diǎn)云和相機(jī)圖像。在我們的方法中，我們僅使用點(diǎn)云。由于數(shù)據(jù)集僅注釋圖像中可見(jiàn)的對(duì)象，因此我們僅在圖像的視場(chǎng)內(nèi)處理點(diǎn)云。KITTI基準(zhǔn)測(cè)試評(píng)估了三種對(duì)象的平均精度(AP)：汽車(chē)、行人和騎自行車(chē)的人。由于規(guī)模不同，我們遵循慣例[10][23][19][21]，為汽車(chē)訓(xùn)練一個(gè)網(wǎng)絡(luò)，為行人和騎自行車(chē)的人訓(xùn)練另一個(gè)網(wǎng)絡(luò)。為了進(jìn)行訓(xùn)練，我們刪除了不包含感興趣對(duì)象的樣本。

4.2 實(shí)施詳情

我們?cè)谖覀兊膱D神經(jīng)網(wǎng)絡(luò)中使用了三次迭代(T=3)。在訓(xùn)練過(guò)程中，我們將每個(gè)頂點(diǎn)的最大輸入邊數(shù)限制為256。在推理過(guò)程中，我們使用所有的輸入邊。所有GNN層使用單元(64, 3)的雙層MLPh執(zhí)行自動(dòng)配準(zhǔn)。MLPcls大小為(64,#(classes))。對(duì)于每一個(gè)類(lèi)，MLPloc大小為(64,64,7)。

汽車(chē)：我們將(lm，hm，wm)設(shè)置為汽車(chē)邊界框大小的中位數(shù)(3.88m，1.5m，1.63m)。我們把θ∈[−π/4，π/4]的側(cè)視汽車(chē)和θ∈[π/4，3π/4]的前視汽車(chē)視為兩個(gè)不同的類(lèi)別。因此，我們分別設(shè)置θ0=0和θ0=π/2。范圍θm設(shè)為π/2。連同Background類(lèi)和DoNotCare類(lèi)一起，預(yù)測(cè)了4個(gè)類(lèi)。我們構(gòu)造了r=4m和r0=1m的圖。我們將

設(shè)置為下采樣點(diǎn)云，體素大小在訓(xùn)練時(shí)為0.8m，在推理中為0.4m。MLPf和MLPg大小均為(300, 300)。對(duì)于初始頂點(diǎn)狀態(tài)，我們使用(32, 64, 128, 300)的MLP嵌入原始點(diǎn)，在Max聚合之后使用(300, 300)的MLP。我們?cè)贜MS中設(shè)置Th = 0.01。

行人和騎自行車(chē)的人：同樣，我們將(lm，hm，wm)設(shè)置為中間邊界框大小。我們?yōu)樾腥嗽O(shè)置了(0.88m，1.77m，0.65m)，為騎自行車(chē)的人設(shè)置了(1.76m，1.75m，0.6m)。與對(duì)汽車(chē)類(lèi)所做的類(lèi)似，我們將前視圖和側(cè)視圖對(duì)象視為兩個(gè)不同的類(lèi)。連同Background類(lèi)和DoNotCare類(lèi)一起，預(yù)測(cè)了6個(gè)類(lèi)。我們使用r = 1.6m構(gòu)建圖形，并在訓(xùn)練中對(duì)點(diǎn)云進(jìn)行0.4m的體素大小下采樣，在推理中對(duì)點(diǎn)云進(jìn)行0.2m的下采樣。MLPf和MLPg大小均為(256, 256)。對(duì)于頂點(diǎn)狀態(tài)初始化，我們?cè)O(shè)置r0= 0.4m。我們使用(32, 64, 128, 256,512)的MLP進(jìn)行嵌入，使用(256, 256)的MLP處理聚合特征。我們?cè)贜MS中設(shè)置Th = 0.2。

我們對(duì)提出的GNN進(jìn)行端到端的訓(xùn)練，批大小為4。損失權(quán)重α=0.1,β=10,γ=5e-7。我們使用隨機(jī)梯度下降(SGD)和階梯情況下的學(xué)習(xí)率衰減。對(duì)于汽車(chē)，我們使用的初始學(xué)習(xí)率為0.125，衰減率為每400K步0.1。我們對(duì)這個(gè)網(wǎng)絡(luò)進(jìn)行了1400K步的訓(xùn)練。對(duì)于行人和騎自行車(chē)的人，我們使用的學(xué)習(xí)率為0.32，衰減率為每400K步0.25。我們訓(xùn)練了1000K步。

4.3 數(shù)據(jù)增強(qiáng)

為了防止過(guò)度擬合，我們對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。與許多使用復(fù)雜技術(shù)創(chuàng)建新的真值框的方法[19][10][16][21]不同，我們選擇了全局旋轉(zhuǎn)、全局翻轉(zhuǎn)、框平移和頂點(diǎn)抖動(dòng)的簡(jiǎn)單方案。在訓(xùn)練過(guò)程中，我們?cè)?Delta;θ∼N(0,π/8)范圍內(nèi)隨機(jī)旋轉(zhuǎn)點(diǎn)云，然后以0.5的概率翻轉(zhuǎn)x軸。之后，每個(gè)框和框110%大小內(nèi)的點(diǎn)隨機(jī)移位(Δx∼N(0,3)，Δy=0，Δz∼N(0,3))。我們使用一個(gè)擴(kuò)大10%的框來(lái)選擇點(diǎn)，以防止切割對(duì)象。在平移過(guò)程中，我們檢查并避免了框之間、背景點(diǎn)與框之間的碰撞。在圖的構(gòu)建過(guò)程中，我們使用隨機(jī)的體素下采樣來(lái)誘導(dǎo)頂點(diǎn)抖動(dòng)。

4.3.1 結(jié)果

我們已經(jīng)將我們的結(jié)果提交給了KITTI 3D目標(biāo)檢測(cè)基準(zhǔn)和鳥(niǎo)瞰圖(BEV)目標(biāo)檢測(cè)基準(zhǔn)。在表1和表2中，我們將我們的結(jié)果與現(xiàn)有文獻(xiàn)進(jìn)行了比較。KITTI數(shù)據(jù)集評(píng)估三個(gè)難度級(jí)別的平均精度(AP)：簡(jiǎn)單、中等和困難。我們的方法在簡(jiǎn)單和中等級(jí)別的汽車(chē)檢測(cè)和中等、困難級(jí)別的騎車(chē)人檢測(cè)上都取得了領(lǐng)先的結(jié)果。值得注意的是，在簡(jiǎn)單的BEV汽車(chē)檢測(cè)方面，我們超過(guò)了之前最先進(jìn)的方法3.45。此外，除了行人檢測(cè)之外，我們?cè)谒蓄?lèi)別上都優(yōu)于基于融合的算法。在圖3中，我們提供了所有類(lèi)別的定性檢測(cè)結(jié)果。相機(jī)圖像和點(diǎn)云上的結(jié)果都可以可視化。必須注意的是，我們的方法只使用點(diǎn)云數(shù)據(jù)。因?yàn)闇y(cè)試數(shù)據(jù)集不提供真值標(biāo)簽，相機(jī)圖像純粹用于視覺(jué)檢查。如圖3所示，盡管沒(méi)有達(dá)到最高分，我們的方法仍然能夠很好地檢測(cè)行人。行人檢測(cè)不如汽車(chē)和騎自行車(chē)的人檢測(cè)好的一個(gè)可能原因是頂點(diǎn)不夠密集，無(wú)法實(shí)現(xiàn)更準(zhǔn)確的邊界框。

表1 在KITTI測(cè)試數(shù)據(jù)集上進(jìn)行3D目標(biāo)檢測(cè)的平均精度(AP)比較。

表2 在KITTI測(cè)試數(shù)據(jù)集上進(jìn)行鳥(niǎo)瞰圖(BEV)目標(biāo)檢測(cè)的平均精度(AP)比較。

圖3 使用Point-GNN對(duì)KITTI測(cè)試數(shù)據(jù)集的定性結(jié)果。我們?cè)趫D像和點(diǎn)云上都顯示了預(yù)測(cè)的汽車(chē)(綠色)、行人(紅色)和騎自行車(chē)者(藍(lán)色)的3D邊界框。

4.4 消融研究

對(duì)于消融研究，我們遵循標(biāo)準(zhǔn)實(shí)踐[10][21][5]，將訓(xùn)練樣本分為3712個(gè)樣本的訓(xùn)練拆分和3769個(gè)樣本的驗(yàn)證拆分。我們使用訓(xùn)練拆分來(lái)訓(xùn)練網(wǎng)絡(luò)，并評(píng)估其在驗(yàn)證拆分上的準(zhǔn)確性。我們遵循相同的協(xié)議，并通過(guò)AP評(píng)估其準(zhǔn)確性。除非針對(duì)受控實(shí)驗(yàn)進(jìn)行明確修改，否則網(wǎng)絡(luò)配置和訓(xùn)練參數(shù)與上一節(jié)中的相同。由于汽車(chē)在數(shù)據(jù)集中占主導(dǎo)地位，我們將重點(diǎn)放在汽車(chē)的檢測(cè)上。

框合并和評(píng)分。在表3中，我們比較了有和沒(méi)有框合并和評(píng)分的目標(biāo)檢測(cè)準(zhǔn)確率。對(duì)于沒(méi)有框合并的測(cè)試，我們修改算法1中的第11行。我們不取中間邊界框，而是直接取標(biāo)準(zhǔn)NMS中分類(lèi)評(píng)分最高的邊界框。對(duì)于沒(méi)有框評(píng)分的測(cè)試，我們修改了算法1中的第12行和第13行，將最高的分類(lèi)評(píng)分設(shè)置為框評(píng)分。對(duì)于沒(méi)有框合并和評(píng)分的測(cè)試，我們修改了第11、12和13行，這實(shí)際上變成了標(biāo)準(zhǔn)NMS。表3的第2行顯示了使用帶有自動(dòng)配準(zhǔn)機(jī)制的標(biāo)準(zhǔn)NMS的基準(zhǔn)實(shí)現(xiàn)。如表3的第3行和第4行所示，框合并和框評(píng)分操作都優(yōu)于基準(zhǔn)操作。如表中第6行所示，當(dāng)結(jié)合使用時(shí)，它們?cè)诿總€(gè)類(lèi)別中都進(jìn)一步優(yōu)于單個(gè)操作的精度。同樣，在不使用自動(dòng)配準(zhǔn)的情況下，框合并和框評(píng)分(第5行)的準(zhǔn)確率也高于標(biāo)準(zhǔn)NMS(第1行)。這些結(jié)果證明了框評(píng)分和框合并的有效性。

表3 對(duì)KITTI數(shù)據(jù)的驗(yàn)證拆分的消融研究。

自動(dòng)配準(zhǔn)機(jī)制。表3還顯示了自動(dòng)配準(zhǔn)機(jī)制帶來(lái)的準(zhǔn)確性改進(jìn)。如第2行所示，通過(guò)單獨(dú)使用自動(dòng)配準(zhǔn)，我們?cè)谒?D檢測(cè)類(lèi)別和中等、困難BEV檢測(cè)類(lèi)別上也都超過(guò)了未自動(dòng)配準(zhǔn)的基準(zhǔn)(第1行)。簡(jiǎn)易BEV檢測(cè)類(lèi)別的性能略有下降，但仍較為接近。將自動(dòng)配準(zhǔn)機(jī)制與框合并和評(píng)分相結(jié)合(第6行)，我們獲得了比單獨(dú)使用自動(dòng)配準(zhǔn)(第2行)更高的準(zhǔn)確率。然而，所有三個(gè)模塊的組合(第6行)并不比框合并和評(píng)分(第5行)更好。我們猜測(cè)在添加自動(dòng)配準(zhǔn)分支之后可能需要調(diào)整正則化。

我們通過(guò)可視化公式4中的偏移量Δx進(jìn)一步研究了自動(dòng)配準(zhǔn)機(jī)制。我們從不同的GNN迭代中提取Δx，并將它們添加到頂點(diǎn)位置。圖4顯示了輸出檢測(cè)結(jié)果的頂點(diǎn)及其添加了偏移量的位置。我們觀察到，帶有附加偏移量的頂點(diǎn)位置向車(chē)輛的中心移動(dòng)。無(wú)論原始頂點(diǎn)位置如何，我們都可以看到這樣的行為。換言之，當(dāng)GNN越深，相鄰頂點(diǎn)的相對(duì)坐標(biāo)對(duì)中心頂點(diǎn)位置的依賴(lài)程度越小，而更多地依賴(lài)于點(diǎn)云的屬性。偏移Δx取消了中心頂點(diǎn)的平移，從而降低對(duì)頂點(diǎn)平移的敏感度。這些定性結(jié)果表明，方程4有助于降低頂點(diǎn)位置的平移方差。有關(guān)更多示例，請(qǐng)參見(jiàn)補(bǔ)充材料。

圖4 驗(yàn)證拆分中的一個(gè)示例顯示了添加了偏移的頂點(diǎn)位置。藍(lán)點(diǎn)表示頂點(diǎn)的原始位置。橙色、紫色和紅色圓點(diǎn)表示添加了從第一次、第二次和第三次圖神經(jīng)網(wǎng)絡(luò)迭代中提取的偏移量的原始位置。

Point-GNN迭代。我們的Point-GNN迭代地細(xì)化頂點(diǎn)狀態(tài)。在表4中，我們研究了迭代次數(shù)對(duì)檢測(cè)精度的影響。我們用T=1、T=2訓(xùn)練Point-GNNs，并將其與第4.3.1節(jié)中的配置T=3進(jìn)行比較。此外，我們直接使用初始頂點(diǎn)狀態(tài)訓(xùn)練檢測(cè)器，無(wú)需任何Point-GNN迭代。如表4所示，僅有初始頂點(diǎn)狀態(tài)的精確度最低，因?yàn)樗陧旤c(diǎn)周?chē)挥幸粋€(gè)小的感受野。如果沒(méi)有Point-GNN迭代，局部信息就不能沿著圖的邊緣流動(dòng)，因此它的感受野就不能擴(kuò)展。即使在單次Point-GNN迭代(T=1)的情況下，精度也有顯著提高。T=2比T=3具有更高的精度，這可能是由于神經(jīng)網(wǎng)絡(luò)深入時(shí)的訓(xùn)練困難。

運(yùn)行時(shí)間分析。檢測(cè)算法的速度對(duì)于自動(dòng)駕駛等實(shí)時(shí)應(yīng)用非常重要。然而，影響運(yùn)行時(shí)間的因素很多，包括算法體系結(jié)構(gòu)、代碼優(yōu)化和硬件資源。此外，優(yōu)化實(shí)現(xiàn)并不是這項(xiàng)工作的重點(diǎn)。但是，當(dāng)前推理時(shí)間的細(xì)分有助于未來(lái)的優(yōu)化。我們的實(shí)例使用Python編寫(xiě)，并使用Tensorflow進(jìn)行GPU計(jì)算。我們?cè)谂鋫鋁eon E5-1630 CPU 和 GTX 1070 GPU 的臺(tái)式機(jī)上測(cè)量了推理時(shí)間。驗(yàn)證拆分中一個(gè)樣本的平均處理時(shí)間為643ms。讀取數(shù)據(jù)集并運(yùn)行校準(zhǔn)需要11.0%的時(shí)間(70ms)，創(chuàng)建圖形表示將消耗18.9%的時(shí)間(121ms)，GNN的推理需要56.4%的時(shí)間(363ms)，框合并和評(píng)分花費(fèi)13.1%的時(shí)間(84ms)。有關(guān)實(shí)例細(xì)節(jié)，請(qǐng)參見(jiàn)我們的代碼。

對(duì)激光雷達(dá)稀疏性的魯棒性。KITTI數(shù)據(jù)集使用64線激光雷達(dá)采集點(diǎn)云數(shù)據(jù)。如此高密度的激光雷達(dá)通常會(huì)導(dǎo)致較高的成本。因此，研究密度較小的點(diǎn)云環(huán)境下的目標(biāo)檢測(cè)性能是很有意義的。為了模擬掃描線較少的激光雷達(dá)系統(tǒng)，我們對(duì)KITTI驗(yàn)證數(shù)據(jù)集中的掃描線進(jìn)行了下采樣。因?yàn)镵ITTI給出的點(diǎn)云沒(méi)有掃描線信息，所以我們使用k-means將點(diǎn)的仰角聚類(lèi)成64個(gè)簇，每個(gè)簇代表一條激光雷達(dá)掃描線。然后，我們通過(guò)跳過(guò)中間的掃描線，將點(diǎn)云向下采樣到32、16、8條掃描線。我們對(duì)下采樣的KITTI驗(yàn)證拆分的測(cè)試結(jié)果如表5所示。對(duì)于中等和困難檢測(cè)級(jí)別的精度隨著下采樣數(shù)據(jù)的下降而迅速下降，而對(duì)于簡(jiǎn)單級(jí)別數(shù)據(jù)的檢測(cè)保持合理的精度，直到它被下采樣到8個(gè)掃描線。這是因?yàn)楹?jiǎn)單級(jí)別的對(duì)象大多靠近激光雷達(dá)，因此即使掃描線的數(shù)量減少，也會(huì)有密集的點(diǎn)云。

5 總結(jié)

我們提出了一種稱(chēng)為Point-GNN的圖神經(jīng)網(wǎng)絡(luò)，用于從點(diǎn)云的圖形表示中檢測(cè)3D對(duì)象。通過(guò)使用圖形表示法，我們對(duì)點(diǎn)云進(jìn)行了緊湊的編碼，而不需要映射到網(wǎng)格，也不需要重復(fù)采樣和分組。我們的Point-GNN在KITTI基準(zhǔn)的3D和鳥(niǎo)瞰圖目標(biāo)檢測(cè)中都達(dá)到了領(lǐng)先的精度。實(shí)驗(yàn)結(jié)果表明，本文提出的自動(dòng)配準(zhǔn)機(jī)制降低了平移方差，并通過(guò)框合并和評(píng)分操作提高了檢測(cè)精度。在未來(lái)，我們計(jì)劃優(yōu)化推理速度，并對(duì)來(lái)自其他傳感器的輸入進(jìn)行融合。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：嬴徹科技軒轅系統(tǒng)完成高溫環(huán)境測(cè)試，距離量產(chǎn)「一步之遙」
上一篇：車(chē)內(nèi)輪胎空腔噪聲的傳遞路徑識(shí)別與優(yōu)化

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車(chē)輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車(chē)→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車(chē)輛避撞專(zhuān)利公布	• 全球首個(gè)！電動(dòng)汽車(chē)電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

Point-GNN:用于點(diǎn)云中三維目標(biāo)檢測(cè)的圖神經(jīng)網(wǎng)絡(luò)

微信公眾號(hào)

編輯推薦

最新資訊

“汽車(chē)爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車(chē)備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車(chē)前照燈配光性能的工