日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

自動駕駛多模態(tài)融合感知現(xiàn)狀及挑戰(zhàn)

2022-10-09 21:54:49·  來源:自動駕駛干貨鋪  
 
導(dǎo)讀多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。從融合階段的

導(dǎo)讀

多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。


從融合階段的角度,從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進(jìn)行分類。此外,本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進(jìn)行開放式討論。


01多模態(tài)融合感知的背景

單模態(tài)數(shù)據(jù)的感知存在固有的缺陷,相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中,物體可能會被遮擋,給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。

此外,受限于機械結(jié)構(gòu),激光雷達(dá)在不同距離處具有不同的分辨率,并且容易受到大霧和大雨等極端天氣的影響。因此LiDAR和相機的互補性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測、語義分割、深度補全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。


圖片


02

數(shù)據(jù)格式


相機提供了豐富的紋理信息的RGB圖像。具體來說,對于每個圖像像素為 (u, v),它有一個多通道特征向量 F(u,v) = {R, G, B, ...},通常包含相機捕獲的紅色、藍(lán)色、綠色通道或其他手動設(shè)計的特征作為灰度通道。


然而,由于深度信息有限,單目相機難以提取,因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此,許多方案使用雙目或立體相機系統(tǒng)通過空間和時間空間來利用附加信息進(jìn)行3D對象檢測,例如深度估計、光流等。


激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說,大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù),如(x, y, z, r),其中r代表每個點的反射率。


不同的紋理導(dǎo)致不同的反射率,然而,點的四元數(shù)表示存在冗余或速度缺陷。因此,許多研究人員嘗試將點云轉(zhuǎn)換為體素或2D投影,然后再將其饋送到下游模塊。


一些工作通過將3D空間離散化為3D體素,表示為:


其中每個 xi 代表一個特征向量,如:


圖片



si代表體素長方體的質(zhì)心,而vi代表一些基于統(tǒng)計的局部信息。局部密度是由局部體素中3D點的數(shù)量定義的。局部偏移量通常定義為點坐標(biāo)與局部體素質(zhì)心之間的偏移量。


基于Voxel 的點云表示,與上面提到的基于點的點云表示不同,它極大地減少了非結(jié)構(gòu)化點云的冗余。此外,利用3D稀疏卷積技術(shù),感知任務(wù)不僅實現(xiàn)了更快的訓(xùn)練速度,而且還實現(xiàn)了更高的準(zhǔn)確度。


一些工作試圖將LiDAR數(shù)據(jù)作為兩種常見類型投影到圖像空間中,包括相機平面圖(CPM)和鳥瞰圖(BEV)。通過將每個3D點作為 (x, y, z) 投影到相機坐標(biāo)系中(u, v),可以獲得CPM。由于CPM與相機圖像的格式相同,因此可以通過使CPM作為附加通道來自然地融合它們。


然而,由于投影后激光雷達(dá)的分辨率較低,CPM中許多像素的特征被破壞了。BEV 映射提供了從上方看場景的高視圖。檢測和定位任務(wù)使用它有兩個原因。首先,與安裝在擋風(fēng)玻璃后面的攝像頭不同,大多數(shù)激光雷達(dá)位于車輛頂部,遮擋較少。


其次,所有對象都放置在BEV中的地平面上,模型可以生成預(yù)測而不會出現(xiàn)長度和寬度的失真。

03

融合方法


本節(jié)將回顧激光雷達(dá)相機數(shù)據(jù)的不同融合方法。從傳統(tǒng)分類學(xué)的角度來看,所有的多模態(tài)數(shù)據(jù)融合方法都可以很方便地分為三種范式,包括數(shù)據(jù)級融合(early-fusion)、特征級融合(deep-fusion)和對象級融合(late-fusion)。


數(shù)據(jù)級融合或早期融合方法通過空間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)。特征級融合或深度融合方法關(guān)注于特征空間中混合跨模態(tài)數(shù)據(jù)。對象級融合方法結(jié)合模型在每個模態(tài)中的預(yù)測結(jié)果并做出最終決策。


圖片



04

數(shù)據(jù)級融合


原始數(shù)據(jù)通過空間對齊和投影直接融合每種模態(tài)數(shù)據(jù)的方法的一個例子是圖4中的模型。將圖像分支中的語義特征和原始激光雷達(dá)點云融合在一起,從而在目標(biāo)檢測任務(wù)中獲得更好的性能。


3D激光雷達(dá)點云轉(zhuǎn)換為 2D 圖像,并利用成熟的 CNN 技術(shù)融合圖像分支中的特征級表示以實現(xiàn)更好的性能。

圖片



05

特征級融合


特征級別融合使用特征提取器分別獲取激光雷達(dá)點云和相機圖像的嵌入表示,并通過一系列下游模塊融合兩種模態(tài)的特征。深度融合有時會以級聯(lián)方式融合特征這兩者都利用了原始和高級語義信息。深度融合的一個例子可以是圖5中的模型。

圖片



06

對象級融合


后期融合,也稱為對象級融合,表示在每種模態(tài)中融合不同結(jié)果的方法。例如,一些后期融合方法利用來自LiDAR點云分支和相機圖像分支的輸出,并根據(jù)兩種模態(tài)的結(jié)果進(jìn)行最終預(yù)測。


請注意,兩個分支應(yīng)具有與最終結(jié)果相同的數(shù)據(jù)格式,但質(zhì)量、數(shù)量和精度各不相同。后期融合可以看作是一種利用多模態(tài)信息優(yōu)化最終proposal的集成方法。一個例子可以是圖6中的模型。

圖片



如上所述,利用后期融合來細(xì)化每個3D區(qū)域proposal的分?jǐn)?shù),將圖像分支中的2Dproposal與LiDAR分支中的3D proposal相結(jié)合。此外,對于每個重疊區(qū)域,它利用了置信度得分、距離和IoU等統(tǒng)計特征。


07

不對稱融合


除了早期融合、深度融合和后期融合之外,一些方法對跨模態(tài)分支具有不同的特權(quán)。其他方法將兩個分支視為看似平等的狀態(tài),而不對稱融合至少有一個分支占主導(dǎo)地位,而其他分支則提供輔助信息來執(zhí)行最終任務(wù)。


后期融合的一個例子可以是圖7中的模型。特別是與后期融合相比,盡管它們可能使用提案具有相同的提取特征,但不對稱融合只有一個來自一個分支的提取特征。


圖片



這種融合方法是合理的,因為在相機數(shù)據(jù)上使用卷積神經(jīng)網(wǎng)絡(luò)具有出色的性能,該網(wǎng)絡(luò)過濾了點云中語義上無用的點,提取原始點云中的截錐體以及相應(yīng)像素的RGB信息,以輸出3D邊界框的參數(shù)。


使用 LiDAR 主干以多視圖樣式引導(dǎo)2D主干,并實現(xiàn)更高的精度。利用來自LiDAR分支的3D區(qū)域提案并重新投影到2D,結(jié)合圖像特征,輸出最終的3D提案。


08挑戰(zhàn)與機遇


近年來,用于自動駕駛感知任務(wù)的多模態(tài)融合方法取得了快速進(jìn)展,從更高級的特征表示到更復(fù)雜的深度學(xué)習(xí)模型。然而,還有一些懸而未決的問題。總結(jié)為以下幾個方面:


錯位和信息丟失


相機和 LiDAR 的內(nèi)在和外在差異很大。兩種模式中的數(shù)據(jù)都需要在新的坐標(biāo)系下重新組織。傳統(tǒng)的早期和深度融合方法利用外部校準(zhǔn)矩陣將所有LiDAR點直接投影到相應(yīng)的像素。


然而,這種逐像素對齊不夠準(zhǔn)確。因此,我們可以看到,除了這種嚴(yán)格的對應(yīng)關(guān)系之外,有時利用周圍信息作為補充會產(chǎn)生更好的性能。此外,在輸入和特征空間的轉(zhuǎn)換過程中還存在一些其他的信息丟失。


通常,降維操作的投影不可避免地會導(dǎo)致大量信息丟失,例如將3D LiDAR點云映射到BEV 圖像中。因此,通過將兩種模態(tài)數(shù)據(jù)映射為另一種專為融合而設(shè)計的高維表示,未來的工作可以有效地利用原始數(shù)據(jù),同時減少信息丟失。


更合理的融合操作


當(dāng)前的研究工作使用直觀的方法來融合跨模態(tài)數(shù)據(jù),例如連接和元素乘法。這些簡單的操作可能無法融合分布差異較大的數(shù)據(jù),因此難以彌合兩種模態(tài)之間的語義差距。


一些工作試圖使用更精細(xì)的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能。在未來的研究中,雙線性映射等機制可以融合具有不同特征的特征。


多源信息權(quán)衡


現(xiàn)有的方法缺乏對來自多個維度和來源的信息的有效利用。他們中的大多數(shù)都專注于前視圖中的單幀多模態(tài)數(shù)據(jù)。結(jié)果,其他有意義的信息沒有得到充分利用,例如語義、空間和場景上下文信息。


在自動駕駛場景中,許多具有顯式語義信息的下游任務(wù)可能會極大地提高目標(biāo)檢測任務(wù)的性能。例如,車道檢測可以直觀地為檢測車道之間的車輛提供額外幫助,語義分割結(jié)果可以提高目標(biāo)檢測性能。


未來的研究可以通過檢測車道、紅綠燈和標(biāo)志等各種下游任務(wù),共同構(gòu)建完整的城市景觀場景語義理解框架,以輔助感知任務(wù)的執(zhí)行。


參考


[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25