自動駕駛多模態(tài)融合感知現(xiàn)狀及挑戰(zhàn)

2022-10-09 21:54:49· 來源：自動駕駛干貨鋪

導(dǎo)讀多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。從融合階段的

導(dǎo)讀

多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。

從融合階段的角度，從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進(jìn)行開放式討論。

01多模態(tài)融合感知的背景

單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中，物體可能會被遮擋，給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。

此外，受限于機械結(jié)構(gòu)，激光雷達(dá)在不同距離處具有不同的分辨率，并且容易受到大霧和大雨等極端天氣的影響。因此LiDAR和相機的互補性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測、語義分割、深度補全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。

數(shù)據(jù)格式

相機提供了豐富的紋理信息的RGB圖像。具體來說，對于每個圖像像素為 (u, v)，它有一個多通道特征向量 F(u,v) = {R, G, B, ...}，通常包含相機捕獲的紅色、藍(lán)色、綠色通道或其他手動設(shè)計的特征作為灰度通道。

然而，由于深度信息有限，單目相機難以提取，因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此，許多方案使用雙目或立體相機系統(tǒng)通過空間和時間空間來利用附加信息進(jìn)行3D對象檢測，例如深度估計、光流等。

激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個點的反射率。

不同的紋理導(dǎo)致不同的反射率，然而，點的四元數(shù)表示存在冗余或速度缺陷。因此，許多研究人員嘗試將點云轉(zhuǎn)換為體素或2D投影，然后再將其饋送到下游模塊。

一些工作通過將3D空間離散化為3D體素，表示為：

其中每個 xi 代表一個特征向量，如:

si代表體素長方體的質(zhì)心，而vi代表一些基于統(tǒng)計的局部信息。局部密度是由局部體素中3D點的數(shù)量定義的。局部偏移量通常定義為點坐標(biāo)與局部體素質(zhì)心之間的偏移量。

基于Voxel 的點云表示，與上面提到的基于點的點云表示不同，它極大地減少了非結(jié)構(gòu)化點云的冗余。此外，利用3D稀疏卷積技術(shù)，感知任務(wù)不僅實現(xiàn)了更快的訓(xùn)練速度，而且還實現(xiàn)了更高的準(zhǔn)確度。

一些工作試圖將LiDAR數(shù)據(jù)作為兩種常見類型投影到圖像空間中，包括相機平面圖(CPM)和鳥瞰圖(BEV)。通過將每個3D點作為 (x, y, z) 投影到相機坐標(biāo)系中(u, v)，可以獲得CPM。由于CPM與相機圖像的格式相同，因此可以通過使CPM作為附加通道來自然地融合它們。

然而，由于投影后激光雷達(dá)的分辨率較低，CPM中許多像素的特征被破壞了。BEV 映射提供了從上方看場景的高視圖。檢測和定位任務(wù)使用它有兩個原因。首先，與安裝在擋風(fēng)玻璃后面的攝像頭不同，大多數(shù)激光雷達(dá)位于車輛頂部，遮擋較少。

其次，所有對象都放置在BEV中的地平面上，模型可以生成預(yù)測而不會出現(xiàn)長度和寬度的失真。

融合方法

本節(jié)將回顧激光雷達(dá)相機數(shù)據(jù)的不同融合方法。從傳統(tǒng)分類學(xué)的角度來看，所有的多模態(tài)數(shù)據(jù)融合方法都可以很方便地分為三種范式，包括數(shù)據(jù)級融合（early-fusion）、特征級融合（deep-fusion）和對象級融合（late-fusion）。

數(shù)據(jù)級融合或早期融合方法通過空間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)。特征級融合或深度融合方法關(guān)注于特征空間中混合跨模態(tài)數(shù)據(jù)。對象級融合方法結(jié)合模型在每個模態(tài)中的預(yù)測結(jié)果并做出最終決策。

數(shù)據(jù)級融合

原始數(shù)據(jù)通過空間對齊和投影直接融合每種模態(tài)數(shù)據(jù)的方法的一個例子是圖4中的模型。將圖像分支中的語義特征和原始激光雷達(dá)點云融合在一起，從而在目標(biāo)檢測任務(wù)中獲得更好的性能。

3D激光雷達(dá)點云轉(zhuǎn)換為 2D 圖像，并利用成熟的 CNN 技術(shù)融合圖像分支中的特征級表示以實現(xiàn)更好的性能。

特征級融合

特征級別融合使用特征提取器分別獲取激光雷達(dá)點云和相機圖像的嵌入表示，并通過一系列下游模塊融合兩種模態(tài)的特征。深度融合有時會以級聯(lián)方式融合特征這兩者都利用了原始和高級語義信息。深度融合的一個例子可以是圖5中的模型。

對象級融合

后期融合，也稱為對象級融合，表示在每種模態(tài)中融合不同結(jié)果的方法。例如，一些后期融合方法利用來自LiDAR點云分支和相機圖像分支的輸出，并根據(jù)兩種模態(tài)的結(jié)果進(jìn)行最終預(yù)測。

請注意，兩個分支應(yīng)具有與最終結(jié)果相同的數(shù)據(jù)格式，但質(zhì)量、數(shù)量和精度各不相同。后期融合可以看作是一種利用多模態(tài)信息優(yōu)化最終proposal的集成方法。一個例子可以是圖6中的模型。

如上所述，利用后期融合來細(xì)化每個3D區(qū)域proposal的分?jǐn)?shù)，將圖像分支中的2Dproposal與LiDAR分支中的3D proposal相結(jié)合。此外，對于每個重疊區(qū)域，它利用了置信度得分、距離和IoU等統(tǒng)計特征。

不對稱融合

除了早期融合、深度融合和后期融合之外，一些方法對跨模態(tài)分支具有不同的特權(quán)。其他方法將兩個分支視為看似平等的狀態(tài)，而不對稱融合至少有一個分支占主導(dǎo)地位，而其他分支則提供輔助信息來執(zhí)行最終任務(wù)。

后期融合的一個例子可以是圖7中的模型。特別是與后期融合相比，盡管它們可能使用提案具有相同的提取特征，但不對稱融合只有一個來自一個分支的提取特征。

這種融合方法是合理的，因為在相機數(shù)據(jù)上使用卷積神經(jīng)網(wǎng)絡(luò)具有出色的性能，該網(wǎng)絡(luò)過濾了點云中語義上無用的點，提取原始點云中的截錐體以及相應(yīng)像素的RGB信息，以輸出3D邊界框的參數(shù)。

使用 LiDAR 主干以多視圖樣式引導(dǎo)2D主干，并實現(xiàn)更高的精度。利用來自LiDAR分支的3D區(qū)域提案并重新投影到2D，結(jié)合圖像特征，輸出最終的3D提案。

08挑戰(zhàn)與機遇

近年來，用于自動駕駛感知任務(wù)的多模態(tài)融合方法取得了快速進(jìn)展，從更高級的特征表示到更復(fù)雜的深度學(xué)習(xí)模型。然而，還有一些懸而未決的問題。總結(jié)為以下幾個方面：

錯位和信息丟失

相機和 LiDAR 的內(nèi)在和外在差異很大。兩種模式中的數(shù)據(jù)都需要在新的坐標(biāo)系下重新組織。傳統(tǒng)的早期和深度融合方法利用外部校準(zhǔn)矩陣將所有LiDAR點直接投影到相應(yīng)的像素。

然而，這種逐像素對齊不夠準(zhǔn)確。因此，我們可以看到，除了這種嚴(yán)格的對應(yīng)關(guān)系之外，有時利用周圍信息作為補充會產(chǎn)生更好的性能。此外，在輸入和特征空間的轉(zhuǎn)換過程中還存在一些其他的信息丟失。

通常，降維操作的投影不可避免地會導(dǎo)致大量信息丟失，例如將3D LiDAR點云映射到BEV 圖像中。因此，通過將兩種模態(tài)數(shù)據(jù)映射為另一種專為融合而設(shè)計的高維表示，未來的工作可以有效地利用原始數(shù)據(jù)，同時減少信息丟失。

更合理的融合操作

當(dāng)前的研究工作使用直觀的方法來融合跨模態(tài)數(shù)據(jù)，例如連接和元素乘法。這些簡單的操作可能無法融合分布差異較大的數(shù)據(jù)，因此難以彌合兩種模態(tài)之間的語義差距。

一些工作試圖使用更精細(xì)的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能。在未來的研究中，雙線性映射等機制可以融合具有不同特征的特征。

多源信息權(quán)衡

現(xiàn)有的方法缺乏對來自多個維度和來源的信息的有效利用。他們中的大多數(shù)都專注于前視圖中的單幀多模態(tài)數(shù)據(jù)。結(jié)果，其他有意義的信息沒有得到充分利用，例如語義、空間和場景上下文信息。

在自動駕駛場景中，許多具有顯式語義信息的下游任務(wù)可能會極大地提高目標(biāo)檢測任務(wù)的性能。例如，車道檢測可以直觀地為檢測車道之間的車輛提供額外幫助，語義分割結(jié)果可以提高目標(biāo)檢測性能。

未來的研究可以通過檢測車道、紅綠燈和標(biāo)志等各種下游任務(wù)，共同構(gòu)建完整的城市景觀場景語義理解框架，以輔助感知任務(wù)的執(zhí)行。

參考

[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：國家汽車質(zhì)量檢驗檢測中心（廣西）獲得國家認(rèn)監(jiān)委整車CCC指定實驗室資質(zhì)
上一篇：寧德時代制備車輛專利公布可調(diào)底盤長度

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

自動駕駛多模態(tài)融合感知現(xiàn)狀及挑戰(zhàn)

微信公眾號

多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。

從融合階段的角度，從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進(jìn)行開放式討論。

單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中，物體可能會被遮擋，給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。

相機提供了豐富的紋理信息的RGB圖像。具體來說，對于每個圖像像素為 (u, v)，它有一個多通道特征向量 F(u,v) = {R, G, B, ...}，通常包含相機捕獲的紅色、藍(lán)色、綠色通道或其他手動設(shè)計的特征作為灰度通道。

激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個點的反射率。

不同的紋理導(dǎo)致不同的反射率，然而，點的四元數(shù)表示存在冗余或速度缺陷。因此，許多研究人員嘗試將點云轉(zhuǎn)換為體素或2D投影，然后再將其饋送到下游模塊。

一些工作通過將3D空間離散化為3D體素，表示為：

其中每個 xi 代表一個特征向量，如:

錯位和信息丟失

多源信息權(quán)衡

參考

[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

自動駕駛多模態(tài)融合感知現(xiàn)狀及挑戰(zhàn)

微信公眾號

多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。

從融合階段的角度，從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進(jìn)行開放式討論。

單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中，物體可能會被遮擋，給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。

激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個點的反射率。

不同的紋理導(dǎo)致不同的反射率，然而，點的四元數(shù)表示存在冗余或速度缺陷。因此，許多研究人員嘗試將點云轉(zhuǎn)換為體素或2D投影，然后再將其饋送到下游模塊。

一些工作通過將3D空間離散化為3D體素，表示為：

其中每個 xi 代表一個特征向量，如:

錯位和信息丟失

多源信息權(quán)衡

參考

[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工

多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。

從融合階段的角度，從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進(jìn)行開放式討論。

單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中，物體可能會被遮擋，給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。

激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個點的反射率。

不同的紋理導(dǎo)致不同的反射率，然而，點的四元數(shù)表示存在冗余或速度缺陷。因此，許多研究人員嘗試將點云轉(zhuǎn)換為體素或2D投影，然后再將其饋送到下游模塊。

其中每個 xi 代表一個特征向量，如: