日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

毫末智行「自動駕駛算法」的秘密

2022-03-10 10:52:50·  來源:焉知智能汽車  
 
03

特斯拉的 FSD 系統(tǒng)解讀

Andrej 博士在特斯拉 AI Day 上首先提到,五年前 Tesla 的視覺系統(tǒng)是先獲得單張圖像上的檢測結(jié)果,然后將其映射到向量空間(Vector Space)。

這個「向量空間」則是 AI Day 中的核心概念之一。其實,它就是環(huán)境中的各種目標,在世界坐標系中的表示空間。

比如,「對于物體檢測任務(wù),目標在 3D 空間中的位置、大小、朝向、速度等描述特性組成了一個向量,所有目標的描述向量組成的空間就是向量空間?!?

視覺感知系統(tǒng)的任務(wù)就是,將圖像空間中的信息轉(zhuǎn)化為向量空間中的信息。

一般可以通過兩種方法來實現(xiàn):

  • 先在圖像空間中完成所有的感知任務(wù),然后將結(jié)果映射到向量空間,最后融合多攝像頭的結(jié)果;

  • 先將圖像特征轉(zhuǎn)換到向量空間,然后融合來自多個攝像頭的特征,最后在向量空間中完成所有的感知任務(wù)。

Andrej 舉了兩個例子,說明為什么第一種方法是不合適的。

一,由于透視投影,圖像中看起來不錯的感知結(jié)果在向量空間中精度很差,尤其是遠距離的區(qū)域。如下圖所示,車道線(藍色)和道路邊緣(紅色)在投影到向量空間后位置非常不準,無法用支持自動駕駛的應用。

圖片

圖像空間的感知結(jié)果(上)及其在向量空間中的投影(下)

二,在多目系統(tǒng)中,由于視野的限制,單個攝像頭可能無法看到完整的目標。比如,在下圖的例子中,一輛大貨車出現(xiàn)在了一些攝像頭的視野中,但是很多攝像頭都只看到了目標的一部分,因此無法根據(jù)殘缺的信息做出正確的檢測,后續(xù)的融合效果也就無法保證。這其實是多傳感器決策層融合的一個一般性問題。

圖片

單攝像頭受限的視野 

綜合以上分析,圖像空間感知 + 決策層融合并不是一個很好的方案。

進而直接在向量空間中完成融合和感知可以有效地解決以上問題,這也是 FSD 感知系統(tǒng)的核心思路。

為了實現(xiàn)這個思路,需要解決兩個重要的問題:一,如何將特征從圖像空間變換到向量空間;二,如何得到向量空間中的標注數(shù)據(jù)。

特征的空間變換

對于特征的空間變換問題,一般性的做法就是:「利用攝像頭的標定信息將圖像像素映射到世界坐標系」。

但這有一些條件上的問題,需要有一定的約束,自動駕駛應用中通常采用的是地平面約束,也就是目標位于地面,而且地面是水平的,這個約束太強了,在很多場景下無法滿足。

Tesla 的解決方案,核心有三點:

一,通過 Transformer 和自注意力的方式建立圖像空間到向量空間的對應關(guān)系。簡單說就是,向量空間中每一個位置的特征都可以看作圖像所有位置特征的加權(quán)組合。

當然對應位置的權(quán)重肯定大一些,但這個加權(quán)組合的過程通過自注意力和空間編碼來自動的實現(xiàn),不需要手工設(shè)計,完全根據(jù)需要完成的任務(wù)來進行端對端的學習。

二,在量產(chǎn)車中,每一輛車上攝像頭的標定信息都不盡相同,導致輸入數(shù)據(jù)與預訓練的模型不一致。因此,這些標定信息需要作為額外的輸入提供給神經(jīng)網(wǎng)絡(luò)。

簡單的做法是,將每個攝像頭的標定信息拼接起來,通過神經(jīng)網(wǎng)絡(luò)編碼后再輸入給神經(jīng)網(wǎng)絡(luò);但更好的做法是將來自不同攝像頭的圖像通過標定信息進行校正,使不同車輛上對應的攝像頭都輸出一致的圖像。

三,視頻(多幀)輸入被用來提取時序信息,以增加輸出結(jié)果的穩(wěn)定性,更好地處理遮擋場景,并且預測目標的運動。

這部分還有一個額外的輸入就是車輛自身的運動信息(可以通過 IMU 獲得),以支持神經(jīng)網(wǎng)絡(luò)對齊不同時間點的特征圖,時序信息的處理可以采用 3D 卷積,Transformer 或者 RNN。

圖片

圖像空間感知(左下) vs. 向量空間感知(右下) 

通過以上這些算法上的改進,F(xiàn)SD 在向量空間中的輸出質(zhì)量有了很大的提升。在下面的對比圖中,下方左側(cè)是來自圖像空間感知+決策層融合方案的輸出,而下方右側(cè)上述特征空間變換 + 向量空間感知融合的方案。

向量空間中的標注

既然是深度學習算法,那么數(shù)據(jù)和標注自然就是關(guān)鍵環(huán)節(jié),圖像空間中的標注非常直觀,但是系統(tǒng)最終需要的是在向量空間中的標注。

Tesla 的做法是利用來自多個攝像頭的圖像重建 3D 場景,并在 3D 場景下進行標注,標注者只需要在 3D 場景中進行一次標注,就可以實時地看到標注結(jié)果在各個圖像中的映射,從而進行相應的調(diào)整。

圖片

3D 空間中的標注

人工標注只是整個標注系統(tǒng)的一部分,為了更快更好地獲得標注,還需要借助自動標注和模擬器。

自動標注系統(tǒng)首先基于單攝像頭的圖像生成標注結(jié)果,然后通過各種空間和時間的線索將這些結(jié)果整合起來。形象點說就是 「各個攝像頭湊在一起討論出一個一致的標注結(jié)果」。

除了多個攝像頭的配合,在路上行駛的多臺 Tesla 車輛也可以對同一個場景的標注進行融合改進。當然這里還需要 GPS 和 IMU 傳感器來獲得車輛的位置和姿態(tài),從而將不同車輛的輸出結(jié)果進行空間對齊。

自動標注可以解決標注的效率問題,但是對于一些罕見的場景,比如,中金《人工智能十年展望(三):AI 視角下的自動駕駛行業(yè)全解析》報告中所演示的在高速公路上奔跑的行人,還需要借助模擬器來生成虛擬數(shù)據(jù)。

以上所有這些技術(shù)組合起來,才構(gòu)成了 Tesla 完整的深度學習網(wǎng)絡(luò)、數(shù)據(jù)收集和標注系統(tǒng)。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25