首頁 > 汽車技術(shù) > 正文

毫末智行「自動駕駛算法」的秘密

2022-03-10 10:52:50· 來源：焉知智能汽車

特斯拉的 FSD 系統(tǒng)解讀

Andrej 博士在特斯拉 AI Day 上首先提到，五年前 Tesla 的視覺系統(tǒng)是先獲得單張圖像上的檢測結(jié)果，然后將其映射到向量空間（Vector Space）。

這個「向量空間」則是 AI Day 中的核心概念之一。其實，它就是環(huán)境中的各種目標，在世界坐標系中的表示空間。

比如，「對于物體檢測任務(wù)，目標在 3D 空間中的位置、大小、朝向、速度等描述特性組成了一個向量，所有目標的描述向量組成的空間就是向量空間?！?

視覺感知系統(tǒng)的任務(wù)就是，將圖像空間中的信息轉(zhuǎn)化為向量空間中的信息。

一般可以通過兩種方法來實現(xiàn)：

先在圖像空間中完成所有的感知任務(wù)，然后將結(jié)果映射到向量空間，最后融合多攝像頭的結(jié)果；
先將圖像特征轉(zhuǎn)換到向量空間，然后融合來自多個攝像頭的特征，最后在向量空間中完成所有的感知任務(wù)。

Andrej 舉了兩個例子，說明為什么第一種方法是不合適的。

一，由于透視投影，圖像中看起來不錯的感知結(jié)果在向量空間中精度很差，尤其是遠距離的區(qū)域。如下圖所示，車道線（藍色）和道路邊緣（紅色）在投影到向量空間后位置非常不準，無法用支持自動駕駛的應用。

圖像空間的感知結(jié)果(上)及其在向量空間中的投影(下)

二，在多目系統(tǒng)中，由于視野的限制，單個攝像頭可能無法看到完整的目標。比如，在下圖的例子中，一輛大貨車出現(xiàn)在了一些攝像頭的視野中，但是很多攝像頭都只看到了目標的一部分，因此無法根據(jù)殘缺的信息做出正確的檢測，后續(xù)的融合效果也就無法保證。這其實是多傳感器決策層融合的一個一般性問題。

單攝像頭受限的視野

綜合以上分析，圖像空間感知 + 決策層融合并不是一個很好的方案。

進而直接在向量空間中完成融合和感知可以有效地解決以上問題，這也是 FSD 感知系統(tǒng)的核心思路。

為了實現(xiàn)這個思路，需要解決兩個重要的問題：一，如何將特征從圖像空間變換到向量空間；二，如何得到向量空間中的標注數(shù)據(jù)。

特征的空間變換

對于特征的空間變換問題，一般性的做法就是：「利用攝像頭的標定信息將圖像像素映射到世界坐標系」。

但這有一些條件上的問題，需要有一定的約束，自動駕駛應用中通常采用的是地平面約束，也就是目標位于地面，而且地面是水平的，這個約束太強了，在很多場景下無法滿足。

Tesla 的解決方案，核心有三點：

一，通過 Transformer 和自注意力的方式建立圖像空間到向量空間的對應關(guān)系。簡單說就是，向量空間中每一個位置的特征都可以看作圖像所有位置特征的加權(quán)組合。

當然對應位置的權(quán)重肯定大一些，但這個加權(quán)組合的過程通過自注意力和空間編碼來自動的實現(xiàn)，不需要手工設(shè)計，完全根據(jù)需要完成的任務(wù)來進行端對端的學習。

二，在量產(chǎn)車中，每一輛車上攝像頭的標定信息都不盡相同，導致輸入數(shù)據(jù)與預訓練的模型不一致。因此，這些標定信息需要作為額外的輸入提供給神經(jīng)網(wǎng)絡(luò)。

簡單的做法是，將每個攝像頭的標定信息拼接起來，通過神經(jīng)網(wǎng)絡(luò)編碼后再輸入給神經(jīng)網(wǎng)絡(luò)；但更好的做法是將來自不同攝像頭的圖像通過標定信息進行校正，使不同車輛上對應的攝像頭都輸出一致的圖像。

三，視頻（多幀）輸入被用來提取時序信息，以增加輸出結(jié)果的穩(wěn)定性，更好地處理遮擋場景，并且預測目標的運動。

這部分還有一個額外的輸入就是車輛自身的運動信息（可以通過 IMU 獲得），以支持神經(jīng)網(wǎng)絡(luò)對齊不同時間點的特征圖，時序信息的處理可以采用 3D 卷積，Transformer 或者 RNN。

圖像空間感知（左下） vs. 向量空間感知（右下）

通過以上這些算法上的改進，F(xiàn)SD 在向量空間中的輸出質(zhì)量有了很大的提升。在下面的對比圖中，下方左側(cè)是來自圖像空間感知+決策層融合方案的輸出，而下方右側(cè)上述特征空間變換 + 向量空間感知融合的方案。

向量空間中的標注

既然是深度學習算法，那么數(shù)據(jù)和標注自然就是關(guān)鍵環(huán)節(jié)，圖像空間中的標注非常直觀，但是系統(tǒng)最終需要的是在向量空間中的標注。

Tesla 的做法是利用來自多個攝像頭的圖像重建 3D 場景，并在 3D 場景下進行標注，標注者只需要在 3D 場景中進行一次標注，就可以實時地看到標注結(jié)果在各個圖像中的映射，從而進行相應的調(diào)整。

3D 空間中的標注

人工標注只是整個標注系統(tǒng)的一部分，為了更快更好地獲得標注，還需要借助自動標注和模擬器。

自動標注系統(tǒng)首先基于單攝像頭的圖像生成標注結(jié)果，然后通過各種空間和時間的線索將這些結(jié)果整合起來。形象點說就是「各個攝像頭湊在一起討論出一個一致的標注結(jié)果」。

除了多個攝像頭的配合，在路上行駛的多臺 Tesla 車輛也可以對同一個場景的標注進行融合改進。當然這里還需要 GPS 和 IMU 傳感器來獲得車輛的位置和姿態(tài)，從而將不同車輛的輸出結(jié)果進行空間對齊。

自動標注可以解決標注的效率問題，但是對于一些罕見的場景，比如，中金《人工智能十年展望（三）：AI 視角下的自動駕駛行業(yè)全解析》報告中所演示的在高速公路上奔跑的行人，還需要借助模擬器來生成虛擬數(shù)據(jù)。

以上所有這些技術(shù)組合起來，才構(gòu)成了 Tesla 完整的深度學習網(wǎng)絡(luò)、數(shù)據(jù)收集和標注系統(tǒng)。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：電動汽車熱泵空調(diào)系統(tǒng)
上一篇：張工聊測量 | 電池可拆卸性的測試與分析

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

毫末智行「自動駕駛算法」的秘密

微信公眾號

特斯拉的 FSD 系統(tǒng)解讀

特征的空間變換

向量空間中的標注

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

毫末智行「自動駕駛算法」的秘密

微信公眾號

特斯拉的 FSD 系統(tǒng)解讀

特征的空間變換

向量空間中的標注

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將