毫末智行「自動駕駛算法」的秘密

2022-03-10 10:52:50· 來源：焉知智能汽車

04

毫末智行的 MANA 系統(tǒng)解讀

依托長城汽車，毫末智行可以獲得海量的真實路測數(shù)據(jù)，對于數(shù)據(jù)的處理問題，毫末智行也提出將 Transformer 引入到其數(shù)據(jù)智能體系 MANA 中，并逐步應(yīng)用到實際的道路感知問題，比如障礙物檢測、車道線檢測、可行駛區(qū)域分割、交通標(biāo)志檢測等等。

從這一點上就可以看出，量產(chǎn)車企在有了超大數(shù)據(jù)集作為支撐以后，其技術(shù)路線正在走向趨同。

在自動駕駛技術(shù)百花齊放的時代，選擇一條正確的賽道，確立自身技術(shù)的優(yōu)勢，無論對于特斯拉還是毫末智行來說，都是極其重要的。

在自動駕駛技術(shù)的發(fā)展中，一直就對采用何種傳感器存在爭論。目前爭論的焦點在于是走純視覺路線還是激光雷達(dá)路線。

特斯拉采用純視覺方案，這也是基于其百萬量級的車隊和百億公里級別的真實路況數(shù)據(jù)做出的選擇。

而采用激光雷達(dá)，主要有兩方面的考慮：

數(shù)據(jù)規(guī)模方面的差距其他自動駕駛公司很難填補，要獲得競爭優(yōu)勢就必須增加傳感器的感知能力。目前，半固態(tài)的激光雷達(dá)成本已經(jīng)降低到幾百美元的級別，基本可以滿足量產(chǎn)車型的需求。
從目前的技術(shù)發(fā)展來看，基于純視覺的技術(shù)可以滿足 L2/L2+ 級別的應(yīng)用，但是對L3/4級的應(yīng)用（比如RoboTaxi）來說，激光雷達(dá)還是必不可少的。

在這種背景下，誰能夠既擁有海量數(shù)據(jù)，又能同時支持視覺和激光雷達(dá)兩種傳感器，那么無疑會在競爭中占據(jù)先發(fā)的優(yōu)勢。顯然，毫末智行在這個方向上已經(jīng)占據(jù)了先機。

根據(jù)毫末智行 CEO 顧維灝的在 AI Day 上的介紹，MANA 系統(tǒng)采用 Transformer 在底層融合視覺和激光雷達(dá)數(shù)據(jù)，進(jìn)而實現(xiàn)空間、時間、傳感器三位一體的深層次感知。

下面我就來詳細(xì)解讀一下 MANA 系統(tǒng)，尤其是與特斯拉 FSD 的差異之處。

視覺感知模塊

相機獲取原始數(shù)據(jù)之后，要經(jīng)過 ISP（Image Signal Process）數(shù)字處理過程后，才能提供給后端的神經(jīng)網(wǎng)絡(luò)使用。

ISP 的功能一般來說是為了獲得更好的視覺效果，但是神經(jīng)網(wǎng)絡(luò)其實并不需要真正的「看到」數(shù)據(jù)，視覺效果只是為人類設(shè)計的。

因此，將 ISP 作為神經(jīng)網(wǎng)絡(luò)的一層，讓神經(jīng)網(wǎng)絡(luò)根據(jù)后端的任務(wù)來決定 ISP 的參數(shù)并對相機進(jìn)行校準(zhǔn)，這有利于最大程度上保留原始的圖像信息，也保證采集到的圖像與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練圖像在參數(shù)上盡可能的一致。

處理過后的圖像數(shù)據(jù)被送入主干網(wǎng)絡(luò) Backbone，毫末采用的 DarkNet 類似于多層的卷積殘差網(wǎng)絡(luò)（ResNet），這也是業(yè)界最常用的主干網(wǎng)絡(luò)結(jié)構(gòu)。

主干網(wǎng)絡(luò)輸出的特征再送到不同的頭（Head）來完成不同的任務(wù)。

這里的任務(wù)分為三大類：全局任務(wù)（Global Task）、道路任務(wù)（Road Tasks）和目標(biāo)任務(wù)（Object Tasks）。

不同的任務(wù)共用主干網(wǎng)絡(luò)的特征，每個任務(wù)自己擁有獨立的 Neck 網(wǎng)絡(luò)，用來提取針對不同任務(wù)的特征。這與特斯拉 HydraNet 的思路是基本一致的。

但是 MANA 感知系統(tǒng)的特點在于「為全局任務(wù)設(shè)計了一個提取全局信息的 Neck 網(wǎng)絡(luò)」。

這一點其實是非常重要的，因為全局任務(wù)（比如可行駛道路的檢測）非常依賴于對場景的理解，而對場景的理解又依賴于全局信息的提取。

MANA 系統(tǒng)的視覺和激光雷達(dá)感知模塊

激光雷達(dá)感知模塊

激光雷達(dá)感知采用的是 PointPillar 算法，這也是業(yè)界常用的一個基于點云的三維物體檢測算法。這個算法的特點在于：「將三維信息投影到二維（俯視視圖），在二維數(shù)據(jù)上進(jìn)行類似于視覺任務(wù)中的特征提取和物體檢測」。

這種做法的優(yōu)點在于避免了計算量非常大的三維卷積操作，因此，算法的整體速度非?？臁ointPillar 也是在點云物體檢測領(lǐng)域第一個能夠達(dá)到實時處理要求的算法。

在 MANA 之前的版本中，視覺數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)是分別處理的，融合過程在各自輸出結(jié)果的層面上完成，也就是自動駕駛領(lǐng)域常說的「后融合」。

這樣做可以盡可能地保證兩個系統(tǒng)之間的獨立性，并為彼此提供安全冗余。但后融合也導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法充分利用兩個異構(gòu)傳感器之間數(shù)據(jù)的互補性，來學(xué)習(xí)最有價值的特征。

融合感知模塊

前面提到了一個三位一體融合的概念，這也是 MANA 感知系統(tǒng)區(qū)別于其他感知系統(tǒng)的關(guān)鍵之處。正如毫末智行 CEO 顧維灝在 AI Day 上所說：目前大部分的感知系統(tǒng)都存在「時間上的感知不連續(xù)、空間上的感知碎片化」的問題。

MANA 系統(tǒng)的融合感知模塊

時間上的不連續(xù)：是由于系統(tǒng)按照幀為單位進(jìn)行處理，而兩幀之間的時間間隔可能會有幾十毫秒，系統(tǒng)更多地關(guān)注單幀的處理結(jié)果，將時間上的融合作為后處理的步驟。

比如，采用單獨的物體跟蹤模塊將單幀的物體檢測結(jié)果串聯(lián)起來，這也是一種后融合策略，因此無法充分利用時序上的有用信息。

空間上的碎片化：是由多個同構(gòu)或異構(gòu)傳感器所在的不同空間坐標(biāo)系導(dǎo)致的。

對于同構(gòu)傳感器（比如多個攝像頭）來說，由于安裝位置和角度不同，導(dǎo)致其可視范圍（FOV）也不盡相同。每個傳感器的 FOV 都是有限的，需要把多個傳感器的數(shù)據(jù)融合在一起，才可以得到車身周圍 360 度的感知能力，這對于 L2 以上級別的自動駕駛系統(tǒng)來說是非常重要的。

對于異構(gòu)傳感器（比如攝像頭和激光雷達(dá)）來說，由于數(shù)據(jù)采集的方式不同，不同傳感器得到的數(shù)據(jù)信息和形式都有很大差別。

攝像頭采集到的是圖像數(shù)據(jù)，具有豐富的紋理和語義信息，適合用于物體分類和場景理解；而激光雷達(dá)采集到的是點云數(shù)據(jù)，其空間位置信息非常精確，適合用于感知物體的三維信息和檢測障礙物。

如果系統(tǒng)對每個傳感器進(jìn)行單獨處理，并在處理結(jié)果上進(jìn)行后融合，那么就無法利用多個傳感器的數(shù)據(jù)中包含的互補信息。

如何解決這兩個問題呢？

答案是：用 Transformer 做空間和時間上的前融合。

先說空間的前融合

與 Transformer 在一般的視覺任務(wù)（比如圖像分類和物體檢測）中扮演的角色不同，Transformer 在空間前融合中的主要作用并不是提取特征，而是進(jìn)行坐標(biāo)系的變換。

這與特斯拉所采用的技術(shù)有異曲同工之處，但是毫末進(jìn)一步增加了激光雷達(dá)，進(jìn)行多傳感器（跨模態(tài)）的前融合，也就是圖 8 中的 Cross-Domain Association 模塊。

上面介紹了 Transformer 的基本工作原理，簡單來說就是「計算輸入數(shù)據(jù)各個元素之間的相關(guān)性，利用該相關(guān)性進(jìn)行特征提取」。

坐標(biāo)系轉(zhuǎn)換也可以形式化為類似的流程。

比如，將來自多個攝像頭的圖像轉(zhuǎn)換到與激光雷達(dá)點云一致的三維空間坐標(biāo)系，那么系統(tǒng)需要做的是找到三維坐標(biāo)系中每個點與圖像像素的對應(yīng)關(guān)系。傳統(tǒng)的基于幾何變換的方法會將三維坐標(biāo)系中的一個點映射到圖像坐標(biāo)系中的一個點，并利用該圖像點周圍一個小的鄰域（比如 3x3 像素）來計算三維點的像素值。

而 Transformer 則會建立三維點到每個圖像點的聯(lián)系，并通過自注意力機制，也就是相關(guān)性計算來決定哪些圖像點會被用來進(jìn)行三維點的像素值。

如圖 9 所示，Transformer 首先編碼圖像特征，然后將其解碼到三維空間，而坐標(biāo)系變換已經(jīng)被嵌入到了自注意力的計算過程中。

這種思路打破的傳統(tǒng)方法中對鄰域的約束，算法可以看到場景中更大的范圍，通過對場景的理解來進(jìn)行坐標(biāo)變換。同時，坐標(biāo)變換的過程在神經(jīng)網(wǎng)絡(luò)中進(jìn)行，可以由后端所接的具體任務(wù)來自動調(diào)整變換的參數(shù)。

采用 Transformer 進(jìn)行圖像坐標(biāo)系到三維空間坐標(biāo)系的轉(zhuǎn)換

因此，這個變換過程是完全由數(shù)據(jù)驅(qū)動的，也是任務(wù)相關(guān)的。在擁有超大數(shù)據(jù)集的前提下，基于 Transformer 來進(jìn)行空間坐標(biāo)系變換是完全可行的。

再說時間上的前融合

這個比空間上的前融合更容易理解一些，因為 Transformer 在設(shè)計之初就是為了處理時序數(shù)據(jù)的。

圖 8 中的 Feature Queue 就是空間融合模塊在時序上的輸出，可以理解為一個句子中的多個單詞，這樣就可以自然的采用 Transformer 來提取時序特征。相比特斯拉采用 RNN 來進(jìn)行時序融合的方案，Transformer 的方案特征提取能力更強，但是在運行效率上會低一些。

毫末的方案中也提到了 RNN，相信目前也在進(jìn)行兩種方案的對比，甚至是進(jìn)行某種程度的結(jié)合，以充分利用兩者的優(yōu)勢。

除此之外，由于激光雷達(dá)的加持，毫末采用了 SLAM 跟蹤以及光流算法，可以快速的完成自身定位和場景感知，更好的保證時序上的連貫性。

認(rèn)知模塊

除了感知模塊以外，毫末在認(rèn)知模塊，也就是路徑規(guī)劃部分也有一些特別的設(shè)計。

顧維灝在 AI Day 上介紹到，認(rèn)知模塊與感知模塊最大的不同在于，認(rèn)知模塊沒有確定的「尺子」來衡量其性能的優(yōu)劣，而且認(rèn)知模塊需要考慮的因素比較多，比如安全，舒適和高效，這無疑也增加了認(rèn)知模塊設(shè)計的難度。

針對這些問題，毫末的解決方案是場景數(shù)字化和大規(guī)模強化學(xué)習(xí)。

場景數(shù)字化，就是將行駛道路上的不同場景進(jìn)行參數(shù)化的表示。參數(shù)化的好處在于可以對場景進(jìn)行有效地分類，從而進(jìn)行差異化的處理。

按照不同的粒度，場景參數(shù)分為宏觀和微觀兩種：宏觀的場景參數(shù)包括天氣，光照，路況等；微觀的場景參數(shù)則刻畫了自車的行駛速度，與周圍障礙物的關(guān)系等。

MANA 系統(tǒng)中的宏觀場景聚類

MANA 系統(tǒng)中的微觀場景（例子是跟車場景）

在將各種場景數(shù)字化了以后，就可以采用人工智能的算法來進(jìn)行學(xué)習(xí)。一般情況下，強化學(xué)習(xí)是完成這個任務(wù)的一個比較好的選擇。

強化學(xué)習(xí)就是著名的 AlphaGo 中采用的方法，但是與圍棋不同，自動駕駛?cè)蝿?wù)的評價標(biāo)準(zhǔn)不是輸和贏，而是駕駛的合理性和安全性。

如何對每一次的駕駛行為進(jìn)行正確地評價，是認(rèn)知系統(tǒng)中強化學(xué)習(xí)算法設(shè)計的關(guān)鍵。毫末采取的策略是模擬人類司機的行為，這也是最快速有效的方法。

當(dāng)然，只有幾個司機的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的，采用這種策略的基礎(chǔ)也是海量的人工駕駛數(shù)據(jù)，而這恰恰又是毫末的優(yōu)勢所在，這就是基于長城汽車，毫末在智能駕駛系統(tǒng)上的交付能力會遠(yuǎn)遠(yuǎn)領(lǐng)先其他對手，而這背后的核心則是數(shù)據(jù)的收集能力，基于海量的數(shù)據(jù)，毫末可以快速迭代算法交付覆蓋更多場景的自動駕駛系統(tǒng)。

寫在最后

隨著自動駕駛技術(shù)的快速發(fā)展和落地，越來越多的量產(chǎn)車型上開始搭載支持不同級別自動駕駛系統(tǒng)的軟件和硬件。在逐漸向商業(yè)化邁進(jìn)的同時，量產(chǎn)車型的規(guī)模效應(yīng)也可以為自動駕駛系統(tǒng)的迭代提供海量的數(shù)據(jù)支持。這也是業(yè)界普遍認(rèn)可的通向高階自動駕駛的必經(jīng)之路。

在這種背景下，擁有潛在數(shù)據(jù)優(yōu)勢的量產(chǎn)車的企業(yè)該如何切入，特斯拉和依托長城汽車的毫末智行率先給出了方案。兩者的方案既有宏觀的神似之處，也有很多具體策略上的差異，既體現(xiàn)了共識，也展現(xiàn)了個性。

共識之處在于，兩家公司都采用了 Transformer 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來提升在超大數(shù)據(jù)集上的學(xué)習(xí)能力，同時兩家公司也都認(rèn)為數(shù)據(jù)的采集和自動標(biāo)注是整個算法迭代的重要環(huán)節(jié)，并為此進(jìn)行了巨大的投入。

個性方面，特斯拉采用純視覺的方案，而毫末采用視覺加激光雷達(dá)的方案。在激光雷達(dá)量產(chǎn)成本不斷降低的背景下，毫末的方案是具有發(fā)展?jié)摿Φ?。此外，毫末?Transformer 的應(yīng)用上更加深入。

除了融合空間信息以外，Transformer 在 MANA 系統(tǒng)中還被用來融合時序和多模態(tài)信息，將系統(tǒng)采集的各種離散數(shù)據(jù)統(tǒng)一起來，形成連貫的數(shù)據(jù)流，以更好地支持后端的不同應(yīng)用。

不管采用何種實現(xiàn)方案，特斯拉和毫末智行在海量數(shù)據(jù)上進(jìn)行的嘗試對于自動駕駛技術(shù)的發(fā)展和最終落地實現(xiàn)都是意義重大的。

也希望未來會有更多的企業(yè)加入進(jìn)來，嘗試更多不同的可能性，互通有無，互相學(xué)習(xí)，甚至共享技術(shù)和數(shù)據(jù)，讓自動駕駛能夠更好更快地為大眾服務(wù)。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：電動汽車熱泵空調(diào)系統(tǒng)
上一篇：張工聊測量 | 電池可拆卸性的測試與分析

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

毫末智行「自動駕駛算法」的秘密

微信公眾號

04