日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

毫末智行「自動駕駛算法」的秘密

2022-03-10 10:52:50·  來源:焉知智能汽車  
 

04

毫末智行的 MANA 系統(tǒng)解讀

圖片

依托長城汽車,毫末智行可以獲得海量的真實路測數(shù)據(jù),對于數(shù)據(jù)的處理問題,毫末智行也提出將 Transformer 引入到其數(shù)據(jù)智能體系 MANA 中,并逐步應(yīng)用到實際的道路感知問題,比如障礙物檢測、車道線檢測、可行駛區(qū)域分割、交通標(biāo)志檢測等等。

從這一點上就可以看出,量產(chǎn)車企在有了超大數(shù)據(jù)集作為支撐以后,其技術(shù)路線正在走向趨同。

在自動駕駛技術(shù)百花齊放的時代,選擇一條正確的賽道,確立自身技術(shù)的優(yōu)勢,無論對于特斯拉還是毫末智行來說,都是極其重要的。

在自動駕駛技術(shù)的發(fā)展中,一直就對采用何種傳感器存在爭論。目前爭論的焦點在于是走純視覺路線還是激光雷達(dá)路線。

特斯拉采用純視覺方案,這也是基于其百萬量級的車隊和百億公里級別的真實路況數(shù)據(jù)做出的選擇。

而采用激光雷達(dá),主要有兩方面的考慮:

  • 數(shù)據(jù)規(guī)模方面的差距其他自動駕駛公司很難填補,要獲得競爭優(yōu)勢就必須增加傳感器的感知能力。目前,半固態(tài)的激光雷達(dá)成本已經(jīng)降低到幾百美元的級別,基本可以滿足量產(chǎn)車型的需求。

  • 從目前的技術(shù)發(fā)展來看,基于純視覺的技術(shù)可以滿足 L2/L2+ 級別的應(yīng)用,但是對L3/4級的應(yīng)用(比如RoboTaxi)來說,激光雷達(dá)還是必不可少的。

在這種背景下,誰能夠既擁有海量數(shù)據(jù),又能同時支持視覺和激光雷達(dá)兩種傳感器,那么無疑會在競爭中占據(jù)先發(fā)的優(yōu)勢。顯然,毫末智行在這個方向上已經(jīng)占據(jù)了先機。

根據(jù)毫末智行 CEO 顧維灝的在 AI Day 上的介紹,MANA 系統(tǒng)采用 Transformer 在底層融合視覺和激光雷達(dá)數(shù)據(jù),進(jìn)而實現(xiàn)空間、時間、傳感器三位一體的深層次感知。

下面我就來詳細(xì)解讀一下 MANA 系統(tǒng),尤其是與特斯拉 FSD 的差異之處。

圖片

視覺感知模塊

相機獲取原始數(shù)據(jù)之后,要經(jīng)過 ISP(Image Signal Process)數(shù)字處理過程后,才能提供給后端的神經(jīng)網(wǎng)絡(luò)使用。

ISP 的功能一般來說是為了獲得更好的視覺效果,但是神經(jīng)網(wǎng)絡(luò)其實并不需要真正的「看到」數(shù)據(jù),視覺效果只是為人類設(shè)計的。

因此,將 ISP 作為神經(jīng)網(wǎng)絡(luò)的一層,讓神經(jīng)網(wǎng)絡(luò)根據(jù)后端的任務(wù)來決定 ISP 的參數(shù)并對相機進(jìn)行校準(zhǔn),這有利于最大程度上保留原始的圖像信息,也保證采集到的圖像與神經(jīng)網(wǎng)絡(luò)的訓(xùn)練圖像在參數(shù)上盡可能的一致。

處理過后的圖像數(shù)據(jù)被送入主干網(wǎng)絡(luò) Backbone,毫末采用的 DarkNet 類似于多層的卷積殘差網(wǎng)絡(luò)(ResNet),這也是業(yè)界最常用的主干網(wǎng)絡(luò)結(jié)構(gòu)。

主干網(wǎng)絡(luò)輸出的特征再送到不同的頭(Head)來完成不同的任務(wù)。

這里的任務(wù)分為三大類:全局任務(wù)(Global Task)、道路任務(wù)(Road Tasks)和目標(biāo)任務(wù)(Object Tasks)。

不同的任務(wù)共用主干網(wǎng)絡(luò)的特征,每個任務(wù)自己擁有獨立的 Neck 網(wǎng)絡(luò),用來提取針對不同任務(wù)的特征。這與特斯拉 HydraNet 的思路是基本一致的。

但是 MANA 感知系統(tǒng)的特點在于 「為全局任務(wù)設(shè)計了一個提取全局信息的 Neck 網(wǎng)絡(luò)」。

這一點其實是非常重要的,因為全局任務(wù)(比如可行駛道路的檢測)非常依賴于對場景的理解,而對場景的理解又依賴于全局信息的提取。

圖片

MANA 系統(tǒng)的視覺和激光雷達(dá)感知模塊 

激光雷達(dá)感知模塊

激光雷達(dá)感知采用的是 PointPillar 算法,這也是業(yè)界常用的一個基于點云的三維物體檢測算法。這個算法的特點在于:「將三維信息投影到二維(俯視視圖),在二維數(shù)據(jù)上進(jìn)行類似于視覺任務(wù)中的特征提取和物體檢測」。

這種做法的優(yōu)點在于避免了計算量非常大的三維卷積操作,因此,算法的整體速度非??臁ointPillar 也是在點云物體檢測領(lǐng)域第一個能夠達(dá)到實時處理要求的算法。

在 MANA 之前的版本中,視覺數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)是分別處理的,融合過程在各自輸出結(jié)果的層面上完成,也就是自動駕駛領(lǐng)域常說的 「后融合」。

這樣做可以盡可能地保證兩個系統(tǒng)之間的獨立性,并為彼此提供安全冗余。但后融合也導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法充分利用兩個異構(gòu)傳感器之間數(shù)據(jù)的互補性,來學(xué)習(xí)最有價值的特征。

融合感知模塊

前面提到了一個三位一體融合的概念,這也是 MANA 感知系統(tǒng)區(qū)別于其他感知系統(tǒng)的關(guān)鍵之處。正如毫末智行 CEO 顧維灝在 AI Day 上所說:目前大部分的感知系統(tǒng)都存在「時間上的感知不連續(xù)、空間上的感知碎片化」的問題。

圖片

MANA 系統(tǒng)的融合感知模塊

時間上的不連續(xù):是由于系統(tǒng)按照幀為單位進(jìn)行處理,而兩幀之間的時間間隔可能會有幾十毫秒,系統(tǒng)更多地關(guān)注單幀的處理結(jié)果,將時間上的融合作為后處理的步驟。

比如,采用單獨的物體跟蹤模塊將單幀的物體檢測結(jié)果串聯(lián)起來,這也是一種后融合策略,因此無法充分利用時序上的有用信息。

空間上的碎片化:是由多個同構(gòu)或異構(gòu)傳感器所在的不同空間坐標(biāo)系導(dǎo)致的。

對于同構(gòu)傳感器(比如多個攝像頭)來說,由于安裝位置和角度不同,導(dǎo)致其可視范圍(FOV)也不盡相同。每個傳感器的 FOV 都是有限的,需要把多個傳感器的數(shù)據(jù)融合在一起,才可以得到車身周圍 360 度的感知能力,這對于 L2 以上級別的自動駕駛系統(tǒng)來說是非常重要的。

對于異構(gòu)傳感器(比如攝像頭和激光雷達(dá))來說,由于數(shù)據(jù)采集的方式不同,不同傳感器得到的數(shù)據(jù)信息和形式都有很大差別。

攝像頭采集到的是圖像數(shù)據(jù),具有豐富的紋理和語義信息,適合用于物體分類和場景理解;而激光雷達(dá)采集到的是點云數(shù)據(jù),其空間位置信息非常精確,適合用于感知物體的三維信息和檢測障礙物。

如果系統(tǒng)對每個傳感器進(jìn)行單獨處理,并在處理結(jié)果上進(jìn)行后融合,那么就無法利用多個傳感器的數(shù)據(jù)中包含的互補信息。

如何解決這兩個問題呢?

答案是:用 Transformer 做空間和時間上的前融合。

先說空間的前融合

與 Transformer 在一般的視覺任務(wù)(比如圖像分類和物體檢測)中扮演的角色不同,Transformer 在空間前融合中的主要作用并不是提取特征,而是進(jìn)行坐標(biāo)系的變換。

這與特斯拉所采用的技術(shù)有異曲同工之處,但是毫末進(jìn)一步增加了激光雷達(dá),進(jìn)行多傳感器(跨模態(tài))的前融合,也就是圖 8 中的 Cross-Domain Association 模塊。

上面介紹了 Transformer 的基本工作原理,簡單來說就是 「計算輸入數(shù)據(jù)各個元素之間的相關(guān)性,利用該相關(guān)性進(jìn)行特征提取」。

坐標(biāo)系轉(zhuǎn)換也可以形式化為類似的流程。

比如,將來自多個攝像頭的圖像轉(zhuǎn)換到與激光雷達(dá)點云一致的三維空間坐標(biāo)系,那么系統(tǒng)需要做的是找到三維坐標(biāo)系中每個點與圖像像素的對應(yīng)關(guān)系。傳統(tǒng)的基于幾何變換的方法會將三維坐標(biāo)系中的一個點映射到圖像坐標(biāo)系中的一個點,并利用該圖像點周圍一個小的鄰域(比如 3x3 像素)來計算三維點的像素值。

而 Transformer 則會建立三維點到每個圖像點的聯(lián)系,并通過自注意力機制,也就是相關(guān)性計算來決定哪些圖像點會被用來進(jìn)行三維點的像素值。

如圖 9 所示,Transformer 首先編碼圖像特征,然后將其解碼到三維空間,而坐標(biāo)系變換已經(jīng)被嵌入到了自注意力的計算過程中。

這種思路打破的傳統(tǒng)方法中對鄰域的約束,算法可以看到場景中更大的范圍,通過對場景的理解來進(jìn)行坐標(biāo)變換。同時,坐標(biāo)變換的過程在神經(jīng)網(wǎng)絡(luò)中進(jìn)行,可以由后端所接的具體任務(wù)來自動調(diào)整變換的參數(shù)。

圖片

采用 Transformer 進(jìn)行圖像坐標(biāo)系到三維空間坐標(biāo)系的轉(zhuǎn)換 

因此,這個變換過程是完全由數(shù)據(jù)驅(qū)動的,也是任務(wù)相關(guān)的。在擁有超大數(shù)據(jù)集的前提下,基于 Transformer 來進(jìn)行空間坐標(biāo)系變換是完全可行的。

再說時間上的前融合

這個比空間上的前融合更容易理解一些,因為 Transformer 在設(shè)計之初就是為了處理時序數(shù)據(jù)的。

圖 8 中的 Feature Queue 就是空間融合模塊在時序上的輸出,可以理解為一個句子中的多個單詞,這樣就可以自然的采用 Transformer 來提取時序特征。相比特斯拉采用 RNN 來進(jìn)行時序融合的方案,Transformer 的方案特征提取能力更強,但是在運行效率上會低一些。

毫末的方案中也提到了 RNN,相信目前也在進(jìn)行兩種方案的對比,甚至是進(jìn)行某種程度的結(jié)合,以充分利用兩者的優(yōu)勢。

除此之外,由于激光雷達(dá)的加持,毫末采用了 SLAM 跟蹤以及光流算法,可以快速的完成自身定位和場景感知,更好的保證時序上的連貫性。

認(rèn)知模塊

除了感知模塊以外,毫末在認(rèn)知模塊,也就是路徑規(guī)劃部分也有一些特別的設(shè)計。

顧維灝在 AI Day 上介紹到,認(rèn)知模塊與感知模塊最大的不同在于,認(rèn)知模塊沒有確定的「尺子」來衡量其性能的優(yōu)劣,而且認(rèn)知模塊需要考慮的因素比較多,比如安全,舒適和高效,這無疑也增加了認(rèn)知模塊設(shè)計的難度。

針對這些問題,毫末的解決方案是場景數(shù)字化和大規(guī)模強化學(xué)習(xí)。

場景數(shù)字化,就是將行駛道路上的不同場景進(jìn)行參數(shù)化的表示。參數(shù)化的好處在于可以對場景進(jìn)行有效地分類,從而進(jìn)行差異化的處理。

按照不同的粒度,場景參數(shù)分為宏觀和微觀兩種:宏觀的場景參數(shù)包括天氣,光照,路況等;微觀的場景參數(shù)則刻畫了自車的行駛速度,與周圍障礙物的關(guān)系等。

圖片

MANA 系統(tǒng)中的宏觀場景聚類 


圖片

MANA 系統(tǒng)中的微觀場景(例子是跟車場景) 

在將各種場景數(shù)字化了以后,就可以采用人工智能的算法來進(jìn)行學(xué)習(xí)。一般情況下,強化學(xué)習(xí)是完成這個任務(wù)的一個比較好的選擇。

強化學(xué)習(xí)就是著名的 AlphaGo 中采用的方法,但是與圍棋不同,自動駕駛?cè)蝿?wù)的評價標(biāo)準(zhǔn)不是輸和贏,而是駕駛的合理性和安全性。

如何對每一次的駕駛行為進(jìn)行正確地評價,是認(rèn)知系統(tǒng)中強化學(xué)習(xí)算法設(shè)計的關(guān)鍵。毫末采取的策略是模擬人類司機的行為,這也是最快速有效的方法。

當(dāng)然,只有幾個司機的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,采用這種策略的基礎(chǔ)也是海量的人工駕駛數(shù)據(jù),而這恰恰又是毫末的優(yōu)勢所在,這就是基于長城汽車,毫末在智能駕駛系統(tǒng)上的交付能力會遠(yuǎn)遠(yuǎn)領(lǐng)先其他對手,而這背后的核心則是數(shù)據(jù)的收集能力,基于海量的數(shù)據(jù),毫末可以快速迭代算法交付覆蓋更多場景的自動駕駛系統(tǒng)。

寫在最后

隨著自動駕駛技術(shù)的快速發(fā)展和落地,越來越多的量產(chǎn)車型上開始搭載支持不同級別自動駕駛系統(tǒng)的軟件和硬件。在逐漸向商業(yè)化邁進(jìn)的同時,量產(chǎn)車型的規(guī)模效應(yīng)也可以為自動駕駛系統(tǒng)的迭代提供海量的數(shù)據(jù)支持。這也是業(yè)界普遍認(rèn)可的通向高階自動駕駛的必經(jīng)之路。

在這種背景下,擁有潛在數(shù)據(jù)優(yōu)勢的量產(chǎn)車的企業(yè)該如何切入,特斯拉和依托長城汽車的毫末智行率先給出了方案。兩者的方案既有宏觀的神似之處,也有很多具體策略上的差異,既體現(xiàn)了共識,也展現(xiàn)了個性。

共識之處在于,兩家公司都采用了 Transformer 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來提升在超大數(shù)據(jù)集上的學(xué)習(xí)能力,同時兩家公司也都認(rèn)為數(shù)據(jù)的采集和自動標(biāo)注是整個算法迭代的重要環(huán)節(jié),并為此進(jìn)行了巨大的投入。

個性方面,特斯拉采用純視覺的方案,而毫末采用視覺加激光雷達(dá)的方案。在激光雷達(dá)量產(chǎn)成本不斷降低的背景下,毫末的方案是具有發(fā)展?jié)摿Φ?。此外,毫末?Transformer 的應(yīng)用上更加深入。

除了融合空間信息以外,Transformer 在 MANA 系統(tǒng)中還被用來融合時序和多模態(tài)信息,將系統(tǒng)采集的各種離散數(shù)據(jù)統(tǒng)一起來,形成連貫的數(shù)據(jù)流,以更好地支持后端的不同應(yīng)用。

不管采用何種實現(xiàn)方案,特斯拉和毫末智行在海量數(shù)據(jù)上進(jìn)行的嘗試對于自動駕駛技術(shù)的發(fā)展和最終落地實現(xiàn)都是意義重大的。

也希望未來會有更多的企業(yè)加入進(jìn)來,嘗試更多不同的可能性,互通有無,互相學(xué)習(xí),甚至共享技術(shù)和數(shù)據(jù),讓自動駕駛能夠更好更快地為大眾服務(wù)。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
廣告
滬ICP備11026917號-25