日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

毫末智行的感知架構(gòu)演進(jìn):Transformer的應(yīng)用

2021-12-31 00:33:47·  來(lái)源:燃云汽車(chē)  
 
臨近歲末,毫末智行在自己的品牌AIDay技術(shù)活動(dòng)中,展示了比較完善的感知和規(guī)劃系統(tǒng)框架。尤其在感知系統(tǒng)的設(shè)計(jì)中,顯示出了對(duì)于應(yīng)用新技術(shù)的決心和信心。特別是
臨近歲末,毫末智行在自己的品牌AIDay技術(shù)活動(dòng)中,展示了比較完善的感知和規(guī)劃系統(tǒng)框架。尤其在感知系統(tǒng)的設(shè)計(jì)中,顯示出了對(duì)于應(yīng)用新技術(shù)的決心和信心。特別是其相對(duì)于7月份公布的感知體系設(shè)計(jì)中,已出現(xiàn)了較大幅度的變化,具體體現(xiàn)在對(duì)于Transformer技術(shù)的引進(jìn)和應(yīng)用上。這種在神經(jīng)網(wǎng)絡(luò)架構(gòu)技術(shù)上的進(jìn)步,符合當(dāng)今計(jì)算機(jī)視覺(jué)進(jìn)一步AI化的進(jìn)步趨勢(shì),值得行業(yè)關(guān)注。
 
另,毫末智行的AIDay技術(shù)展示活動(dòng),仿效TeslaAI Day,為產(chǎn)業(yè)內(nèi)同行提供了技術(shù)共享和交流的機(jī)會(huì),是非常值得鼓勵(lì)和推廣的。小編期待在新年度看到更多自動(dòng)駕駛企業(yè)站出來(lái)展示自己,豐富行業(yè)觀點(diǎn)、碰撞技術(shù)思想,百家爭(zhēng)鳴才能百尺竿頭。
 
今天提供一個(gè)分析,是關(guān)于毫末智行(HAOMO AI)的AI Day的。
 
國(guó)內(nèi)自動(dòng)駕駛產(chǎn)業(yè)內(nèi),似乎這是唯一一家能看到定期舉辦AI Day來(lái)向公眾推介自己自動(dòng)駕駛技術(shù)進(jìn)展的企業(yè)(小編:在小編看來(lái),自動(dòng)駕駛產(chǎn)業(yè)現(xiàn)在基本就是99%的AI技術(shù)產(chǎn)業(yè),自動(dòng)駕駛行業(yè)算是大規(guī)模奮戰(zhàn)在AI第一線的典型工業(yè)門(mén)類(lèi),而且連帶理論技術(shù)和工業(yè)現(xiàn)場(chǎng)控制,產(chǎn)業(yè)鏈條齊全、上下游完備且技術(shù)門(mén)派眾多,類(lèi)似推介活動(dòng)被稱(chēng)作AI Day簡(jiǎn)直再合適不過(guò)了)。小編也是在因?yàn)闇?zhǔn)備近期關(guān)于Tesla FSD beta應(yīng)用Transformer網(wǎng)絡(luò)技術(shù)的系列文章而檢索資料的過(guò)程中意外看到的,還正好是上周四(12月23日)的event新鮮出爐,像模像樣的。再往前看,今年七月份的時(shí)候毫末還有一次AI Day,只是那次的資料不太容易查得到。不管如何,小編對(duì)類(lèi)似活動(dòng)的舉辦表示贊賞,技術(shù)創(chuàng)始人往臺(tái)上一站侃侃而談,也透著足夠的樂(lè)觀和自信…..自信的企業(yè),未來(lái)總是可期的。
 
話不多說(shuō),我們主要關(guān)注的是毫末智行在其MANA(雪湖系統(tǒng))中感知系統(tǒng)的技術(shù)變化。

圖一【Haomo-1.png】來(lái)自Haomo AI Day主題演講視頻截圖,底圖URL https://www.bilibili.com/video/BV1ZY411H7dL?from=search&seid=9615227356111436131&spm_id_from=333.337.0.0 ;
 
按照Haomo創(chuàng)始人的說(shuō)法,這是今年七月份毫末智行所展示的感知系統(tǒng)框圖。繪制的有點(diǎn)怪異,因?yàn)檫@張框圖左半側(cè)的視覺(jué)camera部分是從上往下看的,而右半側(cè)的的lidar激光雷達(dá)部分是從下往上看的,有點(diǎn)擰巴。
 
先看左側(cè),從左上角的camera/單攝像頭(小編:毫末似乎是沒(méi)有使用雙目,而是標(biāo)準(zhǔn)的單目)開(kāi)始,數(shù)據(jù)數(shù)據(jù)被camera捕捉之后,經(jīng)過(guò)ISP(Image Signal Process)數(shù)字處理過(guò)程后,提供給后端的神經(jīng)網(wǎng)絡(luò)開(kāi)始使用。這里需要關(guān)注的是,一般的視覺(jué)感知過(guò)程中,不會(huì)特別提到ISP這個(gè)環(huán)節(jié),因?yàn)檫@是一個(gè)標(biāo)準(zhǔn)的圖像信號(hào)處理環(huán)節(jié),往往被內(nèi)置到Camera硬件內(nèi)部實(shí)現(xiàn)。單獨(dú)提出來(lái)作為一個(gè)環(huán)節(jié),很可能毫末的ISP里集成了更多的傳統(tǒng)ISP功能,比如動(dòng)態(tài)校準(zhǔn)——Dynamic Rectify功能。在Tesla的感知堆棧中,特別提到了這個(gè)環(huán)節(jié),我們?cè)谥瓣P(guān)于Tesla感知系統(tǒng)的分析中也提到過(guò):

圖二【Haomo-2.png】來(lái)自TeslaAI day主題演講視頻截圖,底圖URL https://www.youtube.com/watch?v=j0z4FweCy4M&t=4115s ;
 
在Tesla的camera之后的數(shù)據(jù),被送入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)RegNet之前,也需要經(jīng)歷這么一個(gè)特殊的校準(zhǔn)過(guò)程Rectify Layer。毫末創(chuàng)始人在這次AI Day上并未提及這個(gè)框架的細(xì)節(jié)(小編:因?yàn)樯洗蜛I Day已經(jīng)談過(guò)了),但對(duì)比Tesla的Karpathy,還是在Tesla夏天的那次AI Day上明確介紹了這一層Rectify Layer的具體功能:

圖三【Haomo-3.png】來(lái)自TeslaAI day主題演講視頻截圖,底圖URL https://www.youtube.com/watch?v=j0z4FweCy4M&t=4115s ;
 
感興趣的讀者可以去翻翻我們之前的技術(shù)文章,有過(guò)對(duì)于Tesla Rectify layer的專(zhuān)門(mén)講解。但今天放在這里只是對(duì)于毫末智行架構(gòu)中的ISP模塊的對(duì)照。簡(jiǎn)單說(shuō),相機(jī)是需要非常精細(xì)對(duì)待的傳感器。這種精細(xì)的對(duì)待不僅體現(xiàn)在攝像頭自身的品質(zhì)控制(所謂相機(jī)的內(nèi)參),還更多體現(xiàn)在攝像頭(小編:主要是外參)全生命周期內(nèi)的持續(xù)高水平維護(hù)上。這點(diǎn)上看Camera和Lidar并無(wú)二至。車(chē)輛十?dāng)?shù)年的行駛周期內(nèi),工況惡劣是常態(tài),如果不能持之以恒提供全生命周期的檢驗(yàn)和自我維護(hù)能力(小編:當(dāng)然是一定程度內(nèi)的自我維護(hù)能力),將大大降低出勤率和安全性,這是大忌。Tesla的做法比較典型。圖三中的上半部分顯示了Tesla數(shù)據(jù)中心對(duì)于整個(gè)Tesla fleet全部車(chē)輛的統(tǒng)計(jì)級(jí)別的規(guī)律把握。在針對(duì)相機(jī)受震動(dòng)、沖擊和風(fēng)吹日曬的各種工況下的滾動(dòng)roll、俯仰pitch和偏航y(tǒng)aw三個(gè)角度的統(tǒng)計(jì),反過(guò)來(lái)可以指導(dǎo)每一輛具體的物理車(chē)輛進(jìn)行自主的攝像頭camera外參校準(zhǔn)。這個(gè)校準(zhǔn)過(guò)程并不需要在通常意義下所必須存在的camera校準(zhǔn)源尺度(小編:比如那種校準(zhǔn)黑白色格圖案),而依賴(lài)車(chē)隊(duì)提供的統(tǒng)計(jì)結(jié)果即可完成校準(zhǔn)過(guò)程。校準(zhǔn)通常是電子化的,目標(biāo)是盡可能讓camera的成像最有利區(qū)域,嚴(yán)格指向預(yù)定義的camera朝向。在小編看來(lái),還是一種很新穎的實(shí)施落地方案。
圖四【Haomo-5.png】來(lái)自知乎@熊貓之吻的問(wèn)題回答截圖,顯示了Tesla車(chē)輛在產(chǎn)線上的camera外參校準(zhǔn)過(guò)程,URL https://www.zhihu.com/question/363389702?sort=created ;
 
考慮到毫末智行和Tesla都依賴(lài)單目攝像頭的視覺(jué)系統(tǒng),因此對(duì)于攝像頭的全生命周期內(nèi)的光學(xué)-電子成像的聯(lián)合校準(zhǔn)過(guò)程就顯得尤為必要了。因此也許,毫末的ISP過(guò)程,除去傳統(tǒng)的ISP功能之外(小編:通常是對(duì)于成像的曝光、色彩、白平衡等參數(shù)的調(diào)整),也涵蓋校準(zhǔn)過(guò)程。
 
ISP過(guò)程之后,視覺(jué)數(shù)據(jù)被送入Backbone,毫末智行稱(chēng)其為“DarkNet”。從圖示看,應(yīng)該是標(biāo)準(zhǔn)的CNN ResNet(殘差網(wǎng)絡(luò)),具體結(jié)構(gòu)不詳,這里的ResNet下到底用了多少層沒(méi)提。但Backbone的輸出能力還是應(yīng)該符合CNN backbone的基本原則:Backbone通過(guò)CNN的視覺(jué)處理方法,為上層的Task和Head應(yīng)用提供足夠豐富的圖像特征庫(kù)Feature lib,以供后續(xù)處理。
 
后續(xù)處理被分為三個(gè)大的類(lèi)別:
 
1 Global Tasks:全局任務(wù);
 
2 Road Tasks:道路相關(guān)識(shí)別任務(wù);
 
3 Object Tasks:目標(biāo)相關(guān)識(shí)別任務(wù);
 
分為這三類(lèi)是因?yàn)檫@三類(lèi)任務(wù)在各自內(nèi)部的子任務(wù)上,具備一定的共性,因此而設(shè)計(jì)出類(lèi)似的層疊復(fù)用結(jié)構(gòu),讓各自最終的子任務(wù)Head,能實(shí)現(xiàn)盡可能的計(jì)算算力資源復(fù)用、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)用和數(shù)據(jù)獲取及訓(xùn)練方法的復(fù)用。從這個(gè)角度看,這種設(shè)計(jì)和Tesla的HydraNet架構(gòu)思路一致。
 
毫末智行有特色的地方在于,專(zhuān)門(mén)為Global全局的視覺(jué)場(chǎng)識(shí)別,設(shè)定了一個(gè)獨(dú)立的Neck——Head結(jié)構(gòu),獨(dú)立于Road和Object的識(shí)別子任務(wù)。這個(gè)新想法還是比較獨(dú)特的,至少小編沒(méi)有在Tesla的FSD中看到過(guò)類(lèi)似任務(wù)的存在。從結(jié)構(gòu)圖圖示看,Global task應(yīng)該是專(zhuān)門(mén)針對(duì)開(kāi)放空間、可行駛區(qū)域和障礙物的整體識(shí)別。小編推測(cè),他不會(huì)去區(qū)別具體障礙物是什么,也不會(huì)區(qū)別道路結(jié)構(gòu);而只是識(shí)別是否有視覺(jué)上的障礙物,和是否前方為free space……這個(gè)獨(dú)立任務(wù)結(jié)構(gòu)的存在,可以一定程度上避免視覺(jué)系統(tǒng)常犯的錯(cuò)誤:我沒(méi)看到過(guò)的就不存在。
 
當(dāng)然,Tesla目前有比較成型的、針對(duì)voxel體素的視覺(jué)感知機(jī)制,作用差不多。
 
另外一個(gè)完全獨(dú)立的存在是Lidar識(shí)別堆棧,小編這里就不展開(kāi)講了。典型地,在Lidar所感知的pillar數(shù)據(jù)結(jié)構(gòu)上,進(jìn)行2DCNN backbone處理并形成BEV俯視圖。在BEV的基準(zhǔn)上,完成指定Head的后處理(小編:至于是哪些子任務(wù),框圖上字太模糊了,看不清楚)。應(yīng)該特別關(guān)注的是,毫末智行在這一版本的識(shí)別堆棧中,Camera的純視覺(jué)和Lidar的純激光感知,在各自的識(shí)別結(jié)果出來(lái)之前是完全各自獨(dú)立的。圖1所示的技術(shù)框圖中,兩個(gè)堆棧完全各自獨(dú)立,沒(méi)有交集和融合,也就是沒(méi)有所謂的前融合技術(shù)。這個(gè)思路和Mobileye的思路一致,好處是:兩個(gè)系統(tǒng)各自獨(dú)立的實(shí)際后果是可以給對(duì)方提供備份能力,這也是Mobileye所強(qiáng)調(diào)的;壞處是:沒(méi)辦法發(fā)揮Lidar和camera這兩種異構(gòu)傳感器互補(bǔ)的性質(zhì),不能從raw data上聯(lián)合地提取最有價(jià)值的融合信息。
 
雖然圖一的識(shí)別框圖上沒(méi)有顯示,但后端融合的過(guò)程還是必然存在的,camera的視覺(jué)識(shí)別結(jié)果因?yàn)樾畔⒑穸雀?,而lidar的測(cè)距能力更強(qiáng),在各自的識(shí)別結(jié)果上做后融合也是相當(dāng)不錯(cuò)的選擇。這也是Tesla FSD可望不可及的能力。
 
根據(jù)毫末智行創(chuàng)始人在AI Day上的介紹,迄今為止的架構(gòu)設(shè)計(jì)上,還是存在問(wèn)題需要克服。最關(guān)鍵的問(wèn)題在于,現(xiàn)有識(shí)別系統(tǒng)存在“時(shí)間上的感知不連續(xù)、空間上的感知碎片化”的問(wèn)題。具體解釋為:Camera和Lidar的識(shí)別,都是以時(shí)間上斷續(xù)的frame為單元來(lái)實(shí)施的,并未設(shè)計(jì)跨越時(shí)間尺度的、frame by frame的時(shí)域網(wǎng)絡(luò)來(lái)處理這個(gè)問(wèn)題;而空間上的感知碎片化則意味著,車(chē)身四周的Lidar、camera由于角度安裝的多個(gè)傳感器實(shí)體,無(wú)法實(shí)現(xiàn)空間域內(nèi)的連續(xù)覆蓋和統(tǒng)一識(shí)別。直接結(jié)果就是造成一個(gè)超長(zhǎng)或者超尺寸的物體被多個(gè)傳感器捕捉,從而被錯(cuò)誤識(shí)別為多個(gè)目標(biāo)的現(xiàn)象(小編:這個(gè)問(wèn)題在早期的Autopilot上也普遍存在,直到Autopilot的3D化)。如果要脫離固定場(chǎng)景內(nèi)(小編:例如高速公路)的ADAS級(jí)別的自動(dòng)駕駛能力限定,讓自動(dòng)駕駛車(chē)輛活躍于更大的空間,則需要提供全時(shí)、全傳感器的整體識(shí)別能力建設(shè),這個(gè)目標(biāo)大家都是一致的。Elon Musk在2020年吹了一整
年的Autopilot-3d識(shí)別就是這個(gè)意思。
 
但實(shí)際上毫末創(chuàng)始人所提到的這兩個(gè)問(wèn)題,實(shí)際并非毫末在新架構(gòu)中引入Transformer技術(shù)所要解決的問(wèn)題范疇,這也是小編最關(guān)注的問(wèn)題。Transformer在毫末MANA感知堆棧中,實(shí)際另有他用。
圖五【Haomo-4.png】來(lái)自Haomo AI Day主題演講視頻截圖,底圖URL https://www.bilibili.com/video/BV1ZY411H7dL?from=search&seid=9615227356111436131&spm_id_from=333.337.0.0 ;
 
上圖5呈現(xiàn)了當(dāng)前MANA感知架構(gòu)的基本結(jié)構(gòu),已經(jīng)表現(xiàn)出和上一版本圖1所展現(xiàn)的camera/lidar各自為戰(zhàn)框架的重大改進(jìn)。如果從呼應(yīng)毫末智行創(chuàng)始人表述的“時(shí)間上的感知不連續(xù)、空間上的感知碎片化”的問(wèn)題為出發(fā)點(diǎn),那么上圖5框架中的“Feature queue”和“Temporal-spatial fusion”兩個(gè)層面的模塊(小編:從下往上的第2層和第3層),則對(duì)應(yīng)解決時(shí)間上不連續(xù)、空間上碎片化的感知痼疾問(wèn)題;如果讀者愿意從更關(guān)鍵的、更深層次的角度去思考如何克服毫末智行上一代的視覺(jué)camera和雷達(dá)Lidar各自為戰(zhàn)、且效率相對(duì)不佳的后融合策略這個(gè)問(wèn)題的角度出發(fā),我們就更應(yīng)該關(guān)注毫末在最底層——Cross-domain association Layer的設(shè)計(jì)。
 
雖然毫末創(chuàng)始人在這一塊的講解很簡(jiǎn)略,圖5感知堆棧中對(duì)這一底層部分的刻畫(huà)也是寥寥,但實(shí)際上發(fā)生在這一步上的變化,至少?gòu)男【幍囊暯莵?lái)看,是一個(gè)比較徹底的變化。

圖六【Haomo-6.png】來(lái)自Haomo AI Day主題演講視頻截圖,底圖URL https://www.bilibili.com/video/BV1ZY411H7dL?from=search&seid=9615227356111436131&spm_id_from=333.337.0.0 ;
 
嚴(yán)格上講,雖然Tesla在FSDbeta中確實(shí)是創(chuàng)新性地部署了Transformer network,但實(shí)際上在FSD的應(yīng)用中,Transformer的作用非常有限。其只是利用了Transformer技術(shù)在對(duì)于圖像信息(小編:指針對(duì)camera提供的投影信息)進(jìn)行“自注意力/Self Attention”全畫(huà)幅關(guān)系的捕捉和跨視角圖像信息(小編:指針對(duì)camera投影信息和計(jì)算出來(lái)的BEV俯視信息)之間視角轉(zhuǎn)換所必須的“互注意力/Cross Attention”關(guān)系的刻畫(huà)和轉(zhuǎn)化。
 
讀者可能會(huì)覺(jué)得拗口和難理解,但實(shí)際這就是Transformer的精髓:在Tesla的FSD內(nèi)部,它就干了這兩件事兒,對(duì)于投影像素平面的“刻畫(huà)”、以及對(duì)于投影平面和BEV平面之間的“轉(zhuǎn)化”。
 
但對(duì)于毫末智行來(lái)說(shuō),至少毫末這位技術(shù)創(chuàng)始人在AI Day上所描述的,Transformer不僅僅完成了對(duì)于純視覺(jué)信息的BEV的視場(chǎng)角度轉(zhuǎn)化,而且完成了camera和lidar之間異構(gòu)但互補(bǔ)的傳感器信息的融合,即所謂的跨模態(tài)raw data的融合工作。當(dāng)然在圖6中是看不出這種跨模態(tài)的融合具體是如何完成的,但大致上的流程應(yīng)該如下:
 
第一步,將camera視覺(jué)數(shù)據(jù)做CNN的backbone處理,經(jīng)由Resnet提取視覺(jué)數(shù)據(jù)的feature;同時(shí)在lidar數(shù)據(jù)通道將激光雷達(dá)所捕獲的pillar數(shù)據(jù)進(jìn)行處理并同樣送入backbone CNN進(jìn)行2D特征提?。ㄐ【帲鹤⒁夂蚦amera的差別是,Lidar可以一步到位到BEV俯視圖角度的feature輸出);
 
第二步,將視覺(jué)數(shù)據(jù)的2D投影平面的處理結(jié)果送入Transformer,一個(gè)是進(jìn)行視角轉(zhuǎn)換操作,另一個(gè)是進(jìn)行多攝像頭數(shù)據(jù)縫合,輸出一張BEV俯視圖,并攜帶關(guān)鍵特征和語(yǔ)義識(shí)別結(jié)果;
 
第三步,在BEV俯視圖基準(zhǔn)內(nèi),將Lidar特征數(shù)據(jù)和camera特征數(shù)據(jù)進(jìn)行融合。具體融合策略不詳。
 
其實(shí)這其中最關(guān)鍵的就是第三步,由于框圖所攜帶的信息過(guò)于粗略(小編:注意看上圖6,實(shí)際上這里并沒(méi)有解釋清楚Lidar數(shù)據(jù)是如何和camera的視覺(jué)數(shù)據(jù)產(chǎn)生融合的,而只是描述出和視覺(jué)輸出特征共同構(gòu)成向上的張量,這里面的門(mén)道和選擇可就多了),我們并不清楚這個(gè)融合過(guò)程和Transformer技術(shù)之間的具體關(guān)系。雖然理論上Transformer確實(shí)可以執(zhí)行跨模態(tài)的特征融合,但在毫末架構(gòu)中是否利用了這個(gè)特性并無(wú)實(shí)際證據(jù)。因此,基于合理的猜測(cè),也只能是猜測(cè):可能毫末對(duì)于Transformer的采用也僅限于對(duì)于視覺(jué)信息的視場(chǎng)轉(zhuǎn)換任務(wù)和多攝像頭縫合等類(lèi)似任務(wù)(小編:by Cross-Attention的transformer結(jié)構(gòu),關(guān)于這方面的資料可以參考車(chē)右智能正在續(xù)寫(xiě)的的公眾號(hào)系列文章,討論Tesla FSD beta的transformer實(shí)現(xiàn));也可能在此transformer的應(yīng)用之外,毫末還利用了對(duì)于lidar+video融合數(shù)據(jù)的自注意力能力/Self-Attention來(lái)獲取真正的融合,從而提升感知任務(wù)的能力……都有可能,前者居多。
 
小編在此特意翻了一篇相關(guān)論文《Multi-model fusion transformer for end-to-end autonomous driving》(德國(guó)),以其架構(gòu)為例,來(lái)解釋一下什么是跨模態(tài)數(shù)據(jù)融合。

 
圖七【Haomo-7.png】來(lái)自論文《Multi-model fusion transformer for end-to-end autonomous driving》的插圖,URL:https://arxiv.org/pdf/2104.09224.pdf;
 
圖7所示,主車(chē)的傳感器Lidar感受到了路口左側(cè)的車(chē)輛群落,并且是精確感知(高置信度)。而傳感器Camera感知到了右側(cè)指示垂直車(chē)道的交通信號(hào)燈系統(tǒng)顯示為綠色,并且是語(yǔ)義級(jí)別的感知。因此,主車(chē)(綠色)如何將左右兩側(cè)的異構(gòu)傳感器獲取的數(shù)據(jù)做一個(gè)全局感知,就是自己決策的關(guān)鍵輸入??梢钥紤]一個(gè)極端場(chǎng)景,車(chē)輛左側(cè)攝像頭受到遮擋而無(wú)法看到紅色車(chē)流,而lidar又天然無(wú)法檢測(cè)紅綠燈狀態(tài),如果此刻前方紅綠燈要處于故障狀態(tài)……那么,論文中所設(shè)計(jì)的TransFuser就是用于此種場(chǎng)景的。
 
Transformer用于幾何特征投影之間的轉(zhuǎn)換,從投影視角到BEV俯視視角的轉(zhuǎn)化工作當(dāng)然是不錯(cuò)的,但顯然沒(méi)能發(fā)揮Attention注意力的要旨。更高級(jí)別地使用Transformer的注意力機(jī)制將關(guān)于3D場(chǎng)景的全局上下文推理直接集成到不同模態(tài)的特征提取層中??紤]互補(bǔ)的單攝像頭的視圖圖像和 Lidar 輸入,重點(diǎn)就是集成來(lái)自不同類(lèi)型模態(tài)的表示。論文將生成的模型稱(chēng)為 TransFuser,并將其集成到專(zhuān)為端到端駕駛設(shè)計(jì)的自回歸路點(diǎn)預(yù)測(cè)框架中。

 
圖八【Haomo-8.png】來(lái)自論文《Multi-model fusion transformer for end-to-end autonomous driving》的插圖,URL:https://arxiv.org/pdf/2104.09224.pdf;
 
圖8就是Transfuser的系統(tǒng)架構(gòu),可以看到Lidar和camera的信息被采集后,分別在各自的管道內(nèi)利用ResNet-34/ResNet-18進(jìn)行分步驟地特征提取操作,但在各自特征feature不斷增加的流程中,將二者特征進(jìn)行Transformer的自注意力圖譜提?。ㄐ【帲荷蠄D的右上角展示了這個(gè)細(xì)分的過(guò)程),這是跨越全局Lidar感受和camera感受圖幅尺度的,這是掌握異構(gòu)數(shù)據(jù)下,共性的全局自注意力信息的合理方法。只要有良好的訓(xùn)練數(shù)據(jù),主車(chē)會(huì)學(xué)習(xí)到兼顧讀取不同傳感器送上來(lái)的有效數(shù)據(jù),并作出類(lèi)人甚至超人的最終路徑規(guī)劃和決策。
 
圖8架構(gòu)中后續(xù)還涉及了路徑規(guī)劃和控制過(guò)程,屬于端到端的神經(jīng)網(wǎng)絡(luò)。當(dāng)然后半部分不是我們現(xiàn)在所關(guān)心的,就不費(fèi)筆墨了。當(dāng)然因?yàn)槭嵌说蕉?,所以Lidar和camera最終到底學(xué)習(xí)到一個(gè)什么樣的全局注意力圖譜?我們是不清楚的,也沒(méi)必要,因?yàn)樗皇莻€(gè)中間過(guò)程而非最終結(jié)果。但Transfuser論文中的這個(gè)從傳感器raw data到路徑規(guī)劃結(jié)果甚至方向油門(mén)輸出的end-to-end架構(gòu)尤其不可避免的缺陷,是一旦主車(chē)操控異動(dòng)有悖常理甚至對(duì)行車(chē)安全構(gòu)成危害,我們也不知道他到底是因?yàn)榭吹搅耸裁床艜?huì)如此操作的(小編:因?yàn)槎说蕉薳nd-to-end神經(jīng)網(wǎng)絡(luò)的不可解釋性決定)。
 
毫末智行對(duì)于Transformer部署的第一步不管是在何種程度上利用了自注意力和交互注意力的特性,都是邁向前方的一大步。雖然今年以來(lái)MLP多層感知技術(shù)再次浮出水面并洄游計(jì)算機(jī)視覺(jué)領(lǐng)域,但Transformer的技術(shù)優(yōu)勢(shì),尤其是跨模態(tài)融合識(shí)別,依然是有吸引力并且值得在落地技術(shù)中嘗試部署的。

圖九【Haomo-11.png】來(lái)自Haomo AI Day主題演講和Tesla AI Day主題演講的視頻截圖拼圖,底圖URL https://www.bilibili.com/video/BV1ZY411H7dLfrom=search&seid=9615227356111436131&spm_id_from=333.337.0.0 ;
 
回到關(guān)于如何破解“時(shí)間上的碎片化和物理空間上的不連續(xù)”的感知難題,其實(shí)如果對(duì)比毫末智行和Tesla FSD感知系統(tǒng)的實(shí)現(xiàn)方法,你就會(huì)發(fā)現(xiàn)其實(shí)大家的思路差不多的(小編:注意,這些架構(gòu)設(shè)計(jì)都是公開(kāi)的,源算法很多也都是公開(kāi)的甚至本身就是開(kāi)源算法,這方面不存在商業(yè)或者技術(shù)秘密可言。但就算在此基礎(chǔ)上,能徹底解決自動(dòng)駕駛的感知問(wèn)題,或者取得任何有效的進(jìn)展,都是客觀的技術(shù)進(jìn)步,對(duì)產(chǎn)業(yè)有義)。
 
圖9中,毫末架構(gòu)的feature queue層解決的是時(shí)間上的延續(xù)性問(wèn)題,利用queue隊(duì)列將時(shí)間上連續(xù)的特征放入RNN的識(shí)別隊(duì)列,進(jìn)行一定時(shí)間尺度上的連續(xù)識(shí)別,這也符合RNN的特性。Tesla也是這么實(shí)現(xiàn)的。另外一個(gè)尺度是地理尺度上的連續(xù)識(shí)別,有助于自動(dòng)駕駛系統(tǒng)對(duì)于一些特別場(chǎng)景的理解(小編:比如Tesla提到過(guò)的,車(chē)輛在駛?cè)朕D(zhuǎn)彎車(chē)道之前,地面那個(gè)轉(zhuǎn)彎符號(hào)可能在路口主車(chē)真正執(zhí)行轉(zhuǎn)彎之前100米的地理位置上,這就需要地理尺度上的識(shí)別也要有連續(xù)性)。這里面可以觀察到毫末和Tesla的識(shí)別方法的區(qū)別了:
 
?  Tesla的方案是利用引入IMU來(lái)在毫秒ms尺度上測(cè)量車(chē)身連續(xù)的相對(duì)位置變化,從而構(gòu)造出地理尺度上的連續(xù)感;具體應(yīng)該是每27ms做一次車(chē)身位置測(cè)量并記錄周?chē)拔锏母兄卣魅霂?kù),庫(kù)的大小大概為8-10個(gè)27ms這個(gè)水平;
 
Haomo的方案是利用更好的Lidar手段來(lái)實(shí)現(xiàn)tracking,還有optical flow光流加持。因?yàn)長(zhǎng)idar對(duì)于周邊景物的感知結(jié)果同樣可以在毫秒ms尺度上同時(shí)完成快速自身定位和景物特征感知,因此也可以實(shí)現(xiàn)在地理尺度上的連續(xù)感。也許這個(gè)方法精度更高,因?yàn)閭€(gè)人感覺(jué),車(chē)載IMU的性能到底如何了還不清楚,反正手機(jī)上的是一塌糊涂的;
 
最后再插一個(gè)對(duì)于MANA認(rèn)知系統(tǒng)上的理解吧,毫末這里對(duì)于認(rèn)知部分的定義相當(dāng)于傳統(tǒng)架構(gòu)中的“路徑規(guī)劃”算法部分,感覺(jué)還是可以談一下:

圖十【Haomo-9.png】來(lái)自Haomo AI Day主題演講視頻截圖,底圖URL https://www.bilibili.com/video/BV1ZY411H7dL?from=search&seid=9615227356111436131&spm_id_from=333.337.0.0 ;
 
圖10顯示了毫末對(duì)于場(chǎng)景的分類(lèi)方法,其核心的地方應(yīng)該在于上圖中的橫縱坐標(biāo)的單位和物理含義。掌握大量的數(shù)據(jù)其實(shí)不難,但要合理和充分地利用這些數(shù)據(jù),并在數(shù)據(jù)中挖掘有價(jià)值的部分實(shí)現(xiàn)針對(duì)性利用,從而控制資源的消耗,就很難了。這里這個(gè)對(duì)于場(chǎng)景的分類(lèi)方法,是合理利用這些數(shù)據(jù)(小編:圖中的哪些點(diǎn)代表每一次駕駛的場(chǎng)景特性)的前提。小編猜想這是兩個(gè)維度的場(chǎng)景特性描述,比如橫坐標(biāo)是路程耗時(shí)時(shí)長(zhǎng)或者速度等時(shí)域相關(guān)的指標(biāo),縱坐標(biāo)是對(duì)于天氣和路況特性的一種衡量指標(biāo)。兩個(gè)指標(biāo)都經(jīng)過(guò)未知的算法換算,從而充分表達(dá)出在固定地理區(qū)域內(nèi),場(chǎng)景的多樣性和“可總結(jié)性”。
 
此時(shí)通過(guò)合理的聚類(lèi)方法,就可以選出有代表性的場(chǎng)景來(lái)了。這是邁向合理場(chǎng)景分類(lèi)的第一步。按照毫末后續(xù)的介紹,也是提供給后面各種訓(xùn)練方法的場(chǎng)景依據(jù)。
 
總得看,毫末的新架構(gòu)調(diào)整確實(shí)有不少新東西,我們也期待能看到更多的自動(dòng)駕駛廠家以此為標(biāo)桿,能向產(chǎn)業(yè)show出更多干貨,互通有無(wú),共同前進(jìn)。
 
另:毫末智行AI Day的視頻回顧在B站上有完整記錄,有興趣的讀者可以移步觀摩:https://www.bilibili.com/video/BV1ZY411H7dL?from=search&seid=9615227356111436131&spm_id_from=333.337.0.0。
 
 
備注:
1 題圖文件,來(lái)自互聯(lián)網(wǎng),URL:https://www.blickfeld.com/blog/lidar-in-drones/ ;
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25