國內(nèi)外6家企業(yè)智駕方案（端到端架構(gòu)）對比

2024-06-07 18:21:04· 來源：汽車視界研究

引言：當(dāng)前已經(jīng)量產(chǎn)的自動駕駛解決方案主要是以模塊化的架構(gòu)為主?，F(xiàn)階段使用較多的自動駕駛的模塊化算法解決方案是將自動駕駛?cè)蝿?wù)拆解成多個不同的模塊，然后將對應(yīng)的任務(wù)交給專門的模塊進(jìn)行處理。完整的模塊化架構(gòu)通常會包括：感知、定位、決策、路徑規(guī)劃和控制。

而端到端架構(gòu)通過減少中間環(huán)節(jié)，將自動駕駛多個模塊整合成了一個模塊，自動駕駛也進(jìn)入了數(shù)據(jù)驅(qū)動的下一階段。

一、Tesla

特斯拉的端到端架構(gòu)是自動駕駛領(lǐng)域的一個典型應(yīng)用。Tesla的Autopilot和FSD（全自動駕駛）系統(tǒng)是業(yè)界領(lǐng)先的自動駕駛技術(shù)之一，利用了深度學(xué)習(xí)和人工智能技術(shù)，通過數(shù)據(jù)驅(qū)動實現(xiàn)了車輛的自主導(dǎo)航、控制和決策，特斯拉實現(xiàn)端到端架構(gòu)經(jīng)歷了以下歷程。

（1）2019年，發(fā)布“影子模式”。

影子模式是Tesla獲取真實駕駛數(shù)據(jù)的核心。Tesla的車輛在行駛過程中（或所有狀態(tài)下），傳感器會持續(xù)對決策算法進(jìn)行驗證——系統(tǒng)的算法在“影子模式”下做持續(xù)模擬決策，并且把決策與駕駛員的行為進(jìn)行對比。兩者一致的數(shù)據(jù)不會有什么處理（目的是大幅縮小計算中心存儲需求），一旦兩者對比不一致，該場景便被判定為“極端工況”，進(jìn)而觸發(fā)數(shù)據(jù)回傳。

（2）2020年，自研數(shù)據(jù)自動標(biāo)注。

在車輛行駛過程中，攝像頭收集的路面信息，打包上傳到服務(wù)器的離線神經(jīng)網(wǎng)絡(luò)大模型，由大模型進(jìn)行預(yù)測性標(biāo)注，再反饋給車端各個傳感器，當(dāng)預(yù)測的標(biāo)注結(jié)果在8個傳感器均呈現(xiàn)一致時，則這一標(biāo)注成功。

前文說到Tesla特通過影子模式搜集的數(shù)據(jù)，經(jīng)過清洗和標(biāo)注（自動標(biāo)注+人工標(biāo)注），與仿真數(shù)據(jù)共同構(gòu)建訓(xùn)練集。訓(xùn)練集也用于車載模型的訓(xùn)練，完成之后更新到車上；以此往復(fù)，完成數(shù)據(jù)閉環(huán)（Tesla是最早實現(xiàn)數(shù)據(jù)閉環(huán)的車企）。

（3）2020年，引入BEV+Transformer架構(gòu)，后引入時序信息。

Tesla認(rèn)為采集的2D圖像需要升維才能實現(xiàn)自動駕駛，而BEV（鳥瞰圖）可以實現(xiàn)。因此引入大模型Transformer進(jìn)行升維，實現(xiàn)將2D圖像轉(zhuǎn)換成BEV視角，形成車輛自身坐標(biāo)系。BEV使得自動駕駛從決策層融合向特征級融合方向邁進(jìn)，提升決策精準(zhǔn)度且降低計算量。之后Tesla引入時空序列特征層，為自動駕駛增添短時記憶功能，從而具有推演能力，提升系統(tǒng)安全性。

（4）2021年，引入HydraNet神經(jīng)網(wǎng)絡(luò)架構(gòu)

Tesla的HydraNet采用了先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)，如RegNet和BiFPN的組合，這些算法在圖像識別領(lǐng)域表現(xiàn)出色，有助于提高物體識別的準(zhǔn)確性。

HydraNet支持端到端的優(yōu)化，意味著從輸入到輸出的整個過程可以作為一個整體進(jìn)行訓(xùn)練和推理，有助于提高自動駕駛系統(tǒng)的整體性能和響應(yīng)速度。HydraNet能夠同時處理多個任務(wù)，如物體檢測、車道識別、交通信號識別等，通過共享特征提取網(wǎng)絡(luò)，提高效率并減少計算資源的消耗。

（5）2022年，引入占用網(wǎng)絡(luò)Occupancy Network。

對感知模塊進(jìn)行了改進(jìn)，將原本的BEV空間，分割成無數(shù)的體素（微小立方體），再通過預(yù)測每個體素是是否被占用。此時算法決策時不考慮這個物體到底是什么，只需要考慮體素是否被占用，從而簡化了算法邏輯，提升決策精確性。在原有的BEV基礎(chǔ)上，補(bǔ)充了①物體高度識別、②未經(jīng)標(biāo)注的障礙物的識別。

（6）實現(xiàn)端到端架構(gòu)（不再寫規(guī)則，感知決策一體化端到端架構(gòu)，直接輸出控制）

2024年，TeslaFSDv12（FSDv12.1.2）開始正式向用戶推送，將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡(luò)。

端到端技術(shù)方案基于深度神經(jīng)網(wǎng)絡(luò)，通過攝像頭采集駕駛場景的信息，將其作為深度卷積神經(jīng)網(wǎng)絡(luò)模型的輸入，再不斷對網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，得到學(xué)習(xí)好的網(wǎng)絡(luò)參數(shù)，從而對智能車方向盤轉(zhuǎn)角進(jìn)行預(yù)測。

Tesla從當(dāng)前架構(gòu)過渡到端到端深度學(xué)習(xí)系統(tǒng)，過渡的關(guān)鍵是將規(guī)劃器改造為完全使用深度學(xué)習(xí)，并使用聯(lián)合損失函數(shù)進(jìn)行訓(xùn)練。過渡后的系統(tǒng)將采用端到端學(xué)習(xí)，消除手動規(guī)則和代碼，并允許模型在未知場景中更好地泛化。

端到端大模型對海量駕駛視頻片段壓縮，類比于大語言模型的生成式GPT，將互聯(lián)網(wǎng)級別的數(shù)據(jù)壓縮到了端到端神經(jīng)網(wǎng)絡(luò)的參數(shù)里，實現(xiàn)了駕駛知識的高效儲存和應(yīng)用全棧神經(jīng)網(wǎng)絡(luò)化的FSD是軟件2.0時代的產(chǎn)物，完全基于數(shù)據(jù)驅(qū)動。訓(xùn)練數(shù)據(jù)的質(zhì)量和規(guī)模成為決定端到端神經(jīng)網(wǎng)絡(luò)性能表現(xiàn)的關(guān)鍵因素。端到端架構(gòu)的核心是數(shù)據(jù)，上文已經(jīng)介紹了特斯拉在數(shù)據(jù)方面的優(yōu)勢。

特斯拉創(chuàng)始人馬斯克首次展示 FSD V12時有一個關(guān)鍵內(nèi)容：V12消除了30萬行C++代碼，V12中是純粹的神經(jīng)網(wǎng)絡(luò)，實現(xiàn)了輸入光子、輸出執(zhí)行命令的完全端（感知）到端（執(zhí)行）。

二、Wayve

英國自動駕駛初創(chuàng)公司W(wǎng)ayve在當(dāng)?shù)貢r間2024年5月7日表示，已完成10.5億美元的融資。其中軟銀集團(tuán)（SoftBank Group）、英偉達(dá)（NVIDIA）和微軟（Microsoft）參與了Wayve的C輪融資。

Wayve利用多模態(tài)大模型生成數(shù)據(jù)賦能端到端。Wayve的端到端方案，引入了多模態(tài)大模型GAIA-1(“自主生成AI”)，一種生成世界模型。它利用視頻、文本和動作輸入來生成逼真的駕駛場景，同時提供對車輛行為和場景特征的顆粒度控制。具體而言，將世界建模視為一個無監(jiān)督序列建模問題，通過將輸入映射到離散標(biāo)記，并預(yù)測序列中的下一個標(biāo)記。模型中出現(xiàn)的特性包括學(xué)習(xí)高級結(jié)構(gòu)和場景動態(tài)、上下文意識、泛化和對幾何的理解。

GAIA-1的學(xué)習(xí)表征能力捕獲了對未來事件的預(yù)測，結(jié)合其生成真實樣本的能力，增強(qiáng)和加速了自動駕駛技術(shù)的訓(xùn)練。GAIA-1允許視頻、文本和動作作為提示來生成多樣化和逼真的駕駛場景。Wayve通過在真實世界的英國城市駕駛數(shù)據(jù)的大型語料庫上進(jìn)行訓(xùn)練GAIA-1，其學(xué)會理解和理清重要的概念，如靜態(tài)和動態(tài)元素，包括汽車、公共汽車、行人、騎自行車的人、道路布局、建筑物，甚至交通燈。此外，它還通過動作和語言條件反射提供了對自我車輛行為和其他場景特征的細(xì)粒度控制。下圖是GAIA-1多模態(tài)視頻生成。

Wayve的訓(xùn)練數(shù)據(jù)集包含 2019-2023年間在英國倫敦收集的4,700小時、25Hz的專有駕駛數(shù)據(jù)。這對應(yīng)于大約4.2億張獨特圖像，這是一個海量的圖片數(shù)據(jù)，但對視頻數(shù)據(jù)而言還是微不足道。但Wayve的智駕方案核心在于它可以自己生成海量的近似人工標(biāo)注的視頻數(shù)據(jù)且成本極低，這些數(shù)據(jù)可以模擬各種近乎真實的場景，然后用這些數(shù)據(jù)進(jìn)行端到端訓(xùn)練。

雖然Tesla的影子模式也可以獲得海量的低成本近似于人工標(biāo)注的視頻數(shù)據(jù)，單實際上并非如此，馬斯克在最近的訪談也稱所謂影子模式拿到的圖像（不是視頻）有用的不到萬分之一。

GAIA-1的工作原理如下：首先將模型分為兩個部分:世界模型和視頻擴(kuò)散解碼器。世界模型是一個自回歸的轉(zhuǎn)換器，它根據(jù)過去的圖像、文本和動作標(biāo)記來預(yù)測下一個圖像標(biāo)記。視頻解碼器以更高的時間分辨率將預(yù)測的圖像標(biāo)記映射回像素空間。下圖是GAIA-1的架構(gòu)。

對于世界模型，Wayve使用視頻幀的矢量量化表示來離散每個幀，將它們轉(zhuǎn)換為一系列tokens。隨后，我們將預(yù)測未來的挑戰(zhàn)重新定義為預(yù)測序列中的下一個token。該方法已被廣泛用于訓(xùn)練大型語言模型，并因其通過縮放模型大小和數(shù)據(jù)來提高模型性能的有效性而得到認(rèn)可。通過自回歸生成，可以在世界模型的潛在空間內(nèi)生成新的樣本。

對于視頻擴(kuò)散解碼器，它能夠執(zhí)行高分辨率視頻渲染和時間上采樣，以從世界模型自回歸生成的信息進(jìn)一步生成平滑視頻（提高視頻質(zhì)量）。與大型語言模型類似，視頻擴(kuò)散模型已經(jīng)證明訓(xùn)練規(guī)模與整體性能之間存在明顯的相關(guān)性。下圖是設(shè)置不同的天氣和光照條件進(jìn)行場景生成。

總結(jié)：GAIA-1可以捕獲上下文信息進(jìn)行理解，并生成相關(guān)的視頻。例如，它可以根據(jù)初始條件或提供的上下文在視頻中生成連貫的動作和響應(yīng)?？梢酝ㄟ^改變天氣、溫度等自然場景的描述生成不同的場景；對于倒車、減速、轉(zhuǎn)彎等也可以隨意改變角度進(jìn)行視頻生成。

GAIA-1能夠生成連貫的場景，將物體放置在合理的位置，并表現(xiàn)出現(xiàn)實的物體互動，如交通信號燈，道路規(guī)則，讓路等。這表明模型不只是記憶統(tǒng)計模式，而是理解控制世界上對象的排列和行為的潛在規(guī)則。它可以生成超越訓(xùn)練集中特定實例的的視頻。它可以產(chǎn)生訓(xùn)練數(shù)據(jù)中沒有明確出現(xiàn)的物體、運(yùn)動和場景的獨特組合，展示出卓越的推理能力。

三、百度

2024年5月15日，百度Apollo發(fā)布了支持L4級自動駕駛的大模型ApolloADFM（AutonomousDrivingFoundationModel）。百度的端到端架構(gòu)屬于兩段式端到端，感知和決策規(guī)劃有兩段網(wǎng)絡(luò)，后續(xù)通過隱形傳遞和聯(lián)合訓(xùn)練實現(xiàn)端到端無人駕駛。

在感知端，通過攝像頭得到視覺圖像數(shù)據(jù)，并通過激光雷達(dá)和4D毫米波雷達(dá)得到主動光傳感器數(shù)據(jù)。之后利用感知網(wǎng)絡(luò)對視覺和主動光特征進(jìn)行識別，融合BEV特征判斷道路特征、障礙物等。再通過顯式三維向量空間（使用三維坐標(biāo)系來精確地表示物體的位置和方向）和隱式BEV特征（在BEV視角下，不直接給出三維空間中的所有信息，而是通過一些間接的方式，如特征編碼或者深度學(xué)習(xí)模型來隱式地表示和推斷這些信息），以聯(lián)合訓(xùn)練的方式實現(xiàn)端到端無人駕駛。

四、商湯絕影

2024年4月25日，商湯絕影在北京車展發(fā)布面向量產(chǎn)的端到端自動駕駛解決方案UniAD(Unified Autonomous Driving)。商湯的端到端架構(gòu)實現(xiàn)了感知到規(guī)劃，而國內(nèi)其他很多廠商說的是感知到融合。

搭載UniAD端到端自動駕駛解決方案的車輛僅憑攝像頭的視覺感知，無需高精地圖，通過數(shù)據(jù)學(xué)習(xí)和驅(qū)動就可以像人一樣觀察并理解外部環(huán)境，然后基于足夠豐富的感知信息，UniAD能夠自己思考并作出決策，例如進(jìn)行無保護(hù)左轉(zhuǎn)、快速通行人車混行的紅綠燈路口、完成包括大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作。

UniAD的核心是將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型，實現(xiàn)感知決策一體化，不需要對感知數(shù)據(jù)進(jìn)行抽象和逐級傳遞，，將原始信息直接輸入到端到端模型中，然后以自車軌跡規(guī)劃為準(zhǔn)進(jìn)行指令輸出，實現(xiàn)端到端自動駕駛。

UniAD的具體優(yōu)點如下：

首先，傳統(tǒng)智駕方案和“兩段式”端到端方案都是依靠人為定義的規(guī)則在傳遞顯性信息，存在信息誤差和丟失，難以完整準(zhǔn)確還原外部場景，而一體化端到端自動駕駛大模型最明顯的優(yōu)勢就在于信息的無損傳遞，端到端模型基于原始信息進(jìn)行學(xué)習(xí)、思考和推理，最終能像人一樣綜合理解復(fù)雜的交通環(huán)境，并且能夠不斷成長，有著更高的能力上限。

其次，依賴數(shù)據(jù)驅(qū)動的端到端方案能夠?qū)⑵鋵W(xué)到的駕駛能力和技巧遷移泛化到其他場景當(dāng)中，具備更快的迭代效率，幫助車企更快速實現(xiàn)全國都能開的目標(biāo)，無論是城區(qū)還是鄉(xiāng)村道路。

最后，端到端自動駕駛大模型是像人一樣感知和理解外部環(huán)境，純視覺和無高精地圖就是UniAD與生俱來的天賦，它只需要導(dǎo)航信息就可以把車駕駛到目的地，天然就能幫助車企降低軟硬件成本。

Tesla的FSDV12等一體化端到端方案是基于一個不可解耦的模型打造，UniAD是將多個模塊整合到一個端到端模型架構(gòu)之下，仍可以對各個模塊進(jìn)行分別的監(jiān)測和優(yōu)化，相較于純黑盒的端到端技術(shù)，UniAD方案具有更強(qiáng)的可解釋性、安全性與持續(xù)迭代性。

五、華為乾崑

華為乾崑ADS3.0端到端是基于少量人工規(guī)則+端到端模型，并逐漸減少人工規(guī)則的數(shù)量。

乾崑ADS3.0主要包括GOD和PDP。華為的ADS是從感知BEV（鳥瞰圖）網(wǎng)絡(luò)開始的，可識別白名單障礙物；2023年4月發(fā)布最新的ADS3.0，引入GOD（通用障礙物檢測）和PCR（道路拓?fù)渫评恚┚W(wǎng)絡(luò)，現(xiàn)在開始進(jìn)入場景理解階段，構(gòu)成了GOD大網(wǎng)。

GOD（通用障礙物識別）大網(wǎng)：乾崑ADS3.0基于GOD大網(wǎng)，實現(xiàn)了從簡單的“識別障礙物”到深度的“理解駕駛場景”的跨越式進(jìn)步。這不僅提升了智能駕駛的安全性，還改善了駕乘體驗。

PDP（預(yù)測決策規(guī)控）網(wǎng)絡(luò)：乾崑ADS3.0的全新架構(gòu)采用PDP網(wǎng)絡(luò)，實現(xiàn)了預(yù)決策和規(guī)劃一張網(wǎng)。這使得決策和規(guī)劃更加類人化，行駛軌跡更接近人類駕駛，通行效率更高。復(fù)雜路口通過率超過96%。

六、小鵬汽車

小鵬汽車的端到端架構(gòu)是兩段式架構(gòu)。小鵬之前智駕系統(tǒng)的規(guī)則是十萬（行代碼）級規(guī)模，最新發(fā)布的端到端大模型能夠?qū)崿F(xiàn)10億行代碼才能達(dá)到的性能天花板，甚至更強(qiáng)。同時XNGP的端到端系統(tǒng)內(nèi)，仍有部分的規(guī)則代碼作為安全兜底。

此次小鵬量產(chǎn)上車的端到端大模型包括：感知神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語言模型XBrain。

從結(jié)構(gòu)來看，小鵬的端到端架構(gòu)仍分為感知、規(guī)控兩大功能模塊，其中最大的變化應(yīng)該在于將過去基本完全由規(guī)則組成的規(guī)控模塊，切換為神經(jīng)網(wǎng)絡(luò)為主。具體地，

XNet：側(cè)重于感知和語義，實現(xiàn)了動、靜態(tài)BEV網(wǎng)絡(luò)和占用網(wǎng)絡(luò)的三網(wǎng)合一，其中占用網(wǎng)絡(luò)的空間網(wǎng)格超200萬個。小鵬官方表示，其網(wǎng)格精度為業(yè)內(nèi)最高精度的2倍以上。

三網(wǎng)合一后，XNet的感知范圍提升2倍，達(dá)到1.8個足球場大小，對懸掛路牌、井蓋、掉落紙箱等非標(biāo)準(zhǔn)障礙物識別能力提升至50+。

XPlanner：通過模型取代代碼后，規(guī)控表現(xiàn)將更加擬人，前后頓挫減少50%、違?？ㄋ罍p少40%、安全接管減少60%；

XBrain：XBrain 側(cè)重于整個大場景的認(rèn)知，通過大語言模型所具備的常識能力，提升感知和規(guī)控的推理和泛化能力。可讀懂任何中英文文字，掌握各種令行禁止、快慢緩急的行為指令。

對于神經(jīng)網(wǎng)絡(luò)的不可解釋性問題，小鵬汽車自動駕駛中心負(fù)責(zé)人李力耘表示，在端到端的架構(gòu)下，三個網(wǎng)絡(luò)聯(lián)合訓(xùn)練標(biāo)注，形成有一個有機(jī)整體。

資料來源

source

《End to End Learning for Self-Driving Cars》

《GAIA-1:A Generative World Model for Autonomous Driving》

《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

《汽車端到端自動駕駛系統(tǒng)的關(guān)鍵技術(shù)與發(fā)展趨勢》清華大學(xué)等

Tesla、Wayve、華為、小鵬、百度、商湯絕影官網(wǎng)

其他來源：億歐汽車、佐思汽車研究、焉知汽車、深藍(lán)學(xué)院等公開資料整理

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：Open House CN 2024回顧-S3：CarMaker在數(shù)據(jù)驅(qū)動開發(fā)流程中的應(yīng)用
上一篇：增程式汽車增程器啟動抖動分析及優(yōu)化

點贊 1 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

國內(nèi)外6家企業(yè)智駕方案（端到端架構(gòu)）對比

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機(jī)動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工