日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

借助NVIDIA DGX A100構(gòu)建自動駕駛汽車的AI基礎(chǔ)架構(gòu)

2020-08-18 21:08:11·  來源:NVIDIA英偉達(dá)企業(yè)解決方案  
 
自動駕駛汽車正在改變我們的生活、工作和娛樂方式并提高道路通行的安全性與效率。未來的每輛車都將具備自動駕駛功能,包括汽車、卡車、出租車、公共汽車和班車。

AI和自動駕駛汽車正在改變?nèi)藗兊某鲂蟹绞胶臀锪鞣?wù),為市值10萬億美元的交通運輸行業(yè)帶來全新的業(yè)務(wù)模式和超高效率。

為了實現(xiàn)這些革命性的效應(yīng),我們需要強大的計算能力和大規(guī)模生產(chǎn)軟件方面的專業(yè)知識。多年來,NVIDIA一直致力于自動駕駛汽車的開發(fā),借助DGX系統(tǒng)和Mellanox聯(lián)網(wǎng)功能構(gòu)建了內(nèi)部基礎(chǔ)設(shè)施NVIDIA DRIVE Infrastructure。

NVIDIA DRIVE Infrastructure是一個用于數(shù)據(jù)獲取、管理、標(biāo)記和訓(xùn)練以及仿真驗證的完整工作流平臺。NVIDIA DGX系統(tǒng)提供大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和優(yōu)化所需的計算能力,滿足運行回放和數(shù)據(jù)工廠的計算需求。NVIDIA DRIVE Constellation在一個開放的硬件在環(huán)(HIL)平臺上通過物理仿真對自動駕駛汽車在上路之前進(jìn)行測試和驗證。

NVIDIA所推出的NVIDIA DGX A100基于全新NVIDIA A100 Tensor核心GPU構(gòu)建。第三代DGX系統(tǒng)DGX A100是一款通用的AI基礎(chǔ)架構(gòu)系統(tǒng)。DGX A100具有5 PETAFLOP AI性能,能夠出色地處理所有AI工作負(fù)載,包括分析、訓(xùn)練和推理。它使企業(yè)機構(gòu)能夠打造一個可隨時加速執(zhí)行任何類型AI任務(wù)并長期動態(tài)適應(yīng)計算需求變化的標(biāo)準(zhǔn)化平臺。這一無與倫比的靈活性不但降低了成本,而且提高了可擴展性,使DGX A100成為現(xiàn)代化AI數(shù)據(jù)中心的基礎(chǔ)模塊。

NVIDIA DGX A100重新定義了自動駕駛汽車開發(fā)和驗證中的大量基礎(chǔ)架構(gòu)需求。NVIDIA已概括了借助DGX-1系統(tǒng)的自動駕駛汽車基礎(chǔ)架構(gòu)對于計算的需求。本文將重新定義借助DGX A100系統(tǒng)的自動駕駛汽車基礎(chǔ)架構(gòu)對于計算的需求。

自動駕駛汽車的數(shù)據(jù)中心需求主要取決于以下幾個方面:數(shù)據(jù)工廠、AI訓(xùn)練、仿真、回放和建圖。本文將詳細(xì)介紹數(shù)據(jù)工廠、AI訓(xùn)練和回放以及DGX A100系統(tǒng)的規(guī)模。由于建圖所需的計算基礎(chǔ)架構(gòu)與AI訓(xùn)練相似,因此本文未對此進(jìn)行專門的討論。

自動駕駛汽車:海量數(shù)據(jù)

每輛數(shù)據(jù)采集車每年會產(chǎn)生多達(dá)2 PB的數(shù)據(jù)以及幾十億張圖像。數(shù)據(jù)中心使用推理來攝入、選擇和打標(biāo)這些用于AI模型訓(xùn)練的數(shù)據(jù)。

為了管理從車輛中獲取數(shù)據(jù)的數(shù)據(jù)流水線,需要一套經(jīng)過優(yōu)化的工作流程和基礎(chǔ)架構(gòu),包括用于轉(zhuǎn)碼和壓縮的計算資源、打標(biāo)服務(wù);可以存儲和檢索所有自動駕駛汽車數(shù)據(jù)的集中式地理分布數(shù)據(jù)湖和存儲庫, 這些數(shù)據(jù)包括原始傳感器數(shù)據(jù)等、數(shù)據(jù)標(biāo)注、用于訓(xùn)練和測試模型的真實數(shù)據(jù)、回放和仿真性能指標(biāo)以及經(jīng)過訓(xùn)練的模型。

顯然,在制造AI自動駕駛汽車的過程中需要處理海量數(shù)據(jù)。數(shù)據(jù)量取決于以下因素:

數(shù)據(jù)采集車隊的規(guī)模
車隊的地理和區(qū)域分布
數(shù)據(jù)采集車所使用的傳感器的數(shù)量和類型
汽車數(shù)據(jù)采集活動的時長
有用和多樣化數(shù)據(jù)的比例
數(shù)據(jù)壓縮技術(shù)

制造和運營數(shù)據(jù)采集車的成本十分高昂,因此企業(yè)機構(gòu)通常僅制造少量的數(shù)據(jù)采集車并依靠消費者的汽車所采集的數(shù)據(jù)。一般情況下,數(shù)據(jù)采集車隊的規(guī)模為5至50輛車。

數(shù)據(jù)采集車配備多個傳感器,主要包括攝像頭、雷達(dá)和激光雷達(dá)。所采集的數(shù)據(jù)被用于構(gòu)建輔助汽車駕駛以及駕駛員監(jiān)控和協(xié)助的AI。

數(shù)據(jù)采集車通常使用6-10個攝像頭、4-6個雷達(dá)和2-4個激光雷達(dá),它們都有不同的分辨率和距離范圍。由于整個數(shù)據(jù)采集量由攝像頭占主要,因此本文主要關(guān)注汽車攝像頭所生成的數(shù)據(jù)。這些采集車平均每天行駛8小時,每年行駛250天,即每年共行駛2000小時。如果每輛車每天行駛兩個8小時班次,那么每年每輛車的行駛時間將達(dá)到4000小時。

與車輛驗證車隊相比,數(shù)據(jù)采集車的傳感器一般更加穩(wěn)健。為了驗證光學(xué)技術(shù),它們的記錄頻率和分辨率會高于量產(chǎn)型攝像頭。不同的傳感器通過降采樣實現(xiàn)數(shù)據(jù)的一致性。所采集的數(shù)據(jù)越多越好(例如可對各種CAN和總線信號進(jìn)行采集),從而對不同的傳感器進(jìn)行交叉驗證并進(jìn)行合理性檢查。

但并非所有采集的數(shù)據(jù)都是有用的。由于傳感器故障、攝像頭鏡頭上的灰塵、傳感器安裝錯誤等,所采集的數(shù)據(jù)可能會發(fā)生損壞。此外,還會發(fā)生數(shù)據(jù)完整性和所采集的數(shù)據(jù)缺乏多樣化信息等問題。根據(jù)經(jīng)驗,有用的數(shù)據(jù)在所采集的數(shù)據(jù)中占比很小,平均只有30–50%的數(shù)據(jù)有用。緊鄰數(shù)據(jù)采集的預(yù)處理層會影響數(shù)據(jù)量的傳輸并通過一種差異化機制來提高數(shù)據(jù)價值。

數(shù)據(jù)存儲取決于所采集的數(shù)據(jù)量及其存儲方式。你可以對數(shù)據(jù)進(jìn)行無損或有損壓縮并選擇需要長期存儲的數(shù)據(jù)。我將在下面詳細(xì)說明存儲需求。

表1所示的是一個5 - 50輛汽車車隊的典型數(shù)據(jù)存儲需求范圍(每輛汽車配備5-10個傳感器,混合使用2.3和8 Pix攝像頭,并假設(shè)所采集的數(shù)據(jù)中有40%是有用的)。所有數(shù)字均已四舍五入。該表可供參考,用來了解數(shù)據(jù)采集車生成的數(shù)據(jù)量,然后根據(jù)自己的用例對需求進(jìn)行細(xì)化。

無需標(biāo)記所有采集的數(shù)據(jù),因為收集大量冗余信息無助于提高AI模型的準(zhǔn)確性。最好的辦法是僅標(biāo)記降采樣的數(shù)據(jù)集。標(biāo)記是一個成本昂貴的人工過程。隨著數(shù)據(jù)集的增長,你需要采用更智能的方法對原始數(shù)據(jù)進(jìn)行降采樣。一般會使用的一種簡單方法是在深度神經(jīng)網(wǎng)絡(luò)(DNN)上使用預(yù)訓(xùn)練的AI模型挖掘所采集的原始數(shù)據(jù)。

降采樣流程使用AI模型對原始數(shù)據(jù)進(jìn)行AI推理。隨著這些模型在自動駕駛汽車開發(fā)過程中不斷得到改進(jìn),你必須定期使用最新模型重新推理整個數(shù)據(jù)集。如果AI模型的更新十分頻繁,則每天平均可能需要對2500 - 5000小時數(shù)據(jù)進(jìn)行挖掘,而這些數(shù)據(jù)會隨著時間而不斷增加。

當(dāng)你在10個AI網(wǎng)絡(luò)上,用1輛汽車的10個傳感器對平均2500 - 5000小時的駕駛數(shù)據(jù)進(jìn)行推理并且周期時間(TAT)為5天時,需要使用15 - 30個DGX A100。可使用以下簡單公式進(jìn)行計算:
DGX A100數(shù) = ((圖像 (幀)數(shù) / DGX推理吞吐量) x DNN數(shù))/ TAT
數(shù)據(jù)挖掘根據(jù)所采集的數(shù)據(jù)總量以及整個數(shù)據(jù)集的規(guī)定挖掘頻率而變化。下表例舉了在數(shù)據(jù)工廠中使用攝像頭數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的計算需求。每個圖像為2.3 MB。幀數(shù)計算公式為:
圖像數(shù)/年數(shù) = 車輛數(shù) x 攝像機數(shù) x 幀數(shù)/秒x 每年每輛車的行駛小時數(shù)

AI模型訓(xùn)練

在普通自動駕駛汽車的開發(fā)中,你將需要開發(fā)10個或10個以上用于感知和車載監(jiān)控的AI網(wǎng)絡(luò)。每個網(wǎng)絡(luò)都需要使用標(biāo)記數(shù)據(jù)集訓(xùn)練AI模型。隨著數(shù)據(jù)集和DNN的逐漸增長和發(fā)展,在每個新階段都需要進(jìn)行研究和探索,因而需要計算資源。

數(shù)據(jù)采集車隊中發(fā)布的DNN一般能夠做出實時、對時延敏感的響應(yīng),而基于數(shù)據(jù)中心的方案探索漏檢情況的復(fù)雜性和保真度更高。圖1所示的是各個網(wǎng)絡(luò)的工作流程。

如圖1所示,對數(shù)據(jù)采集車獲取的數(shù)據(jù)進(jìn)行整理并標(biāo)記,然后定義AI網(wǎng)絡(luò)架構(gòu)并使用標(biāo)記數(shù)據(jù)運行訓(xùn)練。你可以為指定的網(wǎng)絡(luò)選擇最佳的方法并對超參數(shù)進(jìn)行微調(diào)。通過驗證數(shù)據(jù)測試經(jīng)過訓(xùn)練和微調(diào)的模型后,將反饋發(fā)至數(shù)據(jù)采集活動并采集新的數(shù)據(jù)。整個AI訓(xùn)練流程是一個迭代過程。

AI模型訓(xùn)練基礎(chǔ)架構(gòu)的規(guī)模取決于多個因素:

標(biāo)記圖像 - 上一部分提供了有關(guān)數(shù)據(jù)采集車原始數(shù)據(jù)采集量的指導(dǎo)。一輛汽車可產(chǎn)生2000個小時的數(shù)據(jù)。鑒于每輛汽車運行5個30 FPS的攝像頭,總圖像數(shù)為2000個小時/年x 3600秒/小時x 30幀/秒x 5臺攝像頭 = 每年每輛車10億張圖像。如前文所述,所采集的數(shù)據(jù)不可能全部有用,而且需要通過進(jìn)一步縮減采樣才能進(jìn)行標(biāo)記。平均每10秒取1幀對數(shù)據(jù)進(jìn)行縮減采樣,最終可以得到約300萬張圖像的標(biāo)記數(shù)據(jù)集。
TAT - 這是確定AI基礎(chǔ)架構(gòu)規(guī)模的一個重要因素。較長的TAT會影響AI工程師和數(shù)據(jù)科學(xué)家的工作效率,而較短的TAT則需要龐大的AI基礎(chǔ)架構(gòu)。因此,選擇合適的TAT對于訓(xùn)練至關(guān)重要。
并行實驗 - 每個AI模型通常會并行運行10個或10個以上的實驗。為了進(jìn)行并行實驗,你必須探索不同的架構(gòu)、方法、訓(xùn)練算法等。AI模型開發(fā)主要分為三個階段:探索、開發(fā)和模型部署。

探索階段

在探索階段使用較小的數(shù)據(jù)集(10-20K圖像)訓(xùn)練AI模型,但會進(jìn)行許多并行實驗。進(jìn)行大量并行實驗是為了測試多種構(gòu)建AI網(wǎng)絡(luò)的架構(gòu)和方法。探索階段所需的TAT較短(約1-3小時),因此在一天中可以進(jìn)行許多并行實驗,而且AI工程師的工作效率很高。

開發(fā)階段

開發(fā)階段篩選出探索階段中的一些AI模型,然后使用較大的數(shù)據(jù)集(約200–300K幀)進(jìn)行訓(xùn)練。該階段的TAT通常為24小時,AI工程師在運行模型后可以先回家,然后再返回工作。與探索階段相比,該階段并行實驗的數(shù)量較少。

模型部署階段

為了微調(diào)AI模型,需要搜索整個超參數(shù)空間并使用整個數(shù)據(jù)集進(jìn)行訓(xùn)練,因此無法經(jīng)常進(jìn)行模型選擇。TAT會根據(jù)模型發(fā)布的需要而明顯增加(約5-10日)。

發(fā)現(xiàn)已發(fā)布的DNN中的漏檢內(nèi)容對于確定整體穩(wěn)健性至關(guān)重要。DNN會對一系列棘手的圖像和情景進(jìn)行評分,從而評估異常道路遭遇事件,例如高速公路上的行人、梯子或床墊等。根據(jù)所提供的獨特極端情況級別,TAT大體上較短。還可觀察到傳感器校準(zhǔn)的靈敏度,尤其是在像素保真度不同的攝像頭重疊區(qū)域內(nèi),比如廣角攝像頭與窄視野攝像頭,在切換傳感器套件之前,確定哪個視野具有有效的實用范圍。

在所有三個階段,你需要平均每天運行10個并行實驗,并且目標(biāo)TAT為24小時?;鶞?zhǔn)測試表明,在一臺DGX-1上使用300K圖像進(jìn)行訓(xùn)練平均需要24小時。因此,可以得出以下結(jié)論:
10個AI模型 x 10個并行實驗 x 1個DGX/模型/Exp = 100個DGX-1,用于支持目前總標(biāo)記數(shù)據(jù)集為約3M (每個AI模型300K)的自動駕駛汽車團(tuán)隊。
由于引入了新的架構(gòu)功能,A100的AI訓(xùn)練峰值性能超過V100 10-20倍。正如基準(zhǔn)測試所示,DGX A100一般可將自動駕駛汽車 AI訓(xùn)練工作負(fù)載性能提高約3到5倍。我認(rèn)為保守的基礎(chǔ)架構(gòu)規(guī)模和方向性指導(dǎo)方法可令DGX-1系統(tǒng)性能平均提高3倍。這意味著為了運行10個AI模型、并行實驗為10次且每個AI模型的標(biāo)記圖像數(shù)據(jù)集為300K,你需要大約35個DGX A100,TAT為1天。

根據(jù)以下計算公式計算所需的DGX A100數(shù)量:
DGX A100數(shù) = ((每個DNN的平均圖像數(shù)/DGX-A 100吞吐量 x AI模型數(shù) x 并行實驗數(shù))/TAT
DGX A100需求不僅取決于數(shù)據(jù)集的規(guī)模,還取決于并行研究數(shù)量以及周期時間。

未來,數(shù)據(jù)集將隨著數(shù)據(jù)活動和標(biāo)記功能的增加而不斷擴展。線性計算擴展無法滿足大數(shù)據(jù)量計算需求。隨著數(shù)據(jù)集的增長,自動駕駛汽車團(tuán)隊需要對降采樣的數(shù)據(jù)集(縮減2到5倍)進(jìn)行大量實驗和研究。在訓(xùn)練期間,只有TAT很長的生產(chǎn)型AI模型才能使用整個數(shù)據(jù)集。較長的TAT對計算量的影響較小。

回放

回放指對自動駕駛汽車軟件重新播放上路的采集車已記錄的傳感器數(shù)據(jù)。回放非常適合用于測試大量實際數(shù)據(jù)。通過對數(shù)百萬英里行駛中所采集的帶注釋圖像進(jìn)行回歸分析來測試并改進(jìn)新的DNN。

運行回放主要是為了使用兩種模式中的一種進(jìn)行大規(guī)模的驗證測試:

在HIL模式中,你可以在汽車中部署的實際硬件上運行駕駛算法。該模式以實時速度運行。
在軟件在環(huán)(SIL)模式中,你可以使用數(shù)據(jù)中心GPU運行這些駕駛算法,從而以超實時運行進(jìn)行大規(guī)模測試。

回放規(guī)模取決于以下因素:

待回放的數(shù)據(jù)小時數(shù)
TAT
并行實驗
駕駛軟件管道

駕駛軟件主要包括感知、路徑規(guī)劃和車輛動力學(xué)以及控制。每名自動駕駛汽車軟件開發(fā)者所使用的管道都是不同的。管道中的瓶頸決定了回放工作負(fù)載的基礎(chǔ)架構(gòu)規(guī)模。以下是一些例子:

自動駕駛流水線高度依賴于AI并且大部分計算需求均來自于推理。推理工作負(fù)載是該流水線的瓶頸。
另一個流水線需要對壓縮數(shù)據(jù)進(jìn)行解碼。GPU上的解碼器吞吐量可能會成為瓶頸。
CUDA性能可能會成為回放流水線的瓶頸。

下面是一個確定計算量的示例,假設(shè)回放工作負(fù)載主要取決于推理。在此例中,大規(guī)模回放測試將運行至少10000小時的傳感器數(shù)據(jù),并且可以擴展到100000小時或更長時間的傳感器數(shù)據(jù)。

傳感器總幀數(shù)計算公式如下:
幀數(shù) = 驗證小時數(shù) * 每小時幀數(shù)
可使用以下公式計算DGX A100所需的計算量:
DGX A100數(shù) = (幀數(shù) * 并行實驗數(shù))/TAT

總結(jié)

自動駕駛汽車的開發(fā)是一項需要大量加速計算基礎(chǔ)架構(gòu)的計算密集型工作。這項工作首先需要一座具有PB級存儲容量的數(shù)據(jù)工廠,用以儲存產(chǎn)生自數(shù)據(jù)采集車隊和DGX A100的數(shù)十億個傳感器圖像、對原始數(shù)據(jù)進(jìn)行預(yù)處理并選擇需要標(biāo)記的圖像。為了訓(xùn)練和驗證AI模型,需要更多的DGX A100,同時還需要方向性指導(dǎo)來評估自動駕駛汽車基礎(chǔ)架構(gòu)對數(shù)據(jù)挖掘、AI訓(xùn)練、回放和其他工作負(fù)載的需求。

DGX A100是一個可以讓你以縱向擴展和橫向擴展方式運行工作負(fù)載的通用AI平臺。它樹立了新的計算密度標(biāo)桿,將5 PETAFLOPS的AI性能濃縮在6U尺寸中,并用一個平臺取代了各種AI工作負(fù)載的傳統(tǒng)孤島式基礎(chǔ)架構(gòu)。

DGX POD結(jié)合了NVIDIA加速計算架構(gòu)、Mellanox網(wǎng)絡(luò)架構(gòu)和系統(tǒng)管理軟件,提供使超級計算能力大眾化的解決方案,使超級計算能力變得易于訪問、安裝和管理,從而滿足自動駕駛汽車基礎(chǔ)架構(gòu)的需求。 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25