詳解智能座艙芯片算力評(píng)估

2024-12-31 17:25:48· 來源：汽車電子與軟件作者：張慧敏

#03GPU 算力評(píng)估

在智能座艙中，顯示子系統(tǒng)特別依賴 GPU 的處理能力，同時(shí)視覺感知子系統(tǒng)也在一定程度上需要借助 GPU 進(jìn)行計(jì)算。合理評(píng)估 GPU 的算力資源，從而判斷 SoC 是否能支持座艙內(nèi)各種顯示屏的運(yùn)作，是一項(xiàng)至關(guān)重要的任務(wù)。

3.1 GPU 架構(gòu)原理

從本質(zhì)上看，GPU是一種基于 SIMD（單指令多數(shù)據(jù)）架構(gòu)的計(jì)算機(jī)系統(tǒng)。與 CPU 相比，GPU 配備了更多的處理單元，并具備更高的并行處理能力，因此能更迅速地處理大量的圖形和圖像數(shù)據(jù)。GPU 之所以適用于并行計(jì)算，主要是因?yàn)樗鼡碛谐錾牟⑿刑幚砟芰拓S富的計(jì)算單元。GPU 的設(shè)計(jì)初衷在于提升數(shù)據(jù)吞吐量，也就是在一次操作中處理盡可能多的數(shù)據(jù)。為此，GPU 采用了流式并行計(jì)算模式，能對(duì)每個(gè)數(shù)據(jù)行進(jìn)行獨(dú)立的并行計(jì)算。這種獨(dú)特的設(shè)計(jì)使得 GPU 在處理大規(guī)模并發(fā)計(jì)算任務(wù)方面表現(xiàn)出色，例如矩陣乘法、圖像處理以及深度學(xué)習(xí)等。

為了理解 GPU 的工作原理，我們首先需要探究計(jì)算機(jī)系統(tǒng)是如何繪制并渲染圖形的。

從本質(zhì)上講，計(jì)算機(jī)所能處理的圖形圖像都是由一系列的頂點(diǎn)（Vertex）和紋理（Texture）數(shù)據(jù)組成的。這些頂點(diǎn)會(huì)構(gòu)成多個(gè)三角形，當(dāng)在這些三角形上貼合相應(yīng)的紋理后，就能輸出用戶可見的最終圖像。這一過程CPU和GPU的協(xié)同工作，以實(shí)現(xiàn)最高效率。圖2給出了一個(gè)圖形繪制的流程示意圖：

圖 11-2 圖形繪制流程示意圖

繪制過程涉及 CPU、GPU和DPU的共同參與。圖形繪制和渲染的核心在于GPU管線（GPUPipeline）。這里的“管線”并非指CPU的并發(fā)流水線，而是用來比喻GPU處理圖像的流程，就像物品在生產(chǎn)流水線上從一個(gè)環(huán)節(jié)傳遞到下一個(gè)環(huán)節(jié)，直到全部加工完成。在GPU管線中，圖像數(shù)據(jù)經(jīng)歷一系列的處理步驟，最終輸出我們所需的圖形圖像。表 7 詳細(xì)列舉了 GPU 管線的主要步驟。

表 7 GPU 管線繪制步驟說明

操作含義處理單元包含內(nèi)容Input Assembler輸入材質(zhì)CPUCPU 將需要渲染的紋理、材質(zhì)、貼圖等材料從外部存儲(chǔ)器復(fù)制到GPU 顯存中，以提升處理速度Vertex Shader頂點(diǎn)著色器GPU處理單個(gè)頂點(diǎn)的坐標(biāo)以及相關(guān)參數(shù)（顏色、位置）Geometry Stage幾何處理階段GPU根據(jù)頂點(diǎn)信息生成圖元。在幾何階段，頂點(diǎn)著色器輸出的數(shù)據(jù)將進(jìn)一步被處理，包括進(jìn)行曲面細(xì)分、幾何著色、裁剪和屏幕映射等操作Viewport transform and Clipping視口變化和裁剪GPU讓畫面內(nèi)容適配實(shí)際的顯示分辨率，如果顯示的三角形超出了可視范圍，那么也會(huì)被裁剪Tiling分塊處理GPU將整塊屏幕渲染劃分成小塊處理，適合移動(dòng)GPU 架構(gòu)Triangles & Rasterization光柵化處理GPU根據(jù)頂點(diǎn)信息，繪制三角形矢量圖形，并將矢量圖形格式表示的圖像轉(zhuǎn)換為位圖以進(jìn)行顯示

Early-Z Test

提前深度測(cè)試GPU測(cè)算每個(gè)分塊緩沖區(qū)域是否被遮擋，提前去掉被遮擋的緩沖區(qū)，只處理最頂層應(yīng)該顯示的區(qū)塊Pixel Shader像素著色器GPU使用渲染的紋理和材質(zhì)，對(duì)每一個(gè)像素位圖進(jìn)行填充Raster Operations光柵操作GPU圖形渲染的最后一個(gè)階段，經(jīng)過深度測(cè)試和顏色混合后，將生成的像素?cái)?shù)據(jù)寫入GPU的幀緩沖區(qū)（framebuffer），然后傳送給DPU 進(jìn)行輸出Blender/Output Merger圖層混合與輸出合并DPUDPU負(fù)責(zé)實(shí)現(xiàn)多圖層的合并處理，并輸出到顯示接口中，如DP 或DSI 接口

在這些操作中，光柵化（Rasterization）和像素著色器（Pixel Shader）是需要進(jìn)行大量并行處理的關(guān)鍵步驟，要求有足夠多的運(yùn)算單元來執(zhí)行。因此，在 GPU 的微架構(gòu)中，這些處理單元被設(shè)計(jì)為多線程計(jì)算單元，以便能夠同時(shí)處理多個(gè)任務(wù)，如圖 3 所示。

圖 3 GPU 并行計(jì)算處理單元架構(gòu)

從圖 3 中可以看到 GPU 內(nèi)部存在一個(gè)執(zhí)行隊(duì)列。GPU 從這個(gè)隊(duì)列中獲取指令，并將其發(fā)送到 SIMD 單元執(zhí)行。SIMD 單元能夠調(diào)度并執(zhí)行一條計(jì)算指令，同時(shí)對(duì)多路數(shù)據(jù)進(jìn)行處理。計(jì)算結(jié)果通過數(shù)據(jù)緩存最終寫入系統(tǒng)內(nèi)存。顯然，這種架構(gòu)非常適合進(jìn)行矩陣運(yùn)算或大量像素的并行計(jì)算，因?yàn)樗軌蚋咝У靥幚砼繑?shù)據(jù)，從而提升整體計(jì)算性能。

3.2 GPU 性能評(píng)估標(biāo)準(zhǔn)

在智能座艙中，GPU 最主要的用途還是負(fù)責(zé)圖形計(jì)算和渲染的任務(wù)，它與桌面?zhèn)€人計(jì)算機(jī)，智能手機(jī)的用途一樣，首先要考慮圖形圖像顯示的流暢度與畫面的精美程度。更進(jìn)一步， GPU 還要承擔(dān) 3D 游戲的運(yùn)行任務(wù)，當(dāng) GPU 運(yùn)行壓力達(dá)到閾值之后，屏幕畫面的卡頓、掉幀、降頻等問題會(huì)嚴(yán)重影響座艙用戶的體驗(yàn)。

因此，需要針對(duì) GPU 的性能進(jìn)行評(píng)估，而評(píng)估標(biāo)準(zhǔn)既是系統(tǒng)架構(gòu)工程師選擇座艙 SoC 的參考要素之一，也是改進(jìn) GPU 性能和評(píng)估座艙應(yīng)用是否可行的依據(jù)。

1. GFLOPS

人們習(xí)慣使用 GFLOPS（Giga FLoating-point Operations Per Second，每秒 10 億次浮點(diǎn)運(yùn)算）作為 GPU 的算力評(píng)價(jià)標(biāo)準(zhǔn)。我們首先來看一下如何計(jì)算GFLOPS。

1 ）獲取 GPU 的核心數(shù)量：核心數(shù)量是指 GPU 中包含的核心數(shù)量，通常以個(gè)為單位?？梢酝ㄟ^查詢 GPU 的規(guī)格或使用 GPU 檢測(cè)工具來獲取核心數(shù)量。

2）獲取每個(gè)核心的頻率：每個(gè)核心的頻率指的是 GPU 的時(shí)鐘頻率，通常 MHz（以兆赫）為單位?？梢酝ㄟ^查詢 GPU 的規(guī)格或使用 GPU 檢測(cè)工具來獲取每個(gè)核心的頻率。

3 ）獲取每個(gè)核心的浮點(diǎn)運(yùn)算能力：每個(gè)核心的浮點(diǎn)運(yùn)算能力是指每個(gè)核心能夠執(zhí)行的浮點(diǎn)運(yùn)算數(shù)量，通常以 MFLOPS（百萬次浮點(diǎn)運(yùn)算每秒）或 GFLOPS（十億次浮點(diǎn)運(yùn)算每秒）為單位。由于核心運(yùn)行頻率的不同，同一個(gè) GPU 架構(gòu)可能具有不同的峰值運(yùn)算能力。可以通過查詢 GPU 的規(guī)格或使用 GPU 檢測(cè)工具來獲取每個(gè)核心的浮點(diǎn)運(yùn)算能力。

4）計(jì)算 GPU 的 GFLOPS：使用以下公式計(jì)算 GPU 的 GFLOPS：

GFLOPS = 每個(gè)核心的浮點(diǎn)運(yùn)算能力× 核心數(shù)量

我們以英偉達(dá)的 GeForce 8800 Ultra 芯片為例，計(jì)算它的 GFLOPS 參數(shù)值。

在 GeForce 8800 Ultra 芯片中，每個(gè)SP（ Stream Processor，流處理器）核心運(yùn)行的時(shí)鐘頻率是 1.5GHz（ 1.5 × 109 個(gè)時(shí)鐘周期）。

據(jù)英偉達(dá)公開資料顯示，1 個(gè)SP核心在1 個(gè)時(shí)鐘周期內(nèi)的雙精度（FP32）的計(jì)算能力為3FLOPS，那么 1 個(gè)SP核心的峰值算力為：3FLOPS×1.5GHz=4.5GFLOPS Ultra芯片的每個(gè)SM（多線程流多處理器）包含8 個(gè)SP 核心，SM 運(yùn)行的峰值算力是4.5 ×8=36 GFLOPS。

GeForce 8800 GPU 一共擁有14個(gè)SM ，GPU 的總算力為：36 × 14 = 504 GFLOPS 。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：澤爾榮膺襄陽達(dá)安“優(yōu)秀供應(yīng)商”獎(jiǎng)
上一篇：最小速比2.05，德納推出AdvanTEK 40 Pro車橋

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

詳解智能座艙芯片算力評(píng)估

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對(duì)摩托車前照燈配光性能的工