日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

詳解智能座艙芯片算力評(píng)估

2024-12-31 17:25:48·  來源:汽車電子與軟件  作者:張慧敏  
 

#03GPU 算力評(píng)估   

在智能座艙中,顯示子系統(tǒng)特別依賴 GPU 的處理能力,同時(shí)視覺感知子系統(tǒng)也在一定程度上需要借助 GPU 進(jìn)行計(jì)算。合理評(píng)估 GPU 的算力資源,從而判斷 SoC 是否能支持座艙內(nèi)各種顯示屏的運(yùn)作,是一項(xiàng)至關(guān)重要的任務(wù)。

3.1 GPU 架構(gòu)原理

從本質(zhì)上看,GPU是一種基于 SIMD(單指令多數(shù)據(jù))架構(gòu)的計(jì)算機(jī)系統(tǒng)。與 CPU 相比,GPU 配備了更多的處理單元,并具備更高的并行處理能力,因此能更迅速地處理大量的圖形和 圖像數(shù)據(jù)。GPU 之所以適用于并行計(jì)算,主要是因?yàn)樗鼡碛谐錾牟⑿刑幚砟芰拓S富的計(jì)算單元。GPU 的設(shè)計(jì)初衷在于提升數(shù)據(jù)吞吐量,也就是在一次操作中處理盡可能多的數(shù)據(jù)。為此,GPU 采用了流式并行計(jì)算模式,能對(duì)每個(gè)數(shù)據(jù)行進(jìn)行獨(dú)立的并行計(jì)算。這種獨(dú)特的設(shè)計(jì)使得 GPU 在處理大規(guī)模并發(fā)計(jì)算任務(wù)方面表現(xiàn)出色,例如矩陣乘法、圖像處理以及深度學(xué)習(xí)等。

為了理解 GPU 的工作原理,我們首先需要探究計(jì)算機(jī)系統(tǒng)是如何繪制并渲染圖形的。

從本質(zhì)上講,計(jì)算機(jī)所能處理的圖形圖像都是由一系列的頂點(diǎn)(Vertex)和紋理(Texture)數(shù)據(jù)組成的。這些頂點(diǎn)會(huì)構(gòu)成多個(gè)三角形,當(dāng)在這些三角形上貼合相應(yīng)的紋理后,就能輸出用戶可見的最終圖像。這一過程CPU和GPU的協(xié)同工作,以實(shí)現(xiàn)最高效率。圖2給出了一個(gè)圖形繪制的流程示意圖:

圖片


圖 11-2  圖形繪制流程示意圖


繪制過程涉及 CPU、GPU和DPU的共同參與。圖形繪制和渲染的核心在于GPU管線(GPUPipeline)。這里的“管線”并非指CPU的并發(fā)流水線,而是用來比喻GPU處理圖像的流程,就像物品在生產(chǎn)流水線上從一個(gè)環(huán)節(jié)傳遞到下一個(gè)環(huán)節(jié),直到全部加工完成。在GPU管線中,圖像數(shù)據(jù)經(jīng)歷一系列的處理步驟,最終輸出我們所需的圖形圖像。表 7 詳細(xì)列舉 了 GPU 管線的主要步驟。

表 7  GPU 管線繪制步驟說明


操作含義處理單元包含內(nèi)容Input Assembler輸入材質(zhì)CPUCPU 將需要渲染的紋理、材質(zhì)、貼圖等材料從外部存儲(chǔ)器復(fù)制到GPU 顯存中,以提升處理速度Vertex Shader頂點(diǎn)著色器GPU處理單個(gè)頂點(diǎn)的坐標(biāo)以及相關(guān)參數(shù)(顏色、位置)Geometry Stage幾何處理階段GPU根據(jù)頂點(diǎn)信息生成圖元。在幾何階段,頂點(diǎn)著色器輸出的數(shù)據(jù)將進(jìn)一步被處理,包括進(jìn)行曲面細(xì)分、幾何著色、裁剪和屏幕映射等操作Viewport transform and Clipping視口變化和裁剪GPU讓畫面內(nèi)容適配實(shí)際的顯示分辨率,如果顯示的三角形超出了可視范圍,那么也會(huì)被裁剪Tiling分塊處理GPU將整塊屏幕渲染劃分成小塊處理,適合移動(dòng)GPU 架構(gòu)Triangles & Rasterization光柵化處理GPU根據(jù)頂點(diǎn)信息,繪制三角形矢量圖形,并將矢量圖形格式表示的圖像轉(zhuǎn)換為位圖以進(jìn)行顯示

Early-Z Test

提前深度測(cè)試GPU測(cè)算每個(gè)分塊緩沖區(qū)域是否被遮擋,提前去掉被遮擋的緩沖區(qū),只處理最頂層應(yīng)該顯示的區(qū)塊Pixel Shader像素著色器GPU使用渲染的紋理和材質(zhì),對(duì)每一個(gè)像素位圖進(jìn)行填充Raster Operations光柵操作GPU圖形渲染的最后一個(gè)階段,經(jīng)過深度測(cè)試和顏色混合后,將生成的像素?cái)?shù)據(jù)寫入GPU的幀緩沖區(qū)(framebuffer),然后傳送給DPU 進(jìn)行輸出Blender/Output Merger圖層混合與輸出合并DPUDPU負(fù)責(zé)實(shí)現(xiàn)多圖層的合并處理,并輸出到顯示接口中,如DP 或DSI 接口


在這些操作中,光柵化(Rasterization)和像素著色器(Pixel Shader)是需要進(jìn)行大量并行處理的關(guān)鍵步驟,要求有足夠多的運(yùn)算單元來執(zhí)行。因此,在 GPU 的微架構(gòu)中,這些處理單元被設(shè)計(jì)為多線程計(jì)算單元,以便能夠同時(shí)處理多個(gè)任務(wù),如圖 3 所示。

圖片

圖 3  GPU 并行計(jì)算處理單元架構(gòu)

從圖 3 中可以看到 GPU 內(nèi)部存在一個(gè)執(zhí)行隊(duì)列。GPU 從這個(gè)隊(duì)列中獲取指令,并將其發(fā)送到 SIMD 單元執(zhí)行。SIMD 單元能夠調(diào)度并執(zhí)行一條計(jì)算指令,同時(shí)對(duì)多路數(shù)據(jù)進(jìn)行處理。計(jì)算結(jié)果通過數(shù)據(jù)緩存最終寫入系統(tǒng)內(nèi)存。顯然,這種架構(gòu)非常適合進(jìn)行矩陣運(yùn)算或大量像素的并行計(jì)算,因?yàn)樗軌蚋咝У靥幚砼繑?shù)據(jù),從而提升整體計(jì)算性能。

3.2 GPU 性能評(píng)估標(biāo)準(zhǔn)

在智能座艙中,GPU 最主要的用途還是負(fù)責(zé)圖形計(jì)算和渲染的任務(wù),它與桌面?zhèn)€人計(jì)算機(jī),智能手機(jī)的用途一樣,首先要考慮圖形圖像顯示的流暢度與畫面的精美程度。更進(jìn)一步, GPU 還要承擔(dān) 3D 游戲的運(yùn)行任務(wù),當(dāng) GPU 運(yùn)行壓力達(dá)到閾值之后,屏幕畫面的卡頓、掉幀、降頻等問題會(huì)嚴(yán)重影響座艙用戶的體驗(yàn)。

因此,需要針對(duì) GPU 的性能進(jìn)行評(píng)估,而評(píng)估標(biāo)準(zhǔn)既是系統(tǒng)架構(gòu)工程師選擇座艙 SoC 的參考要素之一,也是改進(jìn) GPU 性能和評(píng)估座艙應(yīng)用是否可行的依據(jù)。

1. GFLOPS

人們習(xí)慣使用 GFLOPS(Giga FLoating-point Operations Per Second,每秒 10 億次浮點(diǎn)運(yùn)算)作為 GPU 的算力評(píng)價(jià)標(biāo)準(zhǔn)。我們首先來看一下如何計(jì)算GFLOPS。

1 )獲取 GPU 的核心數(shù)量:核心數(shù)量是指 GPU 中包含的核心數(shù)量,通常以個(gè)為單位??梢酝ㄟ^查詢 GPU 的規(guī)格或使用 GPU 檢測(cè)工具來獲取核心數(shù)量。

2)獲取每個(gè)核心的頻率:每個(gè)核心的頻率指的是 GPU 的時(shí)鐘頻率,通常 MHz(以兆赫)為單位??梢酝ㄟ^查詢 GPU 的規(guī)格或使用 GPU 檢測(cè)工具來獲取每個(gè)核心的頻率。

3 )獲取每個(gè)核心的浮點(diǎn)運(yùn)算能力:每個(gè)核心的浮點(diǎn)運(yùn)算能力是指每個(gè)核心能夠執(zhí)行的浮點(diǎn)運(yùn)算數(shù)量,通常以 MFLOPS(百萬次浮點(diǎn)運(yùn)算每秒)或 GFLOPS(十億次浮點(diǎn)運(yùn)算每秒)為單位。由于核心運(yùn)行頻率的不同,同一個(gè) GPU 架構(gòu)可能具有不同的峰值運(yùn)算能力。可以通過查詢 GPU 的規(guī)格或使用 GPU 檢測(cè)工具來獲取每個(gè)核心的浮點(diǎn)運(yùn)算能力。

4)計(jì)算 GPU 的 GFLOPS:使用以下公式計(jì)算 GPU 的 GFLOPS:

GFLOPS = 每個(gè)核心的浮點(diǎn)運(yùn)算能力× 核心數(shù)量

我們以英偉達(dá)的 GeForce 8800 Ultra 芯片為例,計(jì)算它的 GFLOPS 參數(shù)值。

在 GeForce 8800 Ultra 芯片中,每個(gè)SP( Stream Processor,流處理器)核心運(yùn)行的時(shí)鐘頻率是 1.5GHz( 1.5 × 109 個(gè)時(shí)鐘周期)。

據(jù)英偉達(dá)公開資料顯示,1 個(gè)SP核心在1 個(gè)時(shí)鐘周期內(nèi)的雙精度(FP32)的計(jì)算能力為3FLOPS,那么 1 個(gè)SP核心的峰值算力為:3FLOPS×1.5GHz=4.5GFLOPS Ultra芯片的每個(gè)SM(多線程流多處理器)包含8 個(gè)SP 核心,SM 運(yùn)行的峰值算力是4.5 ×8=36 GFLOPS。

GeForce 8800 GPU 一共擁有14個(gè)SM ,GPU 的總算力為:36 × 14 = 504 GFLOPS 。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25