日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

詳解智能座艙芯片算力評估

2024-12-31 17:25:48·  來源:汽車電子與軟件  作者:張慧敏  
 

根據(jù)表8 中列出的存儲(chǔ)器類型,我們可以看到 CPU 內(nèi)部的寄存器速度是最快的。如果能全部使用寄存器作為存儲(chǔ)器,那么性能無疑將達(dá)到極致。然而,由于其高昂的成本,無法大規(guī)模采用。另一方面,主存或閃存雖然容量充足且成本適中,但其存取速度相對較慢,無法匹配 CPU 的處理速度。

存儲(chǔ)器層次結(jié)構(gòu)的提出,旨在構(gòu)建一種存儲(chǔ)器系統(tǒng)技術(shù),該技術(shù)旨在實(shí)現(xiàn)每字節(jié)成本與主存和閃存相當(dāng),而速度則接近最快的寄存器或高速緩存。

在計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)的設(shè)計(jì)中,構(gòu)建這樣的存儲(chǔ)器系統(tǒng)是切實(shí)可行的。

2. 緩存原理

緩存的工作機(jī)制是基于局域性原理設(shè)計(jì)的。局域性原理表明,程序往往會(huì)重復(fù)使用它們最近使用過的數(shù)據(jù)和指令塊。這里的“最近使用”不僅包含了時(shí)間上的局域性,也包含了空間上的局域性。為了充分利用這一特性,在指令預(yù)取階段,處理器會(huì)一次性讀取一段指令和一塊數(shù)據(jù)。這樣,下一條待執(zhí)行的指令和數(shù)據(jù)很可能就包含在這已經(jīng)預(yù)先讀取的指令段和數(shù)據(jù)段中。

在常規(guī)情況下,指令和數(shù)據(jù)是保存在主存儲(chǔ)器中的。然而,如果將預(yù)取的指令和數(shù)據(jù)保存在緩存中,就可以顯著提升 CPU 對存儲(chǔ)器中數(shù)據(jù)的存取速度。這種設(shè)計(jì)思路正是存儲(chǔ)器層次結(jié)構(gòu)的核心所在。通過這種結(jié)構(gòu),我們能夠有效地提升系統(tǒng)的整體性能。圖6 展示了一個(gè)支持緩存的存儲(chǔ)器層次結(jié)構(gòu)。

從圖6 可以觀察到,主存儲(chǔ)器的容量相對較大,但由于其位置離 CPU 較遠(yuǎn),訪問速度相對較慢。相比之下,緩存離 CPU 更近,盡管其容量較小,卻能提供更快的訪問速度。CPU 通過高速總線高效地訪問存儲(chǔ)在緩存中的指令或數(shù)據(jù)。同時(shí),根據(jù)局域性原理,緩存通過低速總線以塊傳輸?shù)姆绞綇闹鞔鎯?chǔ)器中成批讀取指令或?qū)懭霐?shù)據(jù)。這樣的層次結(jié)構(gòu)設(shè)計(jì)使得系統(tǒng)僅需增加一小塊緩存的成本就能顯著提升存儲(chǔ)空間的訪問速度,同時(shí)保持整體存儲(chǔ)解決方案的經(jīng)濟(jì)性。

圖片

圖6   支持緩存的存儲(chǔ)器層次結(jié)構(gòu)

3. 緩存優(yōu)化方法

緩存的設(shè)計(jì)是一門非常精妙的學(xué)問,盡管我們在此不打算深入探討,但簡要介紹其設(shè)計(jì)思路仍是有意義的。

緩存的設(shè)計(jì)初衷在于將低速主存中的指令和數(shù)據(jù)預(yù)先提取,并存儲(chǔ)在速度更快的緩存中。 當(dāng) CPU 需要讀取指令或數(shù)據(jù)時(shí),如果這些數(shù)據(jù)能從緩存中直接獲取,則稱之為命中;否則,系統(tǒng)將啟動(dòng)主存預(yù)取流程,將一段指令和數(shù)據(jù)從低速主存遷移到緩存中。這個(gè)過程不可避免地會(huì)打斷 CPU 的流水線操作,從而影響處理效率。因此,命中率,即 CPU 需要從緩存中讀取數(shù)據(jù)時(shí)能夠直接命中的比例成為了評估緩存性能的關(guān)鍵指標(biāo)。提高命中率是緩存設(shè)計(jì)的核心目標(biāo),因?yàn)樗苯雨P(guān)系到系統(tǒng)的整體性能和響應(yīng)速度。

如何才能提升緩存的命中率?以下是一些可以考慮的方向。

容量:容量越大,則緩存中可存放的數(shù)據(jù)就越多, CPU 能命中的概率也就越高。

映射:緩存的容量必然不可能達(dá)到主存一樣的容量大小,否則就不需要設(shè)置緩存了。 如何將容量較大的主存映射到容量小的緩存中?這里需要考慮映射算法的設(shè)計(jì)?,F(xiàn)在 最常用的是組相聯(lián)映射機(jī)制,但值得注意的是分組的大小,以及組的數(shù)目。不同的選擇會(huì)帶來不同的性能。

替換:一旦緩存存滿,當(dāng)需要裝入新的塊時(shí),原來的塊就需要被替換掉。采用什么樣的替換算法才能最大限度地提升命中率?LRU(最近最少使用)、LFU(最不經(jīng)常使用)、 FIFO(先進(jìn)先出)、隨機(jī)算法等,這些都是常用的替換算法可選項(xiàng)。

寫策略:緩存中的數(shù)據(jù)是否需要被寫回主存中?SMP 系統(tǒng)中多核如何保證緩存一致性?這些問題都需要通過寫策略來進(jìn)行保證。

行大小:“行”指的是緩存架構(gòu)中的行,負(fù)責(zé)從主存中讀取數(shù)據(jù)并存放。主存中的數(shù)據(jù) 塊與緩存中的行相對應(yīng)。由于局部性原理,CPU 在讀取主存中的數(shù)據(jù)時(shí),不是僅僅讀取該數(shù)據(jù)本身,而是連帶讀取其周邊區(qū)域的一整塊數(shù)據(jù)。這些數(shù)據(jù)將會(huì)裝入同一個(gè)行內(nèi)。隨著行大小的增加,命中率開始上升,但是當(dāng)行大小達(dá)到臨界點(diǎn)后,再增加反而會(huì)使得命中率降低。其原因在于,較大的行會(huì)導(dǎo)致被替換的可能性大大增加,這樣可能不得不替換掉不久前剛寫入緩存的數(shù)據(jù)。

分立緩存:最開始的緩存是將指令和數(shù)據(jù)放在一個(gè)緩存中的,這種架構(gòu)也稱為普林斯頓結(jié)構(gòu)。但是現(xiàn)代 CPU 設(shè)計(jì)引入了超標(biāo)量流水線架構(gòu),它需要支持執(zhí)行并行指令,預(yù)取帶預(yù)測的指令等功能。此時(shí)將指令緩存和數(shù)據(jù)緩存分開將有利于消除多條流水線帶來的沖突。這種分立緩存的架構(gòu)又被稱為哈佛結(jié)構(gòu)。

多級緩存:由于集成電路工藝的提高,緩存與 CPU設(shè)計(jì)在一塊處理器上是非常正常的思路。即使都在一塊處理器SoC內(nèi)部,由于半導(dǎo)體晶體管的特性以及容量大小的區(qū)別,緩存的速度也是不同的。相對來說,離CPU越近,則緩存的速度越快。離CPU越遠(yuǎn),則緩存速度越慢,但容量可以增大。現(xiàn)代CPU的設(shè)計(jì)已經(jīng)開始引入L1、L2、L3 這種 3 級緩存設(shè)計(jì)。L1 離 CPU 最近,可以跟上處理器的高速時(shí)鐘頻率;L2 和 L3 容量更大,可以提升緩存命中率。


4. 多級緩存架構(gòu)

根據(jù)上述分析,座艙 SoC的存儲(chǔ)器層次結(jié)構(gòu)需要綜合采用這些可行的方法。由于緩存設(shè)計(jì)與CPU設(shè)計(jì)息息相關(guān),它涉及計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)的核心策略,一般來說由提供高性能CPUIP (知識(shí)產(chǎn)權(quán)核)的設(shè)計(jì)公司(如ARM公司等)來提供?,F(xiàn)代CPU設(shè)計(jì)主要采用了3 級緩存的結(jié)構(gòu),如圖7 所示。

圖片


大?。捍笮。捍笮。捍笮。捍笮。捍笮。?000B32KB+32KB256KB8MB32GB256GB訪問速度:訪問速度:訪問速度:訪問速度:訪問速度:訪問速度:200ps1ns3 ~10ns10 ~20ns50 ~100ns100 ~200us


圖 7  CPU 3 級緩存設(shè)計(jì)

從圖7 可以看到,存儲(chǔ)器之間的速度、容量和價(jià)格的權(quán)衡。CPU 內(nèi)的寄存器無疑是速 度最快的存儲(chǔ)器,但它的容量非常有限且價(jià)格昂貴。通常,一個(gè)處理器核心會(huì)配備十幾個(gè)到 幾十個(gè)這樣的寄存器,以確保關(guān)鍵數(shù)據(jù)和指令能夠迅速被 CPU 訪問。

主存,通常采用 DDR(雙倍速率的動(dòng)態(tài)隨機(jī)存儲(chǔ)器)器件,擁有大容量但速度相對較慢。 它在存儲(chǔ)系統(tǒng)中扮演著重要角色,能夠存儲(chǔ)大量的數(shù)據(jù)和程序。

在主存和 CPU 之間,設(shè)置了 3 級緩存(L1 、L2 、L3 )以提高訪問速度。其中,相比 L2和 L3 ,L1 具有更快的速度,但其容量也相對較小。這種設(shè)計(jì)是為了確保 CPU 能夠快速訪問最近使用過的數(shù)據(jù)和指令,從而提高整體性能。

另外,緩存對程序員來說是透明的。這意味著在編寫程序時(shí),程序員無須考慮緩存的存在,系統(tǒng)會(huì)自動(dòng)處理緩存的讀寫操作。這種設(shè)計(jì)使得編程更加簡潔高效,對程序員更為友好。

在設(shè)計(jì)智能座艙 SoC 時(shí),SoC 的系統(tǒng)架構(gòu)師通??梢赃x擇 L1 、L2 、L3 緩存的容量大小,在性能和成本之間取得平衡。只有少數(shù)自研 CPU 的設(shè)計(jì)師,才能恰當(dāng)?shù)卦O(shè)計(jì)滿足特定需求的緩存內(nèi)部架構(gòu)。

5.2 主存儲(chǔ)器性能評估標(biāo)準(zhǔn)

在對主存儲(chǔ)器性能的評估中,存在兩種主要的標(biāo)準(zhǔn):存儲(chǔ)器系統(tǒng)的速率和訪問存儲(chǔ)器的帶寬。

1. 存儲(chǔ)器速率評估

作為一個(gè)復(fù)雜系統(tǒng), SoC 訪問存儲(chǔ)器的速率受多個(gè)因素的綜合影響。

系統(tǒng)架構(gòu):不同的系統(tǒng)架構(gòu)設(shè)計(jì)對內(nèi)存訪問的性能有著不同的影響。例如,在采用多級緩存的系統(tǒng)中,數(shù)據(jù)可能需要在不同級別的緩存之間進(jìn)行傳輸,這會(huì)直接影響訪問速度。

DDR 類型:DDR 存在多種類型,如 DDR3 、DDR4 、LPDDR 等,它們的訪問速度和性能各不相同。具體來說,DDR4 的訪問速度通??煊?DDR3,而 LPDDR 往往比標(biāo)準(zhǔn) DDR 具有更快的訪問速度。

內(nèi)存大?。?/span>內(nèi)存的大小同樣會(huì)影響訪問速度。一般而言,內(nèi)存越大,其訪問速度可能會(huì)相對較慢,這是因?yàn)楦蟮膬?nèi)存意味著控制器需要處理更多的數(shù)據(jù)位,從而可能增加訪問延遲。


內(nèi)存控制器的優(yōu)化程度:內(nèi)存控制器的優(yōu)化也會(huì)對訪問速度產(chǎn)生影響。優(yōu)化不足可能導(dǎo)致訪問速度受限,而過度優(yōu)化則可能增加系統(tǒng)的復(fù)雜性,甚至可能影響系統(tǒng)的整體穩(wěn)定性。

數(shù)據(jù)傳輸模式:數(shù)據(jù)的傳輸模式同樣會(huì)影響訪問速度。例如,采用突發(fā)傳輸模式可以有效地提升內(nèi)存訪問的效率,進(jìn)而減少訪問延遲。


2. 存儲(chǔ)器帶寬評估

假設(shè)座艙 SoC 采用的主存是 LPDDR5(Low Power DDR v5,第 5 代低功耗 DDR 存儲(chǔ)器),我們按如下的條件來計(jì)算帶寬理論值。

1 )DDR(Double Data Rate ,雙倍數(shù)據(jù)速率)技術(shù):DDR 是 DRAM(動(dòng)態(tài)隨機(jī)存儲(chǔ)器) 的一種類型。DDR 在每個(gè)時(shí)鐘周期的上升沿和下降沿都傳輸數(shù)據(jù),因此每個(gè)時(shí)鐘周期內(nèi)實(shí)際可以傳輸兩次數(shù)據(jù)。計(jì)算 DDR 帶寬時(shí),需將時(shí)鐘頻率乘以 2,以得出實(shí)際的數(shù)據(jù)傳輸速率。

2)等效時(shí)鐘頻率:LPDDR5 的標(biāo)準(zhǔn)核心時(shí)鐘頻率為 200MHz 。DDR 內(nèi)存的預(yù)取數(shù)據(jù)位通常為 16 位,意味著在每個(gè)時(shí)鐘周期內(nèi),DDR 核心會(huì)預(yù)取 16位數(shù)據(jù)到I/O緩沖區(qū)。因此,有效傳輸速率為200MHz × 16 = 3200Mbit/s,常用 LPDDR5@3200Mbit/s 表示等效的數(shù)據(jù)時(shí)鐘頻率。

3 )數(shù)據(jù)位寬:LPDDR5 的數(shù)據(jù)位寬由通道數(shù)和每通道位寬決定。常見的配置有4通道或8 通道,每通道的位寬通常為16位。因此,8通道 LPDDR5 的數(shù)據(jù)位寬為 8 × 16=  128 位。

4 )DDR 理論數(shù)據(jù)傳輸速率,計(jì)算公式如下。

圖片

所以,對于 3200Mbit/s 的時(shí)鐘頻率和 128 位的數(shù)據(jù)位寬,理論傳輸速率為 3200 × 128 ×2/8 = 100GB/s。注意傳輸速率是以字節(jié)為單位進(jìn)行計(jì)算的。

綜上所述,衡量 LPDDR5 帶寬速率時(shí),需考慮以下三個(gè)關(guān)鍵因素:等效時(shí)鐘頻率(例如 3200Mbit/s)、通道數(shù)(可能是 4 或 8)以及通道位寬(根據(jù) DDR 供應(yīng)鏈的標(biāo)準(zhǔn),通道位寬一般都是統(tǒng)一的 16 位)。

DDR 是影響 SoC 性能的關(guān)鍵因素之一,在評估座艙的計(jì)算能力時(shí),系統(tǒng)架構(gòu)師會(huì)綜合考慮多個(gè)方面,通常會(huì)將 CPU 、GPU 、NPU 和 DDR 帶寬數(shù)據(jù)一并納入評估范圍。

#06芯片算力評估實(shí)例


在詳細(xì)闡述了座艙 SoC 算力評估的基本原理之后,我們將借助一個(gè)具體的實(shí)例,深入探討如何對座艙 SoC 的性能進(jìn)行準(zhǔn)確評估,從而判斷 SoC 是否能夠滿足我們的實(shí)際需求。

當(dāng)主機(jī)廠計(jì)劃引入一顆全新的座艙 SoC 時(shí),進(jìn)行算力評估是不可或缺的一環(huán)。這種評估并非僅僅局限于靜態(tài)地對比兩顆芯片的算力指標(biāo),而是需要緊密結(jié)合實(shí)際使用場景,深入分析和判斷新 SoC 在何種程度上能夠勝任智能座艙的多元化需求。

6.1 座艙使用場景假設(shè)

我們需要對智能座艙的使用場景進(jìn)行一項(xiàng)假設(shè)性分析。

假設(shè)在當(dāng)前的項(xiàng)目中,我們采用的是高通公司的 SA8155 芯片作為智能座艙 SoC。為了滿足新一代車型產(chǎn)品的市場需求和性能要求,我們需要評估是繼續(xù)使用 SA8155 芯片,還是需要替換為算力更高的座艙 SoC?為得到有依據(jù)的結(jié)論,我們需要先針對新舊兩代車型產(chǎn)品的智能座艙功能進(jìn)行詳細(xì)的對比分析。表9 列舉了座艙的部分使用場景,以便進(jìn)行評估。

表9  智能座艙使用場景范例


功能項(xiàng)上一代智能座艙場景新一代智能座艙場景中控娛樂屏顯示采用分辨率為1920 ×1080的高清分辨率屏幕采用分辨率為3840 ×2160的4K分辨率顯示屏多媒體音視頻播放要求支持2 路1920 ×1080 的高清分辨率視頻同時(shí)播放要求支持4路3840×2160 分辨率的視頻同時(shí)播放玩大型游戲無要求在中控大屏上能支持《原神》游戲HUD 顯示支持600×400 分辨率的W-HUD(直投風(fēng)擋玻璃的抬頭顯示器)要求支持1600×800 分辨率的AR-HUD360° 環(huán)視攝像頭顯示只能支持4 路攝像頭同時(shí)顯示可以支持4路攝像頭環(huán)視拼接,并實(shí)現(xiàn)鷹眼圖,可用于自動(dòng)泊車功能后排娛樂屏顯示無支持分辨率為1920 ×1080 的高清顯示屏

分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號-25