日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

NVIDIA Spectrum-X 助力 DDN A3I 打造 AI 存儲以太網(wǎng) RDMA 性能新標桿

2024-08-23 11:37:29·  來源:NVIDIA英偉達企業(yè)解決方案  
 

為了能夠從數(shù)據(jù)中獲得所需的洞察力,企業(yè)和組織需要創(chuàng)建、分析和保存海量的數(shù)據(jù)。想要快速利用業(yè)務(wù)中的數(shù)據(jù)轉(zhuǎn)換技術(shù)和經(jīng)營模式,企業(yè)信息數(shù)據(jù)需要貫通大數(shù)據(jù)、混合云以及 AI 等先進的數(shù)據(jù)分析平臺,從而實現(xiàn)創(chuàng)新并帶來商業(yè)價值。


DDN A3I 面向企業(yè)提供一種全新架構(gòu)的存儲解決方案,使企業(yè)可以引入 PB 級別的業(yè)務(wù)數(shù)據(jù)信息,并且能夠進行實時高速的數(shù)據(jù)處理,直接面對數(shù)十/百個傳統(tǒng)業(yè)務(wù) GB 或者 TB 級別的匯聚數(shù)據(jù)流。這將使企業(yè)可以從容面對數(shù)據(jù)智能化轉(zhuǎn)型過程中,以 EB 或 PB 為單位的數(shù)據(jù)挑戰(zhàn),進而能夠做出快速有效的決策,從而快速推動企業(yè)的業(yè)務(wù)向前發(fā)展。


DDN A3I 的聯(lián)合解決方案是與 NVIDIA 的 DPU 和 GPU 進行的資格認證、基準測試和優(yōu)化的集合體。能為生成式 AI、推理、訓(xùn)練、AI 軟件架構(gòu)套件以及多 GPU 節(jié)點 HPC 并發(fā)集群等提供可預(yù)測的性能,容量和能力。通過 A3I 優(yōu)化的參考架構(gòu)可以把存儲設(shè)備潛在的最大性能通過由 NVIDIA SN5600 交換機和 BlueField-3 構(gòu)成的 Spectrum-X AI 以太網(wǎng)平臺直接暴露給上層應(yīng)用程序,參與數(shù)據(jù)交付和存儲的每一層硬件和軟件均經(jīng)過優(yōu)化,以實現(xiàn)迅速、低延時響應(yīng)和可靠的訪問。


NVIDIA Spectrum-4 SN5600 交換機是業(yè)界首款面向 AI 以太網(wǎng)打造 51.2T 超大轉(zhuǎn)發(fā)容量的交換機,具備業(yè)界超低的轉(zhuǎn)發(fā)時延并支持多達 256 個 200GE 端口,可以極大的簡化 AI 集群南北向存儲網(wǎng)絡(luò)架構(gòu)并降低部署成本,同時結(jié)合 NVIDIA 最新一代 DPU 產(chǎn)品 BlueField-3,可以在通過 Lossless RoCE 網(wǎng)絡(luò)構(gòu)建超高性能 AI 存儲網(wǎng)絡(luò)的基礎(chǔ)上實現(xiàn)多種虛擬化應(yīng)用的卸載,將控制面和存儲面整合到一個網(wǎng)絡(luò)中,簡化 AI 集群網(wǎng)絡(luò)的部署,為客戶創(chuàng)造更多價值。


1. DDN A3I 解決方案參考架構(gòu)


DDN A3I 作為一種高性能的并行數(shù)據(jù)存儲解決方案,可以幫助用戶更快速地獲得所需的計算或分析結(jié)果,管理快速擴展的數(shù)據(jù)和基礎(chǔ)架構(gòu),同時確保數(shù)據(jù)安全性并降低總體存儲成本。


DDN A3I 中的參考架構(gòu)是在與 NVIDIA 密切合作中設(shè)計、開發(fā)和優(yōu)化的成果。將用于驅(qū)動全球最大超級計算機的先進技術(shù),整合成一款易于部署和管理的 HGX 系統(tǒng)解決方案。被證明能夠最大限度地提升在 HGX 系統(tǒng)上處理大規(guī)模 AI 任務(wù)、分析海量數(shù)據(jù)和進行高性能計算(HPC)等工作負載的效益。


以下是 DDN A3I 參考架構(gòu)的領(lǐng)先功能特性:


1.1  DDN A3I 技術(shù)特性簡介


共享并發(fā)式架構(gòu): DDN A3I 共享式并行架構(gòu)和客戶端協(xié)議建立多個并行數(shù)據(jù)路徑,從驅(qū)動器延伸至在 HGX 系統(tǒng)中運行的容器化應(yīng)用程序,利用 DDN 的真正端到端并行能力,數(shù)據(jù)以高吞吐量、低延遲和巨量的事務(wù)并發(fā)傳送。


Multi-Rail 多軌網(wǎng)絡(luò):DDN A3I 多軌網(wǎng)絡(luò)功能可實現(xiàn) HGX 系統(tǒng)上多個網(wǎng)絡(luò)接口的流量性能歸并,從而在無需 Channel group 或 Bonding 等交換機配置的情況下,實現(xiàn)更快的數(shù)據(jù)傳輸匯聚能力。支持最新一代的 NVIDIA Quantum InfiniBand 和 Spectrum-X RoCE 以太網(wǎng)技術(shù),在應(yīng)用程序、計算服務(wù)器和存儲設(shè)備之間提供了高帶寬和低延遲的數(shù)據(jù)傳輸。


DDN A3I 熱數(shù)據(jù)節(jié)點:DDN Hot Nodes 是一款強大的軟件增強功能,使得在 HGX 系統(tǒng)中可以將 NVME 設(shè)備用作只讀操作的本地緩存。這種方法顯著提高了應(yīng)用程序的性能,特別是在特定工作流程中多次訪問數(shù)據(jù)集時發(fā)生。本地緩存的使用有效地消除了重復(fù)的網(wǎng)絡(luò)數(shù)據(jù)交換和共享存儲的壓力。


NVIDIA 系統(tǒng)中的應(yīng)用容器可與 DDN 并行文件系統(tǒng)實現(xiàn)高性能直通連接。這帶來了顯著的應(yīng)用性能提升,使得容器應(yīng)用能夠直接與 DDN 并行文件系統(tǒng)進行低延遲、高吞吐量的并行數(shù)據(jù)訪問。此外,多個容器之間共享單一主機級存儲連接的限制也隨之消失。DDN 的容器內(nèi)文件系統(tǒng)掛載功能通過一個通用的 Wrapper 在運行時添加,無需對應(yīng)用或容器進行任何修改。


智能客戶端的優(yōu)勢:智能客戶端了解數(shù)據(jù)的本地性,通過查詢元數(shù)據(jù)服務(wù)器確定數(shù)據(jù)位置,從而提高單一 IO 的并發(fā)度讀獲取優(yōu)化性能??蛻舳嗽谠獢?shù)據(jù)緩存中,可處理多個任務(wù),包括元數(shù)據(jù)請求,從而實現(xiàn)可擴展的性能。


用戶可見性和管理:系統(tǒng)提供基于 Web 的儀表板(Insight),用于監(jiān)控和管理基礎(chǔ)設(shè)施,顯示關(guān)于電源供應(yīng)健康、容量消耗等的信息。


1.2  DDN A3I 存儲網(wǎng)絡(luò)參考配置


在設(shè)計 AI 系統(tǒng)整體架構(gòu)時,會涉及多種網(wǎng)絡(luò)類型。而存儲網(wǎng)絡(luò)負責為 AI400X2T 和 GPU 計算節(jié)點,管理節(jié)點之間提供數(shù)據(jù)連接,該網(wǎng)絡(luò)對上層 AI/HPC 應(yīng)用的數(shù)據(jù)吞吐,低延遲和擴展能力發(fā)揮重要的作用。有了充分發(fā)揮網(wǎng)絡(luò)優(yōu)化的低延時效果,DDN 會要求存儲網(wǎng)絡(luò)設(shè)置為 RDMA over Converged Ethernet(RoCE)模式,使得節(jié)點之間的數(shù)據(jù)交換,跨越系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)闹虚g環(huán)節(jié),直接進入內(nèi)存直接訪問。


NVIDIA Spectrum-4 SN5600 交換機是一款高性能 RoCE 網(wǎng)絡(luò)交換機,提供高達 51.2Tbps 的轉(zhuǎn)發(fā)能力。在 2U 空間內(nèi)采用 64 個 OSFP 端口提供 128 個 400GbE 端口或者 256 個 200GbE 端口。


圖片


在NVIDIA SuperPOD 的參考架構(gòu)中,使用兩臺冗余的 SN5600 即可實現(xiàn) 4 個 SU 的 SuperPOD 與 DDN storage 的數(shù)據(jù)中心級別無阻塞網(wǎng)絡(luò)連接。

圖片


2. DDN AI400X2T & NVIDIA SN5600 性能驗證


2.1  驗證環(huán)境簡介


本次驗證環(huán)境由一臺 DDN AI400X2 Turbo,一臺 NVIDIA Spectrum-4 SN5600,6 臺服務(wù)器構(gòu)成。用于測試的服務(wù)器部署 NVIDIA BlueField-3 通過 RoCE(RDMA over Converged Ethernet)模式掛接到 AI400X2 Turbo 存儲設(shè)備。


圖片


2.2  驗證性能結(jié)果


性能測試用于證明 DDN AI400X2T 和 NVIDIA Spectrum-4 SN5600 進行低延時網(wǎng)絡(luò)連接的環(huán)境中,存儲和存儲網(wǎng)絡(luò)的數(shù)據(jù)流量可以達到 AI400X2 Turbo 的最高帶寬峰值。驗證的性能測試工具使用的是開源的 FIO 性能測試工具,通過模擬普通系統(tǒng)工作負載產(chǎn)生的 I/O 數(shù)據(jù)流來測量 AI400X2 Turbo/NVIDIA SN5600 的性能峰值。


FIO 的性能壓力參數(shù)設(shè)置如下:

  • Direct=1

  • ioengine=libaio

  • rw=randread/randwrite

  • Numjobs=64


性能測試分別按照 1,2,4,6 個 server 客戶端同時連接到 AI400X2 Turbo,模擬多用戶并發(fā)訪問的數(shù)據(jù)壓力向 AI400X2T 發(fā)起 IO 請求。

圖片


從上面數(shù)據(jù)可以看出,單個 Client 節(jié)點壓力,采用 NVIDIA Spectrum-X 平臺的 AI400X2 Turbo 可以提供高達 65GBps 隨機讀和接近 50GBps 隨機寫的能力,保障 AI 場景內(nèi)任意節(jié)點具備超高的數(shù)據(jù)訪問能力,同時多節(jié)點并發(fā)數(shù)據(jù)訪問的前提下,憑借 NVIDIA Spectrum-X 無損網(wǎng)絡(luò)及 AI400X2 Turbo 優(yōu)秀的存儲能力,提供了 115GBps 隨機讀和 80GBps 隨機寫的超高性能。


3. 成功案例


3.1  商業(yè)背景


某海外智算云公司為亞太地區(qū)和東南亞企業(yè)提供基于 AI 模型的機器學(xué)習(xí)、推理、視頻渲染編解碼等 GPU 算力云服務(wù),滿足亞太地區(qū)客戶的人工智能計算需求。公司旨在提供 AI 智算的端到端解決方案,幫助企業(yè)和個人更有效、更快捷地利用人工智能的基礎(chǔ)設(shè)施。其服務(wù)涵蓋了當前最流行的行業(yè)領(lǐng)域應(yīng)用和 framework,例如生成式 AI、新材料、基因工程、無人駕駛、游戲、圖像處理、智能制造以及虛擬現(xiàn)實等。


3.2  業(yè)務(wù)挑戰(zhàn)


隨著在東南亞越來越多企業(yè)和研究機構(gòu)開始運用 AI 智算服務(wù),數(shù)據(jù)中心數(shù)據(jù)量不斷增長,同時算力資源需求也隨之膨脹。提升智算資源的周轉(zhuǎn)頻率,合理規(guī)劃智算資源分配,才能滿足用戶高質(zhì)量的 SLA,達成 GPU 算力成本競爭力的規(guī)模化效應(yīng),提升智算性能和資源效率優(yōu)化效果,并非通過簡單的疊加計算資源和增加并行計算能力可以得到。


從不同 AI framework 運行整個生命周期角度進行觀察,每個 epoch 在不同階段會不同程度地依賴 OS Kernel、存儲、網(wǎng)絡(luò)、文件系統(tǒng)等非 GPU 算力資源,尤其在系統(tǒng)中存在多并發(fā) Epoch 時,不同資源爭用導(dǎo)致的瓶頸相互疊加,使得智算資源的實際運行效果無法達到期望的疊加效果。


3.3  解決方案


DDN A3I 提供給客戶基于 AI 智算全鏈路優(yōu)化的存儲和網(wǎng)絡(luò)解決方案如下:


圖片


· DDN A3I 采用分布式文件系統(tǒng)架構(gòu)消除系統(tǒng)熱點數(shù)據(jù),大量減少并發(fā)訪問征用鎖沖突。消除在多AI training 場景下的 checkpoint 等待時間。

· DDN 通過 Multi Rail 網(wǎng)絡(luò)并行技術(shù),使得數(shù)據(jù)訪問數(shù)據(jù)傳輸不再局限于一個端口的帶寬流量,大大減少 epoch 的 First iteration 資源占用時間窗口。

· DDN 全 NVMe 的 Hot node 技術(shù),把前端計算節(jié)點本地緩存與后端 A3I 存儲性能集成,使得 dataset 的反復(fù)讀取速度大幅提升,減少網(wǎng)絡(luò)流量帶來的網(wǎng)絡(luò)阻塞和等待。

· NVIDIA 的加速以太網(wǎng)技術(shù),通過 RoCE(RDMA over Converged Ethernet)實現(xiàn)遠程的計算節(jié)點的內(nèi)存訪問模式,降低了網(wǎng)絡(luò)通信延時,增加了網(wǎng)絡(luò)帶寬,提升了網(wǎng)絡(luò)數(shù)據(jù)交換效率。

· SN5600 交換機采用 Spine-Leaf 架構(gòu),具有高可擴展性,可以滿足未來客戶數(shù)據(jù)中心擴建、增配等發(fā)展規(guī)劃。


3.4  性能驗證


為了智算云客戶提供對應(yīng)的 SLA 和 QoS,驗證 DDN A3I 解決方案為客戶的大型智算集群所提供的性能支撐能力,在 DDN AI400X2 儲系統(tǒng)部署優(yōu)化完成后,現(xiàn)場對并行文件系統(tǒng)進行了基于 IOPS 和 GBps 的性能測試。通過 14 個 server 并行連接 AI400X2 存儲,模擬 14 個客戶端同時啟用 64 個并發(fā)進程,對存儲發(fā)起隨機讀、隨機寫請求的場景下,測試結(jié)果如下:


測試類型

并發(fā)客戶端數(shù)量

性能

隨機讀取

14

12.7 MIOPS

隨機寫入

14

2.4 MIOPS

順序讀取

14

360 GBps

順序?qū)懭?

14

264 GBps


總結(jié)


展望未來,隨著 AI 技術(shù)的不斷發(fā)展,AI 集群規(guī)模不斷變大,各種人工智能的應(yīng)用對高性能存儲的要求將會變得更加苛刻,新的 AI 數(shù)據(jù)中心不僅需要高性能的AI計算網(wǎng)絡(luò)來提供高性能的東西向通信,同時也需要高性能的 AI 存儲網(wǎng)絡(luò)來確保南北向的通信性能。


DDN AI400X2 Turbo 結(jié)合 NVIDIA Spectrum-X 以太網(wǎng)平臺面對這一趨勢,提供了高性能、低延遲和高吞吐量的網(wǎng)絡(luò)存儲方案滿足萬卡規(guī)模 AI 集群的數(shù)據(jù)訪問能力。這必將會成為 AI 應(yīng)用的基石,推動 AI 技術(shù)的進一步發(fā)展和應(yīng)用,從而帶來更大的經(jīng)濟和社會效益。

分享到:
滬ICP備11026917號-25