NVIDIA Spectrum-X 助力 DDN A3I 打造 AI 存儲以太網(wǎng) RDMA 性能新標桿

2024-08-23 11:37:29· 來源：NVIDIA英偉達企業(yè)解決方案

為了能夠從數(shù)據(jù)中獲得所需的洞察力，企業(yè)和組織需要創(chuàng)建、分析和保存海量的數(shù)據(jù)。想要快速利用業(yè)務(wù)中的數(shù)據(jù)轉(zhuǎn)換技術(shù)和經(jīng)營模式，企業(yè)信息數(shù)據(jù)需要貫通大數(shù)據(jù)、混合云以及 AI 等先進的數(shù)據(jù)分析平臺，從而實現(xiàn)創(chuàng)新并帶來商業(yè)價值。

DDN A3I 面向企業(yè)提供一種全新架構(gòu)的存儲解決方案，使企業(yè)可以引入 PB 級別的業(yè)務(wù)數(shù)據(jù)信息，并且能夠進行實時高速的數(shù)據(jù)處理，直接面對數(shù)十/百個傳統(tǒng)業(yè)務(wù) GB 或者 TB 級別的匯聚數(shù)據(jù)流。這將使企業(yè)可以從容面對數(shù)據(jù)智能化轉(zhuǎn)型過程中，以 EB 或 PB 為單位的數(shù)據(jù)挑戰(zhàn)，進而能夠做出快速有效的決策，從而快速推動企業(yè)的業(yè)務(wù)向前發(fā)展。

DDN A3I 的聯(lián)合解決方案是與 NVIDIA 的 DPU 和 GPU 進行的資格認證、基準測試和優(yōu)化的集合體。能為生成式 AI、推理、訓(xùn)練、AI 軟件架構(gòu)套件以及多 GPU 節(jié)點 HPC 并發(fā)集群等提供可預(yù)測的性能，容量和能力。通過 A3I 優(yōu)化的參考架構(gòu)可以把存儲設(shè)備潛在的最大性能通過由 NVIDIA SN5600 交換機和 BlueField-3 構(gòu)成的 Spectrum-X AI 以太網(wǎng)平臺直接暴露給上層應(yīng)用程序，參與數(shù)據(jù)交付和存儲的每一層硬件和軟件均經(jīng)過優(yōu)化，以實現(xiàn)迅速、低延時響應(yīng)和可靠的訪問。

NVIDIA Spectrum-4 SN5600 交換機是業(yè)界首款面向 AI 以太網(wǎng)打造 51.2T 超大轉(zhuǎn)發(fā)容量的交換機，具備業(yè)界超低的轉(zhuǎn)發(fā)時延并支持多達 256 個 200GE 端口，可以極大的簡化 AI 集群南北向存儲網(wǎng)絡(luò)架構(gòu)并降低部署成本，同時結(jié)合 NVIDIA 最新一代 DPU 產(chǎn)品 BlueField-3，可以在通過 Lossless RoCE 網(wǎng)絡(luò)構(gòu)建超高性能 AI 存儲網(wǎng)絡(luò)的基礎(chǔ)上實現(xiàn)多種虛擬化應(yīng)用的卸載，將控制面和存儲面整合到一個網(wǎng)絡(luò)中，簡化 AI 集群網(wǎng)絡(luò)的部署，為客戶創(chuàng)造更多價值。

1. DDN A3I 解決方案參考架構(gòu)

DDN A3I 作為一種高性能的并行數(shù)據(jù)存儲解決方案，可以幫助用戶更快速地獲得所需的計算或分析結(jié)果，管理快速擴展的數(shù)據(jù)和基礎(chǔ)架構(gòu)，同時確保數(shù)據(jù)安全性并降低總體存儲成本。

DDN A3I 中的參考架構(gòu)是在與 NVIDIA 密切合作中設(shè)計、開發(fā)和優(yōu)化的成果。將用于驅(qū)動全球最大超級計算機的先進技術(shù)，整合成一款易于部署和管理的 HGX 系統(tǒng)解決方案。被證明能夠最大限度地提升在 HGX 系統(tǒng)上處理大規(guī)模 AI 任務(wù)、分析海量數(shù)據(jù)和進行高性能計算（HPC）等工作負載的效益。

以下是 DDN A3I 參考架構(gòu)的領(lǐng)先功能特性：

1.1 DDN A3I 技術(shù)特性簡介

共享并發(fā)式架構(gòu)： DDN A3I 共享式并行架構(gòu)和客戶端協(xié)議建立多個并行數(shù)據(jù)路徑，從驅(qū)動器延伸至在 HGX 系統(tǒng)中運行的容器化應(yīng)用程序，利用 DDN 的真正端到端并行能力，數(shù)據(jù)以高吞吐量、低延遲和巨量的事務(wù)并發(fā)傳送。

Multi-Rail 多軌網(wǎng)絡(luò)：DDN A3I 多軌網(wǎng)絡(luò)功能可實現(xiàn) HGX 系統(tǒng)上多個網(wǎng)絡(luò)接口的流量性能歸并，從而在無需 Channel group 或 Bonding 等交換機配置的情況下，實現(xiàn)更快的數(shù)據(jù)傳輸匯聚能力。支持最新一代的 NVIDIA Quantum InfiniBand 和 Spectrum-X RoCE 以太網(wǎng)技術(shù)，在應(yīng)用程序、計算服務(wù)器和存儲設(shè)備之間提供了高帶寬和低延遲的數(shù)據(jù)傳輸。

DDN A3I 熱數(shù)據(jù)節(jié)點：DDN Hot Nodes 是一款強大的軟件增強功能，使得在 HGX 系統(tǒng)中可以將 NVME 設(shè)備用作只讀操作的本地緩存。這種方法顯著提高了應(yīng)用程序的性能，特別是在特定工作流程中多次訪問數(shù)據(jù)集時發(fā)生。本地緩存的使用有效地消除了重復(fù)的網(wǎng)絡(luò)數(shù)據(jù)交換和共享存儲的壓力。

NVIDIA 系統(tǒng)中的應(yīng)用容器可與 DDN 并行文件系統(tǒng)實現(xiàn)高性能直通連接。這帶來了顯著的應(yīng)用性能提升，使得容器應(yīng)用能夠直接與 DDN 并行文件系統(tǒng)進行低延遲、高吞吐量的并行數(shù)據(jù)訪問。此外，多個容器之間共享單一主機級存儲連接的限制也隨之消失。DDN 的容器內(nèi)文件系統(tǒng)掛載功能通過一個通用的 Wrapper 在運行時添加，無需對應(yīng)用或容器進行任何修改。

智能客戶端的優(yōu)勢：智能客戶端了解數(shù)據(jù)的本地性，通過查詢元數(shù)據(jù)服務(wù)器確定數(shù)據(jù)位置，從而提高單一 IO 的并發(fā)度讀獲取優(yōu)化性能?？蛻舳嗽谠獢?shù)據(jù)緩存中，可處理多個任務(wù)，包括元數(shù)據(jù)請求，從而實現(xiàn)可擴展的性能。

用戶可見性和管理：系統(tǒng)提供基于 Web 的儀表板（Insight），用于監(jiān)控和管理基礎(chǔ)設(shè)施，顯示關(guān)于電源供應(yīng)健康、容量消耗等的信息。

1.2 DDN A3I 存儲網(wǎng)絡(luò)參考配置

在設(shè)計 AI 系統(tǒng)整體架構(gòu)時，會涉及多種網(wǎng)絡(luò)類型。而存儲網(wǎng)絡(luò)負責為 AI400X2T 和 GPU 計算節(jié)點，管理節(jié)點之間提供數(shù)據(jù)連接，該網(wǎng)絡(luò)對上層 AI/HPC 應(yīng)用的數(shù)據(jù)吞吐，低延遲和擴展能力發(fā)揮重要的作用。有了充分發(fā)揮網(wǎng)絡(luò)優(yōu)化的低延時效果，DDN 會要求存儲網(wǎng)絡(luò)設(shè)置為 RDMA over Converged Ethernet（RoCE）模式，使得節(jié)點之間的數(shù)據(jù)交換，跨越系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)闹虚g環(huán)節(jié)，直接進入內(nèi)存直接訪問。

NVIDIA Spectrum-4 SN5600 交換機是一款高性能 RoCE 網(wǎng)絡(luò)交換機，提供高達 51.2Tbps 的轉(zhuǎn)發(fā)能力。在 2U 空間內(nèi)采用 64 個 OSFP 端口提供 128 個 400GbE 端口或者 256 個 200GbE 端口。

在NVIDIA SuperPOD 的參考架構(gòu)中，使用兩臺冗余的 SN5600 即可實現(xiàn) 4 個 SU 的 SuperPOD 與 DDN storage 的數(shù)據(jù)中心級別無阻塞網(wǎng)絡(luò)連接。

2. DDN AI400X2T & NVIDIA SN5600 性能驗證

2.1 驗證環(huán)境簡介

本次驗證環(huán)境由一臺 DDN AI400X2 Turbo，一臺 NVIDIA Spectrum-4 SN5600，6 臺服務(wù)器構(gòu)成。用于測試的服務(wù)器部署 NVIDIA BlueField-3 通過 RoCE（RDMA over Converged Ethernet）模式掛接到 AI400X2 Turbo 存儲設(shè)備。

2.2 驗證性能結(jié)果

性能測試用于證明 DDN AI400X2T 和 NVIDIA Spectrum-4 SN5600 進行低延時網(wǎng)絡(luò)連接的環(huán)境中，存儲和存儲網(wǎng)絡(luò)的數(shù)據(jù)流量可以達到 AI400X2 Turbo 的最高帶寬峰值。驗證的性能測試工具使用的是開源的 FIO 性能測試工具，通過模擬普通系統(tǒng)工作負載產(chǎn)生的 I/O 數(shù)據(jù)流來測量 AI400X2 Turbo/NVIDIA SN5600 的性能峰值。

FIO 的性能壓力參數(shù)設(shè)置如下：

Direct=1
ioengine=libaio
rw=randread/randwrite
Numjobs=64

性能測試分別按照 1，2，4，6 個 server 客戶端同時連接到 AI400X2 Turbo，模擬多用戶并發(fā)訪問的數(shù)據(jù)壓力向 AI400X2T 發(fā)起 IO 請求。

從上面數(shù)據(jù)可以看出，單個 Client 節(jié)點壓力，采用 NVIDIA Spectrum-X 平臺的 AI400X2 Turbo 可以提供高達 65GBps 隨機讀和接近 50GBps 隨機寫的能力，保障 AI 場景內(nèi)任意節(jié)點具備超高的數(shù)據(jù)訪問能力，同時多節(jié)點并發(fā)數(shù)據(jù)訪問的前提下，憑借 NVIDIA Spectrum-X 無損網(wǎng)絡(luò)及 AI400X2 Turbo 優(yōu)秀的存儲能力，提供了 115GBps 隨機讀和 80GBps 隨機寫的超高性能。

3. 成功案例

3.1 商業(yè)背景

某海外智算云公司為亞太地區(qū)和東南亞企業(yè)提供基于 AI 模型的機器學(xué)習(xí)、推理、視頻渲染編解碼等 GPU 算力云服務(wù)，滿足亞太地區(qū)客戶的人工智能計算需求。公司旨在提供 AI 智算的端到端解決方案，幫助企業(yè)和個人更有效、更快捷地利用人工智能的基礎(chǔ)設(shè)施。其服務(wù)涵蓋了當前最流行的行業(yè)領(lǐng)域應(yīng)用和 framework，例如生成式 AI、新材料、基因工程、無人駕駛、游戲、圖像處理、智能制造以及虛擬現(xiàn)實等。

3.2 業(yè)務(wù)挑戰(zhàn)

隨著在東南亞越來越多企業(yè)和研究機構(gòu)開始運用 AI 智算服務(wù)，數(shù)據(jù)中心數(shù)據(jù)量不斷增長，同時算力資源需求也隨之膨脹。提升智算資源的周轉(zhuǎn)頻率，合理規(guī)劃智算資源分配，才能滿足用戶高質(zhì)量的 SLA，達成 GPU 算力成本競爭力的規(guī)模化效應(yīng)，提升智算性能和資源效率優(yōu)化效果，并非通過簡單的疊加計算資源和增加并行計算能力可以得到。

從不同 AI framework 運行整個生命周期角度進行觀察，每個 epoch 在不同階段會不同程度地依賴 OS Kernel、存儲、網(wǎng)絡(luò)、文件系統(tǒng)等非 GPU 算力資源，尤其在系統(tǒng)中存在多并發(fā) Epoch 時，不同資源爭用導(dǎo)致的瓶頸相互疊加，使得智算資源的實際運行效果無法達到期望的疊加效果。

3.3 解決方案

DDN A3I 提供給客戶基于 AI 智算全鏈路優(yōu)化的存儲和網(wǎng)絡(luò)解決方案如下：

· DDN A3I 采用分布式文件系統(tǒng)架構(gòu)消除系統(tǒng)熱點數(shù)據(jù)，大量減少并發(fā)訪問征用鎖沖突。消除在多AI training 場景下的 checkpoint 等待時間。

· DDN 通過 Multi Rail 網(wǎng)絡(luò)并行技術(shù)，使得數(shù)據(jù)訪問數(shù)據(jù)傳輸不再局限于一個端口的帶寬流量，大大減少 epoch 的 First iteration 資源占用時間窗口。

· DDN 全 NVMe 的 Hot node 技術(shù)，把前端計算節(jié)點本地緩存與后端 A3I 存儲性能集成，使得 dataset 的反復(fù)讀取速度大幅提升，減少網(wǎng)絡(luò)流量帶來的網(wǎng)絡(luò)阻塞和等待。

· NVIDIA 的加速以太網(wǎng)技術(shù)，通過 RoCE（RDMA over Converged Ethernet）實現(xiàn)遠程的計算節(jié)點的內(nèi)存訪問模式，降低了網(wǎng)絡(luò)通信延時，增加了網(wǎng)絡(luò)帶寬，提升了網(wǎng)絡(luò)數(shù)據(jù)交換效率。

· SN5600 交換機采用 Spine-Leaf 架構(gòu)，具有高可擴展性，可以滿足未來客戶數(shù)據(jù)中心擴建、增配等發(fā)展規(guī)劃。

3.4 性能驗證

為了智算云客戶提供對應(yīng)的 SLA 和 QoS，驗證 DDN A3I 解決方案為客戶的大型智算集群所提供的性能支撐能力，在 DDN AI400X2 儲系統(tǒng)部署優(yōu)化完成后，現(xiàn)場對并行文件系統(tǒng)進行了基于 IOPS 和 GBps 的性能測試。通過 14 個 server 并行連接 AI400X2 存儲，模擬 14 個客戶端同時啟用 64 個并發(fā)進程，對存儲發(fā)起隨機讀、隨機寫請求的場景下，測試結(jié)果如下：

測試類型	并發(fā)客戶端數(shù)量	性能
隨機讀取	14	12.7 MIOPS
隨機寫入	14	2.4 MIOPS
順序讀取	14	360 GBps
順序?qū)懭?	14	264 GBps

總結(jié)

展望未來，隨著 AI 技術(shù)的不斷發(fā)展，AI 集群規(guī)模不斷變大，各種人工智能的應(yīng)用對高性能存儲的要求將會變得更加苛刻，新的 AI 數(shù)據(jù)中心不僅需要高性能的AI計算網(wǎng)絡(luò)來提供高性能的東西向通信，同時也需要高性能的 AI 存儲網(wǎng)絡(luò)來確保南北向的通信性能。

DDN AI400X2 Turbo 結(jié)合 NVIDIA Spectrum-X 以太網(wǎng)平臺面對這一趨勢，提供了高性能、低延遲和高吞吐量的網(wǎng)絡(luò)存儲方案滿足萬卡規(guī)模 AI 集群的數(shù)據(jù)訪問能力。這必將會成為 AI 應(yīng)用的基石，推動 AI 技術(shù)的進一步發(fā)展和應(yīng)用，從而帶來更大的經(jīng)濟和社會效益。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：奇石樂動態(tài)稱重（WIM）系統(tǒng)：實時檢測超載，高效保護基礎(chǔ)設(shè)施
上一篇：

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

NVIDIA Spectrum-X 助力 DDN A3I 打造 AI 存儲以太網(wǎng) RDMA 性能新標桿

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工