NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

2024-05-08 09:05:39· 來源：NVIDIA英偉達網(wǎng)絡(luò)

在混合云與 AI 的時代，企業(yè)和組織需要創(chuàng)建、分析和保存海量的數(shù)據(jù)，在分布式的應(yīng)用環(huán)境中會形成各種各樣的數(shù)據(jù)孤島，導(dǎo)致復(fù)雜系統(tǒng)難以管理，成本不斷增加。為了能夠更快速地從數(shù)據(jù)中獲得所需的洞察力，其底層的信息架構(gòu)必須支持混合云、大數(shù)據(jù)和人工智能（AI）工作負載以及傳統(tǒng)應(yīng)用，同時確保安全性、可靠性、數(shù)據(jù)效率和高性能，還需要能夠無縫擴展來應(yīng)對非結(jié)構(gòu)化數(shù)據(jù)的飛速增長。

IBM Storage Scale 作為一種高性能的并行數(shù)據(jù)存儲解決方案，可以幫助用戶更快速地獲得所需的計算或分析結(jié)果，管理快速擴展的數(shù)據(jù)和基礎(chǔ)架構(gòu)，同時確保數(shù)據(jù)安全性并降低總體存儲成本。

圖1：AI 與混合云對數(shù)據(jù)存儲的需求

面對生成式 AI 的爆炸式發(fā)展，GPU 集群的運算性能至關(guān)重要，不僅需要更高的 GPU 的計算能力和更快的存儲，同時需要專用的網(wǎng)絡(luò)基礎(chǔ)設(shè)施來確保多個節(jié)點并行的最佳性能。NVIDIA 開發(fā)了業(yè)界首款面向 AI 的以太網(wǎng)網(wǎng)絡(luò)平臺 - Spectrum-X ，旨在增強 AI 云的性能和效率。Spectrum-X 平臺的核心是 NVIDIA Spectrum-4 以太網(wǎng)交換機、NVIDIA BlueField®-3 SuperNIC/DPU、NVIDIA DOCA 軟件棧及交換機軟件棧和 NVIDIA linkX 高品質(zhì)互連設(shè)備，這種組合構(gòu)成了 AI 加速計算網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)。NVIDIA 將 BlueField-3 SuperNIC 和 DPU 集成到其面向 AI 訓(xùn)練、推薦及推理等各種系統(tǒng)中，不僅滿足以太網(wǎng)在多租戶云上的各種需求，同時保證了 AI 集群最好的運算及存儲性能。

圖2：NVIDIA Spectrum-X 平臺介紹

在 AI 云存儲平臺的選擇上，IBM Storage Scale 可提供經(jīng)過驗證的企業(yè)級數(shù)據(jù)平臺。IBM Storage Scale 源自 GPFS，有超過 30 年的研發(fā)歷史，在全球有大量成功部署的經(jīng)驗，廣泛應(yīng)用在業(yè)界超大規(guī)模和需求嚴苛的應(yīng)用環(huán)境，包括過去幾十年間全球性能最強的人工智能和高性能計算環(huán)境。

為了滿足不同類型應(yīng)用的數(shù)據(jù)訪問需求，IBM Storage Scale 能夠?qū)⑽募?、大?shù)據(jù)分析、對象和容器應(yīng)用的接口集成到一個統(tǒng)一的向外擴展的存儲解決方案之中。它可為所有這些數(shù)據(jù)提供一個統(tǒng)一的命名空間，實現(xiàn)協(xié)議互通，并通過直觀的圖形用戶界面（GUI）提供單點管理。通過對最終用戶透明的存儲策略，可對數(shù)據(jù)進行分層、壓縮或遷移到磁帶或云端，以降低成本；數(shù)據(jù)還可以分層到高性能數(shù)據(jù)存儲介質(zhì)，包括服務(wù)器緩存，進而降低延遲、提升性能。遠程站點的智能數(shù)據(jù)緩存可確保借助活動文件管理（AFM）功能以本地讀/寫性能在地域分散的各個站點之間提供數(shù)據(jù)，不需要復(fù)制全部數(shù)據(jù)，減少數(shù)據(jù)傳遞的網(wǎng)絡(luò)開銷。

圖3：IBM Storage Scale 概覽

對于 AI 集群應(yīng)用來說，為了滿足不斷提高的算力和各種基礎(chǔ)模型對更大參數(shù)規(guī)模的需要，也需要更高速的數(shù)據(jù)訪問能力，避免因為存力不足導(dǎo)致的低效 I/O使得 GPU 無用武之地。由多臺服務(wù)組成的 GPU 服務(wù)器集群需要數(shù)百 GBps 到數(shù) TBps 的高速數(shù)據(jù)存儲才能滿足其對存力的需求；此外，為了提升 GPU 的應(yīng)用效率，NVIDIA 開發(fā)了 GPUDirect Storage 技術(shù)，可以通過 RDMA 高速網(wǎng)絡(luò)直接將數(shù)據(jù)從外部存儲傳輸至 GPU 顯存上，能有效減輕 CPU I/O 的瓶頸，提升 GPU 訪問數(shù)據(jù)的帶寬并大幅縮短通信延遲；此外，對于 AI 應(yīng)用來說，從數(shù)據(jù)攝入到生產(chǎn)推理，每個環(huán)節(jié)都需要利用不同工具實現(xiàn)海量數(shù)據(jù)處理，并且這是一個不斷重復(fù)的流程。用戶需要構(gòu)建的端到端的高速數(shù)據(jù)管道，簡化流程并實現(xiàn)數(shù)據(jù)安全、高效的流動。

經(jīng)過充分優(yōu)化的 IBM Storage Scale System 可以充分發(fā)揮并行架構(gòu)和高速網(wǎng)絡(luò)的優(yōu)勢，加速各種 AI 工作負載應(yīng)用，具備以下優(yōu)勢：

極致性能：提供業(yè)界領(lǐng)先的文件讀寫性能，目前單個 SSS 模塊可提供超過 310 GB/s 的文件訪問帶寬和 13M IOPS，可擴展到上千個模塊滿足更高性能和容量的需求，同時內(nèi)置的 Decluster RAID 技術(shù)可以最小化各種硬件故障對性能的影響；

認證支持：IBM Storage Scale 是 NVIDIA 官方認證支持 GPUDirect Storage 的存儲技術(shù)，能夠避免 GPU 的 I/O 瓶頸，幫助用戶加速各種 AI 業(yè)務(wù) 和數(shù)據(jù)密集型應(yīng)用，同時大幅度提升寶貴 GPU 資源的利用率；

全局訪問：IBM Storage Scale 提供的全局數(shù)據(jù)平臺訪問能力，支持多種應(yīng)用訪問協(xié)議互通（如對象、容器、HDFS 等等）和不同存儲環(huán)境，實現(xiàn)數(shù)據(jù)的整合和調(diào)度，結(jié)合其它存儲設(shè)備（包括磁帶）實現(xiàn)分層存儲，降低數(shù)據(jù)總體擁有成本，提升端到端的數(shù)據(jù)處理效率；

安全彈性：提供端到端的全面數(shù)據(jù)安全彈性解決方案，包括完善的數(shù)據(jù)高可用和容災(zāi)解決方案，以及用于實現(xiàn)網(wǎng)絡(luò)安全彈性的 Safeguarded Copy 和安全日志審計能力。

圖4：單個 IBM SSS 6000 模塊性能實測結(jié)果

為了充分發(fā)揮 IBM Storage Scale 高帶寬、低時延的優(yōu)勢，通常用戶會采用支持 RDMA 的網(wǎng)絡(luò)來進行數(shù)據(jù)訪問，包括 InfiniBand 網(wǎng)絡(luò)和 RoCE（RDMA over Converged Ethernet）網(wǎng)絡(luò)。NVIDIA Spectrum-X 平臺具備 NVIDIA 獨有的 Adapt Routing 等專門面向 AI 的以太網(wǎng)網(wǎng)絡(luò)優(yōu)化技術(shù)，可以在大規(guī)模集群中充分發(fā)揮出存儲系統(tǒng)的高帶寬的性能，為客戶打造高性能且穩(wěn)定運行的 AI 集群提供穩(wěn)定的網(wǎng)絡(luò)基礎(chǔ)。

以 AI 集群的數(shù)據(jù)業(yè)務(wù)流為例，數(shù)據(jù)從 GPU 顯存到網(wǎng)絡(luò)存儲服務(wù)器的網(wǎng)絡(luò)路徑會經(jīng)過 GPU 集群上存儲平面的 Leaf 交換機到 Spine 交換機，再到 Leaf 交換機，最后連接到存儲服務(wù)器；AI 存儲業(yè)務(wù)是典型的大象流，傳統(tǒng)的以太網(wǎng)交換機是基于流為粒度的負載分擔，不難看出 GPU 集群內(nèi)的 Leaf 層交換機和 Spine 交換機之間會有多條等價路徑，包括 Leaf 到不同 Spine 的等價路徑，也包括同一 Leaf 到 Spine 內(nèi)多條鏈路的等價路徑，但是由于寫數(shù)據(jù)流 Hash key 值高度一致，導(dǎo)致，在 Leaf 層交換機不能將流充分的分配到不同的等價路徑上，這樣的技術(shù)對于目前大規(guī)模 AI 集群內(nèi)的存儲業(yè)務(wù)來說會影響存儲數(shù)據(jù)流的傳輸帶寬，即便存儲系統(tǒng)本身性能強大，也會因為網(wǎng)絡(luò)成為瓶頸而不能發(fā)揮出應(yīng)有的性能；而當采用 Adapt Routing 技術(shù)之后，由于是基于數(shù)據(jù)包為粒度的轉(zhuǎn)發(fā)機制，無論存儲數(shù)據(jù)流的數(shù)量大小，都可以均勻的將流量轉(zhuǎn)發(fā)到所有等價路徑上，從而消除網(wǎng)絡(luò)上的瓶頸，最大化的利用存儲系統(tǒng)的性能，提升存儲帶寬、降低存儲平面時延。這對基于以太網(wǎng)絡(luò)構(gòu)建 AI 集群極為重要。

圖5：開啟 AR 和關(guān)閉 AR 的轉(zhuǎn)發(fā)路徑對比

為了展示 Spectrum-X 平臺在存儲領(lǐng)域內(nèi)的實際效果，如下圖所示，搭建一個 Demo 環(huán)境用于模擬 AI 存儲應(yīng)用的典型場景，采用 4 臺搭載 NVIDIA BlueField-3 的服務(wù)器，兩臺計算節(jié)點配備 BlueField-3 DPU，兩臺存儲節(jié)點配備 BlueField-3 SuperNIC，采用 6 臺搭載 Spectrum-4 交換芯片的 SN5600 交換機組成典型的兩層 Spine-Leaf 胖樹網(wǎng)絡(luò)；并且，BlueField DPU 和 SuperNIC 均為為雙端口卡，每個端口連接到不同的 Leaf 交換機上，保證存儲平面的高可靠，同時開啟端口 Bonding，使得可以最大化利用端口性能。測試覆蓋 2 打 1 和 2 打 2 兩種場景，構(gòu)造 RDMA 流量進行測試。

圖6：Spectrum-X 存儲 AR 測試 Topo

在 2 打 1 和 2 打 2 的場景下，兩個計算節(jié)點同時發(fā)送流量給一個或 2 個存儲節(jié)點，模擬典型的存儲寫場景，對交換網(wǎng)絡(luò)的影響。在測試過程中，分別開啟 Adapt Routing 和關(guān)閉 Adapt Routing，收集接受端網(wǎng)絡(luò)帶寬，用于對比性能差異，測試如數(shù)據(jù)下圖所示，可以清楚看到，開啟 Adapt Routing 之后無論是 2 打 1，還是 2 打 2 場景，接受端網(wǎng)絡(luò)帶寬都已經(jīng)接近物理帶寬 95% 以上。在沒有開啟 Adapt Routing 測試用例，流量在交換機之間網(wǎng)絡(luò)帶寬利用率大幅下降，最終測試的帶寬不足開啟 Adapt Routing 的一半。從而可以看出，采用了 Adapt Routing 技術(shù)的 Spectrum-X 平臺可以有效的解決存儲網(wǎng)絡(luò)內(nèi)帶寬瓶頸，充分發(fā)揮存儲系統(tǒng)的性能，從而提升 AI 集群整體的效能。

圖7：2 打 1 和 2 打 2 場景下開啟 Adapt Routing

和關(guān)閉 Adapt Routing 的帶寬對比

通過和 NVIDIA 網(wǎng)絡(luò)團隊的合作，采用 IBM Storage Scale 和 NVIDIA Spectrum-X 平臺實現(xiàn)軟件定義的數(shù)據(jù)基礎(chǔ)架構(gòu)，使得搭建在 Spectrum-X 平臺上 IBM 的 Storage Scale 不僅可以面向云上應(yīng)用提供基于以太網(wǎng)存儲生態(tài)的多種服務(wù)，同時也可以大幅提升存儲的性能，發(fā)揮出 IBM 的 Storage Scale 高吞吐大帶寬的性能優(yōu)勢，滿足 AI 時代云上高性能存儲數(shù)據(jù)的要求。解決新一代以數(shù)據(jù)為中心的基礎(chǔ)設(shè)施所面臨的挑戰(zhàn)和技術(shù)瓶頸，為 AI 云應(yīng)用提供高性能的底座，幫助客戶在混合云和 AI 時代實現(xiàn)競爭優(yōu)勢。

分享到：

微信“掃一掃”
分享到朋友圈

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工