NVIDIA DOCA通過為開發(fā)者提供全面的軟件框架以利用硬件加速來增強(qiáng) NVIDIA 網(wǎng)絡(luò)平臺(tái)的功能,從而提高性能、安全性和效率。其 API、庫和工具生態(tài)系統(tǒng)簡化了數(shù)據(jù)中心基礎(chǔ)設(shè)施的開發(fā),實(shí)現(xiàn)了工作負(fù)載卸載、加速和隔離,以支持現(xiàn)代、高效的數(shù)據(jù)中心。
如今,許多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并且 DOCA 為快速開發(fā)和部署創(chuàng)新解決方案提供了標(biāo)準(zhǔn)化平臺(tái)。這種方法可加快上市時(shí)間、降低成本,并幫助合作伙伴在使用 NVIDIA 硬件加速的同時(shí)專注于自身的核心優(yōu)勢。
DOCA 培育的開放生態(tài)系統(tǒng)促進(jìn)了協(xié)作和互操作性,創(chuàng)造了各種互補(bǔ)解決方案。合作伙伴可以探索 AI 驅(qū)動(dòng)的網(wǎng)絡(luò)、高級(jí)安全和高性能存儲(chǔ)等新興市場,讓自己處于數(shù)據(jù)中心創(chuàng)新的前沿。
DOCA 2.9的最新版本標(biāo)志著 AI 計(jì)算網(wǎng)絡(luò)架構(gòu)和云計(jì)算基礎(chǔ)設(shè)施的重大進(jìn)步。這次全面的更新引入了許多新功能和改進(jìn)功能,有助于改變高性能計(jì)算和網(wǎng)絡(luò)格局。
圖 1:DOCA 2.9 架構(gòu)
利用增強(qiáng)的東西向計(jì)算網(wǎng)絡(luò)架構(gòu)優(yōu)化 AI 網(wǎng)絡(luò)
DOCA 2.9 版本的亮點(diǎn)包括改進(jìn)的擁塞控制和新的遙測庫,這對(duì)于優(yōu)化數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)流量至關(guān)重要,從而提供更好的性能、效率、可見性和控制。
支持 Spectrum-X 1.2 參考架構(gòu)
Spectrum-X(SPC-X) 1.2 參考架構(gòu)針對(duì)東西向以太網(wǎng) AI 云環(huán)境進(jìn)行了多項(xiàng)改進(jìn)。該更新支持大規(guī)模橫向擴(kuò)展能力,可在單個(gè)網(wǎng)絡(luò)架構(gòu)中容納多達(dá) 128K 個(gè) GPU。該架構(gòu)使用NVIDIA BlueField-3 SuperNIC和NVIDIA Spectrum-4 交換機(jī)的強(qiáng)大組合,連接到 NVIDIA DGX 和 NVIDIA HGX 平臺(tái),為 AI 工作負(fù)載提供出色的性能和效率。
DOCA 2.9 還改進(jìn)了 Spectrum-X 的遙測能力和擁塞控制算法。這有助于更精細(xì)、更實(shí)時(shí)地監(jiān)控網(wǎng)絡(luò)性能,并改進(jìn)拓?fù)?a target="_blank">檢測,這對(duì)于優(yōu)化大規(guī)模和長距離的 AI 工作負(fù)載至關(guān)重要。
DOCA 擁塞控制
DOCA 2.9 提升了適用于高性能計(jì)算和 AI 工作負(fù)載的擁塞控制算法,即NVIDIA 網(wǎng)絡(luò)擁塞控制(NVNCC)。
NVNCC Gen2 和 InfiniBand 擁塞控制 IBCC 的全面推出標(biāo)志著一個(gè)重要的里程碑。IBCC 專門針對(duì) InfiniBand 上的 AI 工作負(fù)載進(jìn)行了優(yōu)化,而 NVNCC 通過改進(jìn)的拓?fù)錂z測功能增強(qiáng)了 Spectrum-X 擁塞控制算法,現(xiàn)在支持長距離的 RoCE。
DOCA 遙測庫
作為此版本的新增功能,DOCA 遙測庫引入了高頻采樣功能,從而提高了 AI 驅(qū)動(dòng)環(huán)境的網(wǎng)絡(luò)監(jiān)控能力。此更新可實(shí)現(xiàn)低于 100 微秒間隔的計(jì)數(shù)器讀取,與之前的 0.5-1 秒間隔相比,實(shí)現(xiàn)了巨大飛躍。
主要功能包括用于指定計(jì)數(shù)器、時(shí)間間隔和頻率的新 API,以及對(duì)多個(gè)性能計(jì)數(shù)器(例如 RX/TX 字節(jié)、端口、擁塞通知和 PCIe 延遲)的支持。這些增強(qiáng)功能可滿足關(guān)鍵用例的需求,例如用于全集群異常檢測的高頻遙測(HFT)和用于應(yīng)用程序分析的本地性能分析。
南北向云計(jì)算基礎(chǔ)設(shè)施
的連接性和安全性正在增強(qiáng)
DOCA 2.9 中的南北向改進(jìn)側(cè)重于增強(qiáng)云資源與外部網(wǎng)絡(luò)之間的連接性。
DOCA Flow
DOCA 2.9 為 DOCA Flow 引入了一項(xiàng)令人興奮的新功能:“tune”性能分析工具。該工具目前處于 alpha 階段,已無縫集成到 DOCA Flow 軟件包之中,為用戶提供有關(guān)其網(wǎng)絡(luò)流配置的深入洞察。
“tune"工具可直觀呈現(xiàn)已配置的流水線,使用戶能夠清楚地了解其流結(jié)構(gòu)。這項(xiàng)可視化功能使管理員和開發(fā)者能夠快速識(shí)別和優(yōu)化流配置。
OVS-DOCA
OVS-DOCA現(xiàn)已正式發(fā)布,它具有本地鏡像功能,并在 NVIDIA BlueField DPU 的軟件定義網(wǎng)絡(luò)方面向前邁出了一大步。此長期支持(LTS)版本為用戶提供了一種對(duì)傳統(tǒng)使用 DPDK 或內(nèi)核數(shù)據(jù)路徑(kernel datapath)的 OVS 解決方案的替代方案,為現(xiàn)代網(wǎng)絡(luò)環(huán)境提供更高的效率和擴(kuò)展功能。
發(fā)布版本引入了一些關(guān)鍵的增強(qiáng)功能,可提升 DOCA 的功能,包括通過 DOCA Flow API 大幅提升連接追蹤(CT)功能的性能。用戶可將每秒連接數(shù)(CPS)提高 100%,每秒數(shù)據(jù)包數(shù)(PPS)提高 50%。可擴(kuò)展性和吞吐量也得到了增強(qiáng),最多可支持三個(gè)網(wǎng)卡(NIC),從而實(shí)現(xiàn)更靈活、更強(qiáng)大的網(wǎng)絡(luò)配置。
DOCA 基于主機(jī)的網(wǎng)絡(luò) 2.4 版本
DOCA 基于主機(jī)的網(wǎng)絡(luò)(HBN)不斷發(fā)展,2.4 版本為適用于裸金屬及服務(wù)環(huán)境的無控制器 VPC 網(wǎng)絡(luò)帶來了許多增強(qiáng)功能。DOCA HBN 2.4 以 BGP EVPN 為基礎(chǔ),引入了令人印象深刻的可擴(kuò)展性改進(jìn),支持高達(dá) 8K 個(gè) VTEP 和 80K 個(gè) Type-5 路由。
最新版本通過內(nèi)核下一跳(Next-Hop)組和 OVS-DOCA 故障轉(zhuǎn)移增強(qiáng)了 ECMP 路由,提高了網(wǎng)絡(luò)彈性和性能。其中一個(gè)關(guān)鍵的新增功能是 Overlay 網(wǎng)關(guān)的有狀態(tài) SNAT+PAT,使私有租戶 IP 能夠通過共享公共 IP 地址訪問外部網(wǎng)絡(luò)。
DOCA FireFly
增強(qiáng)的DOCA Firefly服務(wù)通過硬件加速為 NVIDIA DPU(數(shù)據(jù)處理器)帶來先進(jìn)的時(shí)間同步功能。此更新引入了兩項(xiàng)顯著特性:同步以太網(wǎng)(SyncE)支持和數(shù)據(jù)傳輸服務(wù)(DTS)集成。
SyncE 可在網(wǎng)絡(luò)設(shè)備之間實(shí)現(xiàn)高精度頻率同步,對(duì)于電信網(wǎng)絡(luò)(尤其是移動(dòng)基礎(chǔ)設(shè)施)至關(guān)重要。DTS 支持支持通過遙測通道傳輸 PTP 信息,從而實(shí)現(xiàn)持續(xù)的網(wǎng)絡(luò)時(shí)間服務(wù)監(jiān)控。
NVIDIA Rivermax SDK
Rivermax SDK的增強(qiáng)功能主要側(cè)重于降低延遲、最小化 CPU 使用率,以及最大化數(shù)據(jù)密集型應(yīng)用程序的帶寬和 GPU 利用率。一項(xiàng)重要的新增功能是支持 Internet Protocol Media Experience(IPMX),這是專業(yè)視聽環(huán)境中新興的 AV over IP 開放標(biāo)準(zhǔn)。
在 Rivermax 的支持下,DOCA 2.9 還支持 NVIDIA Holoscan for Media,這是一個(gè)專為媒體和娛樂行業(yè)定制的認(rèn)證平臺(tái)。該功能優(yōu)化了未壓縮和壓縮視頻流的處理,簡化了用于高性能媒體處理的 I/O 操作。
NVIDIA DOCA App Shield
DOCA App Shield 庫的增強(qiáng)功能提高了其在主機(jī)監(jiān)控和威脅檢測方面的能力。一項(xiàng)重要的新增功能是包括了預(yù)先生成的操作系統(tǒng)配置文件,使各種操作系統(tǒng)的設(shè)置過程更加簡化。
對(duì)于 Linux 環(huán)境,App Shield 現(xiàn)在提供高級(jí)容器監(jiān)控功能,使安全團(tuán)隊(duì)能夠密切關(guān)注容器化工作負(fù)載。該服務(wù)已得到擴(kuò)展,可列出網(wǎng)絡(luò)連接,并提供有關(guān)每個(gè)進(jìn)程的網(wǎng)絡(luò)連接詳細(xì)信息,從而更深入地洞察潛在的安全威脅。
DOCA SNAP virtio-fs
DOCA SNAP virtio-fs 測試版是一項(xiàng)利用 NVIDIA BlueField-3 DPU 強(qiáng)大功能來提供安全加速文件系統(tǒng)存儲(chǔ)的服務(wù)。此解決方案使用內(nèi)置的 virtio-fs 驅(qū)動(dòng)程序向主機(jī)公開本地文件系統(tǒng)語義,同時(shí)直接在 DPU 上運(yùn)行遠(yuǎn)程文件系統(tǒng)存儲(chǔ)邏輯。
該版本還引入了 SNAP Virtio-fs 的測試版,作為公共 NGC 服務(wù)容器提供。它啟用了 NFS Linux 內(nèi)核文件系統(tǒng),并集成到 BlueField-3 內(nèi)核中。開發(fā)者可以基于 SPDK FSDEV 創(chuàng)建自定義文件系統(tǒng)堆棧,從而實(shí)現(xiàn)靈活性和性能優(yōu)化。
此解決方案支持在 AI 計(jì)算服務(wù)器中實(shí)現(xiàn)云規(guī)模分布式文件系統(tǒng)存儲(chǔ),提供具有隔離和策略實(shí)施的安全環(huán)境,同時(shí)加速性能并卸載虛擬機(jī)管理程序任務(wù)。
開放虛擬網(wǎng)絡(luò)裸金屬租戶隔離
DOCA 2.9 包括一項(xiàng)新的編排服務(wù),增強(qiáng)軟件定義網(wǎng)絡(luò)(SDN)環(huán)境中的租戶隔離。開放虛擬網(wǎng)絡(luò)(OVN)裸金屬租戶隔離功能可保護(hù)多租戶環(huán)境中的南北向流量,確保 AI 工作負(fù)載保持安全和獨(dú)立,即使在密集的計(jì)算集群中也是如此。
此服務(wù)基于上游 OVN 構(gòu)建,提供用于租戶隔離的簡化、強(qiáng)大的 API,以及用于在 BlueField DPU 上輕松部署的 Ansible Playbook。關(guān)鍵創(chuàng)新在于卸載和加速基于 SDN 的租戶 BlueField DPU,通過隔離特定進(jìn)程來提高速度和效率。這種集中組織允許使用 API 調(diào)用輕松更改隔離設(shè)置,從而更好地控制網(wǎng)絡(luò)管理。這使得它非常適合希望使用 SDN 創(chuàng)建多租戶云的 AI 云和工廠。
設(shè)備管理和開發(fā)工具
DOCA 2.9 簡化了大規(guī)模部署所需的設(shè)備管理流程。此版本還為開發(fā)者提供了新的優(yōu)化和分析工具,可幫助他們更好地洞察應(yīng)用程序和數(shù)據(jù)路徑性能。
DOCA 管理服務(wù) (DMS)
DOCA 管理服務(wù)(DMS)也升級(jí)為發(fā)布狀態(tài),為管理 BlueField DPU 和 SuperNIC 提供了增強(qiáng)功能。此更新引入了通過單個(gè) API 端點(diǎn)管理多臺(tái)設(shè)備的能力,從而簡化了在復(fù)雜的多設(shè)備環(huán)境中的操作。
一項(xiàng)重要改進(jìn)是支持節(jié)點(diǎn)重啟后的配置“持久性”,從而確保設(shè)備設(shè)置在系統(tǒng)重啟期間保持不變。此外,還新增了設(shè)配配置的批量導(dǎo)入/導(dǎo)出功能,可實(shí)現(xiàn)大規(guī)模部署的高效管理。
DOCA 數(shù)據(jù)路徑加速器
數(shù)據(jù)路徑加速器(DPA)工具包的增強(qiáng)功能為開發(fā)者提供了更強(qiáng)大的性能優(yōu)化和分析工具。其中一項(xiàng)突出功能是將 DPA 性能計(jì)數(shù)器與新的 Nsight 工具相集成,從而更深入地洞察應(yīng)用程序性能。
一個(gè)重要的新增功能是DOCA-DPA-Comms 庫,目前處于測試階段。該庫簡化了基于 DPA 的數(shù)據(jù)路徑實(shí)現(xiàn),為開發(fā)者提供了更高級(jí)別的抽象。它可用于 BlueField-3 DPU 和即將推出的 NVIDIA ConnectX-8 SuperNIC,確保 NVIDIA 高級(jí)網(wǎng)絡(luò)硬件產(chǎn)品線具有廣泛的兼容性。
用于簡化部署和支持的平臺(tái)和 DOCA 軟件包
改善用戶體驗(yàn)是 DOCA 發(fā)展的核心。本次發(fā)布包括許多旨在簡化和改進(jìn)部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它適用于需要 RDMA over Converged Ethernet 功能的環(huán)境。
NVIDIA 還針對(duì) BlueField-3 推出了 PLDM 固件更新。該測試版支持使用 PCIe 上的標(biāo)準(zhǔn) PLDM over MCTP 實(shí)現(xiàn)無縫固件更新,使服務(wù)器在激活之前能夠正常運(yùn)行。這一零信任功能支持 NIC 和 DPU 模式,并且無需 DPU-BMC 1GbE 連接。
此外,此版本標(biāo)志著 MLNX_OFED 的最終長期支持(LTS)成為獨(dú)立版本,該版本現(xiàn)已作為主機(jī)配置文件 DOCA-OFED 使用。
從用于 InfiniBand 和以太網(wǎng)解決方案的 MLNX_OFED 驅(qū)動(dòng)和工具套件過渡到 DOCA-OFED,可實(shí)現(xiàn)集成在 DOCA 框架內(nèi)的統(tǒng)一、可擴(kuò)展和可編程網(wǎng)絡(luò)堆棧。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4990瀏覽量
103117 -
云計(jì)算
+關(guān)注
關(guān)注
39文章
7824瀏覽量
137455 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4785瀏覽量
72151 -
AI
+關(guān)注
關(guān)注
87文章
30947瀏覽量
269211
原文標(biāo)題:NVIDIA DOCA 2.9 通過新的性能和安全功能來增強(qiáng) AI 和云計(jì)算基礎(chǔ)設(shè)施
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論