越來越多的企業開始采用加速計算,從而滿足生成式 AI、5G 電信和主權云的需求。NVIDIA 推出了DOCA 平臺框架(DPF),該框架提供了基礎構建模塊來釋放NVIDIA BlueField DPU的強大功能,并優化 GPU 加速計算平臺。作為一種編排框架和實施藍圖,DPF 使開發者、服務提供商和企業能夠無縫構建 BlueField 加速的云原生軟件平臺。
通過簡化 DPU 配置、生命周期管理和服務編排,DPF 使 BlueField DPU 可在 Kubernetes 環境中廣泛使用,以加速 AI 和其他現代工作負載。此外,DPF 還增強了 BlueField 加速應用程序和服務的活躍生態系統,推動了可擴展云平臺的發展。
解決云基礎設施中的一個關鍵差距
隨著 DPF 的推出,NVIDIA 正在 DPU 上實現大膽的飛躍。DPF 標志著向更現代化的云基礎設施邁出了重要的一步,有助于重新定義如何將 BlueField DPU 集成到數據中心,以應對性能、效率和安全性方面的關鍵挑戰。
NVIDIA BlueField DPU 已經提供了一種高性能、可擴展的解決方案,從而替代傳統以 CPU 為中心的基礎設施,它可從主機 CPU 卸載關鍵的網絡、存儲和安全功能,以加速數據中心運營。然而,到目前為止,在數據中心規模管理 DPU 驅動的服務一直是一個散碎且繁瑣的過程。
這就是 DPF 的作用所在:一個專用框架,可簡化 BlueField 加速云基礎設施的部署、編排和擴展。DPF 將 Kubernetes 控制平面功能擴展到 DPU,使管理員能夠直接在 BlueField DPU 上部署和編排 NVIDIA DOCA 服務和基于 DOCA 的第三方服務。
DPF 配備了用于無縫集成的專用 SDK,可為開發者提供一致的模塊化工具包,以便在 BlueField DPU 集群中輕松管理軟件。這縮短了時間并降低了復雜性,使開發者能夠專注于構建強大的軟件平臺和具有高影響力的應用程序,而不是管理 DPU 的軟件編排。
此外,DPF 在生態系統中發揮著至關重要的作用,使基礎設施獨立軟件供應商(ISV)能夠滿懷信心地構建和集成 BlueField 應用程序。通過提供標準化的 API 和工具,DPF 可確保這些應用程序在 BlueField 加速的基礎設施上無縫運行。這也使服務提供商和企業受益,使他們能夠利用強大的加速服務組合來構建高性能、安全且高效的云平臺。
為了簡化和優化云原生環境的 DPU 管理,DPF 解決了兩個主要工作流程:
DPU 配置和生命周期管理:涵蓋部署 BlueField DPU 的初始步驟,包括固件和軟件的安裝和配置,以及持續的維護任務。
DPU 服務管理和編排:涉及部署和管理基礎設施服務,如 SDN 控制器軟件、存儲目標軟件、防火墻、負載均衡器等,包括服務功能鏈。
高效的 DPU 配置和生命周期管理
DPF 為 BlueField DPU 配置和生命周期管理提供端到端支持,自動執行固件更新、刷寫和配置等流程,以簡化設置并減少停機時間。BlueField DPU 的配置、設置、監測和故障排除等關鍵任務均已得到簡化,從而更輕松地大規模集成和運行 BlueField DPU。
DPF 為整個數據中心內的每個 BlueField 維護更新狀態,從而實現對 DPU 運行狀況做出動態響應。當 DPU 需要維護時,DPF 可以主動以受控方式刪除節點,從而最大限度地減少或消除對活動生產工作負載的影響。通過滾動更新功能,管理員可以通過指定一次要更新的 BlueField DPU 百分比來控制批量更新,從而避免可能影響系統穩定性的大規模更新。實時運行狀況監測和警報使管理員能夠快速識別和解決問題,這對于電信和 AI 驅動的數據中心等高可靠性環境至關重要。
通過公開的 API 和自定義資源定義(CRD),DPF 可實現 BlueField DPU 生命周期的自動化,使云運營商能夠從其標準 K8s 控制平面管理與 BlueField 綁定的服務,從而為 K8s 工作節點和 DPU 提供統一的“單一界面”視圖和控制。
DPF 實施藍圖基于上游 Kubernetes,其允許技術合作伙伴根據不同的基礎設施需求和企業產品來調整和擴展框架。
全面的 DPU 服務管理和編排
DPF 將 BlueField DPU 無縫集成到基于 Kubernetes 的工作流程中,從而將云原生環境的復雜性提升到新的水平。通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理部署在 BlueField DPU 上的 NVIDIA DOCA 服務和基于 DOCA 的第三方應用程序。DPF Operator 自主管理此輔助 DPU Kubernetes 控制平面,監督服務部署、監測和生命周期管理的各個方面。
DPF 旨在將 DPU 管理的復雜性抽象化,使管理員僅使用熟悉的 Kubernetes 結構與主 Kubernetes 控制平面進行交互,從而無需直接管理 DPU 控制層。DPF 還為 ISV 提供了靈活性,使他們能夠實現自己的 Kubernetes 控制平面,以實現自定義的 BlueField 服務管理和編排。
通過優化 BlueField DPU 集群中的服務編排,DPF 簡化了復雜分布式工作負載的部署和管理。憑借強大的生命周期管理功能,DPF 支持無縫的服務更新、擴展和回滾,確保管理員可以高效地管理更改,而不會中斷正在進行的操作。結合 DOCA 服務功能鏈(SFC),DPF 可促進安全、高效的服務鏈(例如加速網絡(CNIs)、高性能數據服務(CSIs)和防火墻功能),以處理復雜的多步驟任務。
為確保順利部署,DPF 提供了部署前驗證,確認 DPU 可以托管所需的服務,并在未滿足要求時返回有意義的錯誤消息。此外,DPF 還提供監測和調試功能,幫助管理員實時管理和排除故障服務,從而更輕松地實現高可靠性和透明度。
通過 DPF,管理員可以獲得直觀的云原生工具,用于在 BlueField DPU 上配置、管理和編排服務。這種與現有 Kubernetes 工作流程的無縫集成加快了高級 BlueField 加速應用程序在電信、云和企業環境等領域的部署速度。
模塊化架構有助于簡化集成
DPF 采用模塊化架構設計,可簡化集成并為 BlueField 加速基礎設施提供定制功能。這種靈活的設計基于一系列核心組件和工具,為開發者、服務提供商和企業提供了一種在云原生環境中配置和管理 BlueField DPU 的簡化方法。
圖 1 展示了 DPF 軟件堆棧,突出顯示了在主機和 BlueField DPU 上運行的 DPF 功能。它還包括用于網絡、存儲和安全的各種基礎設施軟件服務,其中一些服務通過 Kubernetes 插件(CNI 和 CSI)將向容器化工作負載公開加速 IO 接口。
圖 1:NVIDIA DPF 堆棧
這些通過容器、Helm 圖表和實施藍圖提供的工具和服務,為開發者提供了集成和構建 DPF 所需的一切。
DPF Operator
DPF 編排層的核心是DPF Operator,它可以自動執行 DPU 配置、生命周期管理和服務編排。它為 Kubernetes 用戶提供了一個熟悉的云原生接口,簡化了復雜的配置,并使 BlueField DPU 能夠像其他集群資源一樣進行部署和管理。DPF Operator 內置對自動更新和資源管理的支持,可讓您在生產環境中輕松部署和維護 BlueField DPU。
DOCA for Host
DOCA for Host軟件提供了一套全面的配置工具,可簡化 BlueField DPU 的部署和配置。DOCA for Host 可處理 DPU 與主機環境集成所需的固件、BIOS 和系統配置,從而確保在各種部署中實現一致且可靠的設置。
OVS-DOCA
OVS-DOCA是 DPF 中的核心網絡堆棧,為 BlueField 加速應用程序提供安全、高性能的網絡連接。它在 Kubernetes 環境中提供高級網絡功能和高效的流量路由,確保在不影響性能或安全性的情況下充分利用 BlueField 資源。這一基礎使開發者能夠輕松構建高吞吐量、延遲敏感的應用程序。
DOCA 服務
NVIDIA NGC上托管的精選DOCA 服務集增強了 BlueField DPU 的功能,DPF 提供了直接在 BlueField 上獲取和部署這些服務的工具,并作為 Kubernetes 集群的一部分。這些即用型服務涵蓋高級監測、網絡、存儲、安全等,可擴展 BlueField 的功能,從而實現關鍵服務的快速部署。通過 NVIDIA NGC,用戶可以無縫訪問不斷擴展的 NVIDIA 認證服務和應用程序庫,這些服務和應用程序與 DPF 完全集成。
DPF 的初始版本包括 HBN、OVN-Kubernetes、Telemetry 和 BlueMan 作為第一套 DOCA 服務集,后續版本將引入對其他服務的支持,以進一步增強功能并擴展集成功能。
除了 NVIDIA 服務之外,DPF 還編排了第三方 DOCA 服務,為 BlueField 環境引入了專用功能。從網絡安全解決方案到負載均衡和防火墻應用程序,第三方服務使用戶能夠根據其特定需求打造強大的生態系統。DPF 采用開放式模塊化架構,可促進與服務供應商的合作,為用戶提供更廣泛的功能和靈活性。
DPF 為開發者提供所需的工具和服務(打包在容器、Helm 圖表和實施藍圖中),以輕松與 DPF 集成,并構建、定制和部署先進的 BlueField 加速軟件平臺。
利用 DPF 引領 DPU 加速云計算的未來
NVIDIA DOCA 平臺框架(DPF)重新定義了 BlueField 加速環境的云基礎設施,徹底改變了云服務的配置和管理方式。此外,NVIDIA DPF 路線圖也預示著即將推出激動人心的功能。即將推出的功能將為裸機 BlueField 加速的基礎設施帶來零信任功能,從硬件層上保護環境。
我們鼓勵開發者、電信公司和企業探索 DPF 的功能,下載藍圖,并嘗試構建針對高性能和可擴展基礎設施優化的應用程序。立即開始使用 DPF,引領 BlueField 加速的云基礎設施的未來。
-
NVIDIA
+關注
關注
14文章
5075瀏覽量
103529 -
AI
+關注
關注
87文章
31490瀏覽量
269881 -
DPU
+關注
關注
0文章
368瀏覽量
24228
原文標題:利用 NVIDIA DOCA 平臺框架助力新一代 DPU 加速的云基礎設施
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論