NVIDIA GPU 運營商允許企業在 Kubernetes 上輕松擴展 NVIDIA GPU 。
通過使用 Kubernetes 簡化 GPU 的部署和管理, GPU 運營商使基礎設施團隊能夠在幾分鐘內自動無誤地擴展 GPU 應用程序。
GPU Operator 1.9 現已推出,其中包括幾個關鍵功能,以及其他更新,使用戶可以更快地開始使用并保持不間斷服務。
GPU 操作員 1.9 包括:
支持使用 DGX 操作系統的 NVIDIA DGX A100 系統
簡化的安裝過程
使用 DGX 操作系統支持 DGX A100
對于 1.9 , GPU 操作員自動在 NVIDIA NVSwitch 系統上部署初始化結構所需的軟件,包括與 DGX OS 一起使用時的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 帶寬下相互通信,以創建端到端可擴展計算平臺。
DGX A100 配備了世界上最先進的加速器,使企業能夠將培訓、推理和分析整合到統一、易于部署的 AI 基礎設施中。現在,有了 GPU 運營商的支持,企業可以將其應用程序從培訓擴展到與世界上最先進的系統相匹配。
簡化的安裝過程
對于 GPU 運營商的早期版本,使用 GPU 運營商和 OpenShift 的組織需要從 Red Hat 申請額外的權利,以便成功使用 GPU 運營商。由于授權密鑰過期,用戶需要重新應用這些密鑰,以確保其工作流程不會中斷。
GPU Operator 1.9 現在支持 OpenShift 的免授權驅動程序容器。這是通過利用 RedHat 提供的 Driver-Toolkit 映像以及為構建 NVIDIA 內核模塊而預先安裝的必要內核包來實現的。用戶不再需要確保運行 GPU 運算符時始終應用具有 RHEL 訂閱的有效證書。更重要的是,對于斷開連接的集群,它消除了對私有包存儲庫的依賴。
版本 1.9 還包括對帶有 MIG Manager 的預裝驅動程序的支持,對預裝 MOFED 使用 GPUDirect RDMA 的支持,對容器運行時的自動檢測,以及對 NOUVEAU 的自動禁用–所有這些都旨在讓用戶更容易開始并繼續使用 GPU 加速的 Kubernetes 。
此外, GPU Operator 1.9 會自動檢測工作節點上安裝的容器運行時。無需在安裝時指定容器運行時。
GPU 操作員 1.9 :
helm install --wait --generate-name nvidia/gpu-operator
GPU 操作員 1.8 及更早版本:
helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd
GPU 操作員要求禁用 Nouveau 。在以前的 GPU 操作員版本中, K8s 管理員必須按照文檔 禁用 Nouveau 。 GPU 操作員 1.9 會自動檢測 Nouveau 是否已啟用并為您禁用。
GPU 操作員資源
以下資源可用于使用 NVIDIA GPU 運營商:
GPU 操作員 1.9 發行說明
入門指南
GPU NGC 上的操作員舵圖
GitHub 上的 GPU 運算符
關于作者
Erik Bohnhorst 是 NVIDIA 的高級產品經理,專注于云本地技術,為 edge 和數據中心構建一流的解決方案。 Erik 于 2014 年加入 NVIDIA ,以解決方案架構師的身份幫助客戶構建世界一流的虛擬化遠程工作站。埃里克領導技術營銷團隊,直到他加入了 EGX 團隊。
Troy Estes 是 NVIDIA Edge 和企業計算解決方案的產品營銷經理。在加入 Edge & Enterprise 業務部門之前,特洛伊曾在自主汽車業務部門和 NVIDIA 電網產品集團從事營銷活動和支持產品 GTM 。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5026瀏覽量
103284 -
gpu
+關注
關注
28文章
4754瀏覽量
129084
發布評論請先 登錄
相關推薦
評論