Kubernetes 是一個開源的容器編排系統,用于自動化計算機應用程序部署、擴展和管理。它是一個非常流行的工具,可以用于自動展開和回滾、水平擴展、存儲編排等。對于許多組織來說, Kubernetes 是其基礎架構的關鍵組件。
安裝和擴展 Kubernetes 的一個關鍵步驟是確保它正確利用基礎設施的其他組件。 NVIDIA 運營商優化 Kubernetes 上的 GPU 和 NIC 的安裝和管理,使軟件堆棧能夠在云中運行最需要資源的工作負載,如 AI 、 ML 、 DL 和 HPC ,數據中心和邊緣。 NVIDIA 運營商由 GPU 運營商和網絡運營商組成,是開源的,基于運營商框架。
NVIDIA GPU 運算符
NVIDIA GPU 操作符被打包為一個 Helm 圖表,并安裝和管理軟件組件的生命周期,以便 GPU 加速的應用程序可以在 Kubernetes 上運行。這些組件包括 GPU 功能發現、 NVIDIA 驅動程序、 Kubernetes 設備插件、 NVIDIA 容器工具包和 DCGM 監控。
GPU 操作符使基礎結構團隊能夠在集群級別與 Kubernetes 一起使用時管理 GPU 的生命周期,因此無需單獨管理每個節點。以前,基礎架構團隊必須管理兩個操作系統映像,一個用于 GPU 節點,另一個用于 CPU 節點。當使用 GPU 操作符時,基礎設施團隊也可以將 CPU 映像與 GPU 工作節點一起使用。
NVIDIA 網絡運營商
網絡運營商負責自動化 Kubernetes 集群中主機網絡組件的部署和管理。它包括 Kubernetes 設備插件、 NVIDIA 驅動程序、 NVIDIA 對等內存驅動程序和 Multus 、 macvlan CNIs 。這些組件以前是手動安裝的,但通過網絡運營商實現了自動化,簡化了部署過程,并通過增強的客戶體驗實現了加速計算。
單獨或一起使用, NVIDIA 操作符簡化了 Kubernetes 上的 GPU 和 SmartNIC 配置,并與合作伙伴云平臺兼容。要了解有關這些組件的更多信息,以及 NVIDIA 操作員如何解決運行 AI 、 ML 、 DL 和 HPC 工作負載的關鍵挑戰,并簡化初始設置和第 2 天操作,請查看按需網絡研討會“ 用 NVIDIA Operators 加速 Kubernetes ”。
關于作者
Troy Estes 是 NVIDIA Edge 和企業計算解決方案的產品營銷經理。在加入 Edge & Enterprise 業務部門之前,特洛伊曾在自主汽車業務部門和 NVIDIA 電網產品集團從事營銷活動和支持產品 GTM 。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4991瀏覽量
103138 -
gpu
+關注
關注
28文章
4742瀏覽量
128980 -
計算機
+關注
關注
19文章
7504瀏覽量
88056
發布評論請先 登錄
相關推薦
評論