NVIDIA AI Enterprise 是一款端到端的安全云原生 AI 軟件套件。最近發布的 NVIDIA AI Enterprise 3.0 加入了幫助優化生產級 AI 性能與效率的新功能。本文將詳細介紹以下新功能及其工作原理。
· VMware vSphere 8.0的 GPU 虛擬化功能
· Red Hat Enterprise Linux(RHEL)KVM 8 和 9
· 對 NVIDIA AI 的擴展支持
生產級 AI 功能
NVIDIA AI Enterprise 3.0 版本中的新 AI 工作流有助于縮短生產級 AI 的開發時間。這些工作流是常見 AI 用例的參考應用,包括聯絡中心智能虛擬助理、音頻轉錄、數字指紋等。
未加密的預訓練模型也首次包括在內,這確保了 AI 的可解釋性并使開發者能夠查看模型的權重和偏差,并了解模型的偏差。
NVIDIA AI Enterprise 現在支持 NGC 目錄中發布的所有 NVIDIA AI 軟件。已經使用過 NGC 的開發者現在可以無縫過渡到 NVIDIA AI Enterprise 并使用支持 50 多個 AI 框架、預訓練模型和 SDK 的 NVIDIA Enterprise Support。
基礎設施性能功能
NVIDIA AI Enterprise 3.0 包含許多有助于優化基礎設施性能的新功能,因此用戶可以從他們的 AI 投資中獲得最大收益并最大程度地節約成本和時間。下面將對這些功能進行詳細說明。
Magnum IO GPUDirect Storage
企業現在可以在部署 NVIDIA AI Enterprise 3.0 的情況下,利用 Magnum IO GPUDirect Storage 的性能優勢來加速和擴展他們的 AI 工作負載。GPUDirect Storage 1.4 打通了本地或遠程存儲與 GPU 內存之間的直接數據路徑,為復雜的工作負載提供無與倫比的性能。
GPUDirect Storage 簡化并提高了存儲和 GPU 緩沖區之間的數據流的效率,適用于在 GPU 上消耗或產生數據而不需要 CPU 處理的應用。該功能通過遠程直接內存訪問(RDMA),在從存儲到 GPU 內存的直接路徑上快速移動數據,減少延遲并通過消除回彈緩沖區產生的多余復制來減輕 CPU 的負擔。
GPUDirect Storage 帶來了明顯的性能提升。與 NumPy 相比,使用 NVIDIA DALI 進行深度學習推理時,性能提高了 7.2 倍。
美國國家航空航天局(NASA)的火星探測器演示項目使用 NVIDIA IndeX 和 GPUDirect Storage 以及 27000 多個 NVIDIA GPU 來模擬逆向推進,在使用 PCIe 交換機和 NVLinks 以及 GPUDirect Storage 時,帶寬提高了 5 倍。
圖 1. GPUDirect Storage 提供了一條從存儲出發、完全跳過 CPU 的直接路徑,消除了綁定在 CPU 上的回彈緩沖。
VMware vSphere 8.0 的 GPU 虛擬化功能
NVIDIA AI Enterprise 3.0 引入了對 VMware vSphere 8 的支持,包括多項可加速性能和提高運行效率的功能。VMware 環境現在可以在一個虛擬機上添加多達 8 個虛擬 GPU,vGPU 數量比之前的版本多了一倍。這提高了大型 ML 模型的性能,為復雜的 AI 和 ML 工作負載提供了更高的可擴展性。
隨著設備組的引入,IT 管理員現在可以更好的控制虛擬機的放置。vSphere 附帶的管理工具分布式資源調度(DRS)可確定虛擬機的最佳放置位置。
新的設備組功能提供了對 PCIe 設備的洞察,這些設備在硬件層面上(通過 NVLink 或 PCIe 開關)相互配對,IT 管理員可以從中選擇一個子集,提交給虛擬機作出 DRS 調度決策。
通過設備組,IT 管理員可以確保設備子集被一起分配給虛擬機。例如,如果用戶想要通過擴展 GPU 來加速大型模型,IT 管理員可以創建一個包含 GPU 的設備組并通過 NVLink 連接這些設備,比如圖 2 中的設備組 1。
如果用戶想要向外擴展到多臺服務器以進行分布式訓練,可以使用共享同一 PCIe 交換機的 GPU 和 NIC 組成設備組,比如圖 2 中的設備組 2。
圖 2. 有兩個 GPU 的設備組(左)和服務器上有一個 GPU 與網卡的設備組(右)
Red Hat Enterprise Linux KVM
NVIDIA AI Enterprise 3.0 將虛擬化支持擴展至 Red Hat Enterprise Linux 8.4、8.6、8.7、9.0 和 9.1,使企業能夠將 KVM 功能擴展到他們的 AI 工作負載。通過 RHEL KVM,管理員可以在一個虛擬機上添加多達 16 個虛擬 GPU,將計算密集型工作負載的處理速度提高數倍。
Fractional multi-vGPU 支持
管理員現在可以通過 NVIDIA AI Enterprise 3.0,為一臺虛擬機配置多個 Fractional vGPU,從而更加靈活地根據工作負載優化虛擬機的配置。在該版本發布之前,每臺虛擬機只能通過一個或多個整數份 GPU 加速。
管理員現在能夠更加靈活地根據工作負載的計算需求,為一個虛擬機分配多個部分 vGPU 配置文件。例如,當運行具有不同計算需求的多個推理工作負載時,管理員可以根據工作負載的內存需求,為一個虛擬機分配不同數量幀緩沖器的 NVIDIA A100 Tensor Core GPU 的部分配置文件。
需要注意的是,所有部分配置文件必須是相同的板卡類型和系列??梢詫⒁粋€或多個物理 GPU 分成這些份額的 vGPU 配置文件。該功能在 VMware vSphere 8 和 RHEL KVM 8 和 9 上均可以使用。
圖 3. 將一個配置文件分成多個 vGPU 分配給一個虛擬機
對 NVIDIA AI 的擴展支持
NVIDIA AI Enterprise 為 NGC 目錄中發布的所有 NVIDIA AI 軟件提供支持,該目錄目前包含 50 多個框架和模型。所有受支持的模型都標有“NVIDIA AI Enterprise Supported”以幫助用戶輕松識別支持的軟件。
圖 4. 所有 NVIDIA AI Enterprise 支持的模型在 NGC 目錄中都有標注
總結
通過最新 3.0 版本的 NVIDIA AI Enterprise,企業可以使用最新的性能和效率優化功能縮短生產級 AI 的開發時間。NVIDIA LaunchPad 使用戶可以在私有加速計算環境中即時、短期訪問 NVIDIA AI Enterprise 軟件套件,包括各種動手實操實驗室。
即刻點擊“閱讀原文”或掃描下方海報二維碼,在 NVIDIA On-Demand 上觀看 GTC 精選回放,包括主題演講相關精選、中國本地精選內容、生成式 AI 專題以及全球各行業及領域最新成果!
原文標題:使用 NVIDIA AI Enterprise 3.0 優化生產級 AI 的性能和效率
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3776瀏覽量
91105
原文標題:使用 NVIDIA AI Enterprise 3.0 優化生產級 AI 的性能和效率
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論