大語言模型(LLM)在企業組織中的應用日益廣泛,許多企業都將其整合到 AI 應用中。雖然從基礎模型著手十分高效,但需要花費一定的精力才能將它們整合到生產就緒型環境中。NVIDIA NIM簡化了這一過程,使企業能夠在數據中心、云、工作站和 PC 等任何位置運行 AI 模型。
專為企業設計的 NIM 提供一整套預構建云原生微服務,這些微服務能夠被輕松地整合到現有基礎設施中。這些微服務經過精心的維護和持續的更新,具有開箱即用的性能,并確保您能夠獲得 AI 推理技術的最新進展。
適用于大語言模型的全新 NVIDIA NIM
基礎模型的增長源于其能夠滿足各種企業需求的能力,但沒有任何一個單一的模型能夠完全滿足企業的需求,企業通常會根據特定的數據需求和 AI 應用工作流,在其用例中使用不同的基礎模型。
考慮到企業需求的多樣化,我們擴大了 NIM 的陣容,涵蓋了Mistral-7B、Mixtral-8x7B和Mixtral-8x22B,這三個基礎模型在特定任務中的表現都十分出色。
圖 1. 新的 Mixtral 8x7B Instruct NIM
可從 NVIDIA API 中獲取
Mistral 7B NIM
Mistral 7B Instruct 模型在文本生成和語言理解任務中表現出色。該模型可在單個 GPU 上運行,非常適合語言翻譯、內容生成和聊天機器人等應用。將 Mistral 7B NIM 部署至 NVIDIA 數據中心 GPU 后,開發者在內容生成任務中可實現的開箱即用性能(token/秒),其性能最多可提升至沒有使用 NIM 時的 2.3 倍。
圖 2. Mistral 7B NIM 提高了內容生成的吞吐量
基于 1 個 NVIDIA Tensor Core GPU,輸入 500 個 token,輸出 2,000 個 token。NIM 開啟時:FP8。吞吐量為 5,697 token/秒,TTFT 為 0.6 秒,ITL 為 26 毫秒。NIM 關閉時:FP16。吞吐量為 2,529 token/秒,TTFT 為 1.4 秒,ITL 為 60 毫秒。
Mixtral-8x7B和
Mixtral-8x22B NIM
Mixtral-8x7B 和 Mixtral-8x22B 模型采用混合專家(MoE)架構提供快速且經濟高效的推理。這兩個模型在總結、問題解答和代碼生成等任務中表現出色,非常適合需要實時響應的應用。
相較無 NIM 運行的情況,NIM 可以提高這兩種模型的開箱即用性能。當用于內容生成且在 1 個 NVIDIA Tensor Core GPU 上運行時,Mixtral-8x7B NIM 的吞吐量最多可提高 4.1 倍。在內容生成和翻譯用例中,Mixtral-8x22B NIM 的吞吐量最多可提高 2.9 倍。
圖 3. Mixtral 8x7B NIM
提高了內容生成的吞吐量
輸入 500 個 token,輸出 2,000 個 token。200 個并發請求。NIM 開啟時:FP8。吞吐量為 9,410 token/秒。TTFT 為 740 毫秒,ITL 為 21 毫秒。NIM 關閉時:FP16。吞吐量為 2,300 token/秒,TTFT 為 1,321 毫秒,ITL 為 86 毫秒。
圖 4. Mixtral 8x22B NIM
提高了內容生成和翻譯的吞吐量
輸入 1,000 個 token,輸出 1,000 個 token。250 個并發請求。NIM 開啟時:吞吐量為 6,070 token/秒,TTFT 為 3 秒,ITL 為 38 毫秒。NIM 關閉時:吞吐量為 2,067 token/秒,TTFT 為 5 秒,ITL 為 116 毫秒。
借助 NVIDIA NIM 加速 AI 應用部署
開發者可以使用 NIM 縮短構建適用于生產部署的 AI 應用所需的時間,同時還能提高 AI 推理效率,并降低運營成本。借助 NIM,經過優化的 AI 模型實現了容器化,為開發者帶來了以下優勢:
性能和規模
這些云驅動的微服務可提供低延遲、高吞吐量并可以輕松擴展的 AI 推理,使用 Llama 3 70B NIM,最多可將吞吐量提高 5 倍。NIM 還支持精確的微調模型,無需從頭開始構建即可實現超高的準確性,進一步提高了 AI 推理性能。
易于使用
通過簡化與現有系統的整合來加快進入市場的速度,并在 NVIDIA 加速基礎設施上提供最佳性能。借助專為企業使用而設計的 API 和工具,開發者可以實現其 AI 能力的最大化。
安全性和易管理性
確保您的 AI 應用和數據具有強大的可控性和安全性。通過NVIDIA AI Enterprise,NIM 支持在任何基礎設施上的靈活自托管部署,提供企業級軟件、嚴格的驗證以及與 NVIDIA AI 專家的直接連線。
AI 推理的前景:
NVIDIA NIM 及其他延伸
NVIDIA NIM 代表了 AI 推理領域的重大進步。隨著各行各業對 AI 應用需求的日益增長,高效部署這些應用變得至關重要。想要利用 AI 變革力量的企業可以使用 NVIDIA NIM,將預構建的云原生微服務輕松整合到現有系統中,以此加快產品推出速度,保持在創新領域的領先地位。
未來的 AI 推理將超越單個 NVIDIA NIM。隨著對先進 AI 應用的需求不斷增長,連接多個 NVIDIA NIM 將變得至關重要。這種微服務網絡將帶來能夠協同工作和適應各種任務的高度智能化應用,從而深入改變我們使用技術的方式。如要在您的基礎設施上部署 NIM 推理微服務,請查看“使用 NVIDIA NIM 部署生成式 AI 的簡單指南”:
NVIDIA 定期發布新的 NIM,為企業提供最強大的 AI 模型,助企業應用一臂之力。請訪問API 目錄,查找適用于 LLM、視覺、檢索、3D 和數字生物學模型的最新 NVIDIA NIM。
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103046 -
AI
+關注
關注
87文章
30887瀏覽量
269063 -
模型
+關注
關注
1文章
3243瀏覽量
48836 -
微服務
+關注
關注
0文章
137瀏覽量
7348
原文標題:全新 NVIDIA NIM:可適用于 Mistral 和 Mixtral 模型并為您的 AI 項目賦能
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論