Meta 最新開源大語言模型采用 NVIDIA 技術構建,其經過優化后可在云、數據中心、邊緣和 PC 的 NVIDIA GPU 上運行。
NVIDIA 發布對其所有平臺的優化措施,此舉將加快最新一代大語言模型(LLM)Meta Llama 3 的運行速度。
在與 NVIDIA 加速計算相結合后,該開源模型能夠使開發者、研究者和企業在各種應用中負責任地進行創新。
在 NVIDIA AI 上進行訓練
Meta 工程師在搭載 24,576 個 NVIDIA Tensor Core GPU 的計算機集群上對 Llama 3 進行了訓練,這些 GPU 通過 RoCE 和 NVIDIA Quantum-2 InfiniBand 網絡相連。
為進一步推動生成式 AI 的發展,Meta 最近介紹了將其基礎設施擴展到 35 萬個 NVIDIA GPU 的計劃。
將 Llama 3 投入使用
通過 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、數據中心、邊緣和 PC。
開發者可通過瀏覽器在 ai.nvidia.com 上試用 Llama 3。該模型被打包成一項帶有標準應用編程接口的 NVIDIA NIM 微服務,可以部署在任何位置。
企業可使用 NVIDIA NeMo 和自己的數據對 Llama 3 進行微調。NeMo 是一個 LLM 開源框架,通過安全、受支持的 NVIDIA AI Enterprise 平臺提供。自定義模型可使用 NVIDIA TensorRT-LLM 進行推理性能優化,并通過 NVIDIA Triton 推理服務器進行部署。
在設備和 PC 上運行 Llama 3
Llama 3 還可在用于機器人和邊緣計算設備的 NVIDIA Jetson Orin 上運行,創建類似 Jetson AI Lab 中的交互式代理。
此外,用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 也能加快 Llama 3 的推理速度。這些系統將開發者的目標范圍擴大到全球超過 1 億臺由 NVIDIA 提供加速的系統。
利用 Llama 3 獲得最佳性能
為聊天機器人部署 LLM 的最佳實踐包括實現低延遲、快速讀取和最佳 GPU 利用率之間的平衡,并以此來降低成本。
這種服務需要以用戶閱讀速度的兩倍(約為每秒 10 個 token)提供 token(大致相當于字詞)。
如果在使用 700 億參數級 Llama 3 進行的初步測試中應用這些指標,那么單個 NVIDIA Tensor Core GPU 每秒可生成約 3,000 個 token,足以同時為約 300 名用戶提供服務。
這意味著一臺搭載 8 個GPU 的 NVIDIA HGX 服務器每秒可提供 24,000 個 token,相當于同時支持 2,400 多名用戶,進一步降低了成本。
在邊緣設備方面,80 億參數版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多達 40 個 token,在 Jetson Orin Nano 上每秒可生成多達 15 個 token。
推進社區模型的發展
作為一個積極的開源貢獻者,NVIDIA 致力于優化社區軟件,幫助用戶應對最嚴峻的挑戰。開源模型還能提高 AI 的透明度,讓廣大用戶享受到 AI 安全性和彈性方面的工作成果。
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103067 -
GPU芯片
+關注
關注
1文章
303瀏覽量
5813 -
邊緣計算
+關注
關注
22文章
3092瀏覽量
48965 -
大模型
+關注
關注
2文章
2451瀏覽量
2714
原文標題:NVIDIA 全面加快 Meta Llama 3 的推理速度
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論