NVIDIA Triton 推理服務器是 NVIDIA AI 平臺的一部分,它是一款開源推理服務軟件,可助力標準化模型的部署和執行,并在生產環境中提供快速且可擴展的 AI。
什么是 NVIDIA Triton?
NVIDIA Triton 推理服務器可助力團隊在任意基于 GPU 或 CPU 的基礎設施上部署、運行和擴展任意框架中經過訓練的 AI 模型,進而精簡 AI 推理。同時,AI 研究人員和數據科學家可在不影響生產部署的情況下,針對其項目自由選擇合適的框架。它還幫助開發者跨云、本地、邊緣和嵌入式設備提供高性能推理。
NVIDIA Triton特性
支持多個框架
NVIDIA Triton 推理服務器支持所有主流框架,例如 TensorFlow、NVIDIA TensorRT、PyTorch、MXNet、Python、ONNX、RAPIDS FIL(用于XGBoost、scikit-learn 等)、OpenVINO、自定義 C++ 等。
高性能推理
NVIDIA Triton 支持所有基于 NVIDIA GPU、x86 和 ArmCPU 的推理。它具有動態批處理、并發執行、最優模型配置、模型集成和串流輸入等功能,可更大限度地提高吞吐量和利用率。
專為 DevOps 和 MLOps 設計
Triton 與 Kubernetes 集成,可用于編排和擴展,導出 Prometheus 指標進行監控,支持實時模型更新,并可用于所有主流的公有云 AI 和 Kubernetes 平臺。它還與許多 MLOps 軟件解決方案集成。
各項應用中快速且可擴展的AI
高推理吞吐量
NVIDIA Triton 可在單個 GPU 或 CPU 上并行指定相同或不同框架下的多個模型。在多 GPU 服務器中,NVIDIA Triton 會自動為基于每個 GPU 的每個模型創建一個實例,以提高利用率。
它還可在嚴格的延遲限制條件下優化實時推理服務,通過支持批量推理來更大限度地提高 GPU 和 CPU 利用率,并內置對音頻和視頻流輸入的支持。對于需要使用多個模型來執行端到端推理(例如對話式 AI)的用例,Triton 支持模型集成。
模型可在生產環境中實時更新,無需重啟 Triton 或應用。Triton 支持對單個 GPU 顯存無法容納的超大模型進行多 GPU 以及多節點推理。
高度可擴展的推理
作為一個 Docker 容器,Triton 與 Kubernetes 集成,用于編排、指標和自動縮放。Triton 還與 Kubeflow 和 Kubeflow 工作流集成,實現端到端的 AI 工作流,并導出 Prometheus 指標,用于監控 GPU 利用率、延遲、內存使用率和推理吞吐量。它支持標準的 HTTP / gRPC 接口,可與 load balancer 等其他應用連接,并可輕松擴展到任意數量的服務器,以為任意模型處理日益增長的推理負載。
Triton 可通過一個模型控制 API 來服務于數十或數百個模型。您可基于為適應 GPU 或 CPU 顯存而進行的改動,將模型加載到推理服務器中或從推理服務器中卸載。支持兼具 GPU 和 CPU 的異構集群有助于跨平臺實現推理標準化,并動態擴展到任意 CPU 或 GPU 以處理峰值負載。
NVIDIA Triton的主要功能
Triton Forest Inference Library (FIL) 后端
新的 Forest Inference Library (FIL) 后端支持在 CPU 和 GPU 上對基于樹的模型進行具有可解釋性(Shapley 值)的高性能推理。它支持來自 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest 以及其他 Treelite 格式的模型。
Triton 模型分析器
Triton 模型分析器是一種自動評估 Triton 部署配置(例如目標處理器上的批量大小、精度和并發執行實例)的工具。它有助于選擇優化配置,以滿足應用的服務質量(QoS)限制(延遲、吞吐量和內存要求),并且可以將找到優化配置所需的時間從數周縮短到數小時。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
5025瀏覽量
103268 -
服務器
+關注
關注
12文章
9237瀏覽量
85673 -
Triton
+關注
關注
0文章
28瀏覽量
7046
原文標題:DevZone | NVIDIA Triton推理服務器
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論