案例簡介
本案例中美團機器學習平臺使用 NVIDIA GPU 支持其多方面優化策略,從而提高吞吐能力及降低響應延遲。通過算子融合、計算圖等價替換等一系列優化 ,相較于 CPU 在相同成本約束下,NVIDIA T4 GPU 大幅加速美團 CTR(Click-Through-Rate)模型預測性能,神經網絡模型吞吐能力提升了 10 倍;同時在搜索精排場景中,端到端整體吞吐能力提升了一倍以上,助力美團 CTR 向新一代服務升級。
? 本案例為 NVIDIA GPU 推理加速互聯網行業 CTR 模型的典型應用
? 本案例主要應用到 T4 GPU 和 NVIDIA 各 SDK 以及 CUDA 加速手段
客戶簡介及應用背景
美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰略,以“吃”為核心,通過科技創新,服務于生活服務業需求側和供給側數字化升級。美團在中國業務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區縣,服務 6.7 億活躍用戶和 830 萬活躍商家。
伴隨著用戶規模的提升和業務的精細化運營,業務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰,而 CTR 模型作為推薦系統的核心模型,其效果直接影響業務的收入。
客戶挑戰
美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經網絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。
而 GPU 擁有數以千計的計算核心,可以在單機內提供密集的并行計算能力,特別適合深度學習場景,在行業內已經在 CV、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API,NVIDIA建立了完整的 GPU 生態系統。基于此,美團基礎研發平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優化,希望能通過 GPU 強大的計算力,協助美團在 CTR 預測的各業務場景中發揮出最大優勢。
應用方案
為了解決算力瓶頸及上述各種挑戰,美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV、NLP 及 CTR 訓練后,也使用了 NVIDIA T4來提供 CTR 預測支持,大幅提升用戶體驗與服務穩定性。除此之外,時延也是業務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非常苛刻,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。
使用效果及影響
通過 NVIDIA T4 深度優化方案,成功為美團 CTR 模型創造更多應用機會,不僅極大地提升了系統吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU上性能推理的優化實踐。
“在美團和英偉達的共同努力下,我們將 CTR 預測服務成功的遷移到 GPU 平臺上,在為業務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30,進一步提升美團推理服務的效率。”
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103058 -
gpu
+關注
關注
28文章
4740瀏覽量
128949 -
AI
+關注
關注
87文章
30896瀏覽量
269087
發布評論請先 登錄
相關推薦
評論