在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

美團落實 AI 框架在 GPU 上性能推理的優化實踐

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2021-12-28 09:11 ? 次閱讀

美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰略,以“吃”為核心,通過科技創新,服務于生活服務業需求側和供給側數字化升級。美團在中國業務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區縣,服務 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規模的提升和業務的精細化運營,業務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰,而 CTR 模型作為推薦系統的核心模型,其效果直接影響業務的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經網絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

GPU 擁有數以千計的計算核心,可以在單機內提供密集的并行計算能力,特別適合深度學習場景,在行業內已經在 CV 、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API ,NVIDIA 建立了完整的 GPU 生態系統。基于此,美團基礎研發平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優化,希望能通過 GPU 強大的計算力,協助美團在 CTR 預測的各業務場景中發揮出最大優勢。

為了解決算力瓶頸及上述各種挑戰,美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV 、NLP 及 CTR 訓練后,也使用了 NVIDIA T4 來提供 CTR 預測支持,大幅提升用戶體驗與服務穩定性。除此之外,時延也是業務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非常苛刻,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

通過 NVIDIA T4 深度優化方案,成功為美團 CTR 模型創造更多應用機會,不僅極大地提升了系統吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU 上性能推理的優化實踐。

美團研發工程師,機器學習平臺預測引擎負責人王新表示,“在美團和英偉達的共同努力下, CTR 預測服務成功的遷移到 GPU 平臺上,在為業務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30 ,進一步提升美團推理服務的效率。”

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10879

    瀏覽量

    212198
  • NVIDIA
    +關注

    關注

    14

    文章

    5021

    瀏覽量

    103259
  • AI
    AI
    +關注

    關注

    87

    文章

    31133

    瀏覽量

    269470
  • 美團
    +關注

    關注

    0

    文章

    125

    瀏覽量

    10375

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SSM框架性能優化技巧 SSM框架中RESTful API的實現

    SSM框架性能優化技巧 SSM(Spring + Spring MVC + MyBatis)框架性能
    的頭像 發表于 12-17 09:10 ?213次閱讀

    SSM框架在Java開發中的應用 如何使用SSM進行web開發

    。以下是對SSM框架在Java開發中的應用,以及如何使用SSM進行web開發的介紹: SSM框架的組件及其作用 Spring :Spring是一個開源的Java/Java EE全功能棧
    的頭像 發表于 12-16 17:28 ?534次閱讀

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器
    的頭像 發表于 12-03 17:05 ?849次閱讀
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b>LLM<b class='flag-5'>推理性能</b>

    《算力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    對卷積核優化的思考。 GPU的存儲體系采用了獨特的倒金字塔結構,在我看來這是其計算性能的關鍵。大容量寄存器設計破解了傳統馮諾依曼架構的內存瓶頸,合并訪存機制巧妙解決了內存帶寬限制。NVIDIA
    發表于 11-24 17:12

    NPU與GPU性能對比

    它們在不同應用場景下的表現。 一、設計初衷與優化方向 NPU : 專為加速AI任務而設計,包括深度學習和推理。 針對神經網絡的計算模式進行了優化,能夠高效地執行矩陣乘法、卷積等操作。
    的頭像 發表于 11-14 15:19 ?1268次閱讀

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了
    的頭像 發表于 10-29 14:12 ?534次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    TI TDA2x SoC基于GPU的環視優化

    電子發燒友網站提供《TI TDA2x SoC基于GPU的環視優化.pdf》資料免費下載
    發表于 10-10 09:14 ?0次下載
    TI TDA2x SoC<b class='flag-5'>上</b>基于<b class='flag-5'>GPU</b>的環視<b class='flag-5'>優化</b>

    揭秘動態化跨端框架在鴻蒙系統下的高性能解決方案

    平臺解決方案。 在研發團隊使用后可大幅降低研發人力成本;為業務提供實時觸達、A/B觸達等能力以提升業務投放效率;同時保障了C端用戶優秀的用戶體驗。 一、動態化跨端框架原理介紹 ? ? ? ? ? 通過上圖,我們先了解一下動態化跨端框架在iOS、Android等多個平臺實現
    的頭像 發表于 10-08 13:46 ?884次閱讀
    揭秘動態化跨端<b class='flag-5'>框架在</b>鴻蒙系統下的高<b class='flag-5'>性能</b>解決方案

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領先的智能計算服務提供商,在2023年11月25日發布了針對大語言
    的頭像 發表于 09-29 10:14 ?504次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    AI真·煉丹:整整14天,無需人類參與

    ,甚至是整個AI平臺或全流程加速實踐成果,重點就是如何更好地利用CPU來提升AI,包括大模型應用的性能和效率。
    的頭像 發表于 07-02 14:15 ?302次閱讀
    <b class='flag-5'>AI</b>真·煉丹:整整14天,無需人類參與

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    。 **英偉達Blackwell架構在數據中心方面的應用有哪些?** 1. **AI **大模型訓練 Blackwell 架構的 GPU 針對當前火爆的 AI 大模型進行了優化,能夠
    發表于 05-13 17:16

    利用NVIDIA組件提升GPU推理的吞吐

    實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網絡和熱 Embedding 全置于
    的頭像 發表于 04-20 09:39 ?759次閱讀

    開發者手機 AI - 目標識別 demo

    Lite的API接口實現主要功能; Mindspore Lite為Openharmony AI推理框架,為上層應用提供統一的AI推理接口,
    發表于 04-11 16:14

    FPGA在深度學習應用中或將取代GPU

    最后說,“我們決定專注于軟件業務,探索研究提升神經網絡性能和降低延遲的方案。Zebra 運行在 FPGA ,因此無需更換硬件就可以支持 AI 推理。FPGA 固件的每次刷新都能給我
    發表于 03-21 15:19

    AI推理框架軟件ONNX Runtime正式支持龍架構

    近日,知名AI推理框架開源社區ONNX Runtime正式發布支持龍架構的版本1.17.0。
    的頭像 發表于 03-12 12:23 ?597次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>框架</b>軟件ONNX Runtime正式支持龍架構
    主站蜘蛛池模板: 免费黄视频网站| 特级片网站| 中文字幕一区2区| 亚洲欧美一区二区三区图片| 免费观看交性大片| 在线观看免费视频网站色| 亚洲大成色www永久网址| 色香视频首页| 免费日韩网站| 国产精品嫩草影院一二三区入口 | 在线色视频网站| 天堂最新版资源www在线| 欧美一区二区影院| 久久激情综合网| 888米奇色狠狠俺去啦| 台湾毛片| 性xxxxhd高清| 欧美三j片| 婷婷五月小说| 久久国产综合| 午夜三级福利| caobi在线观看| 欧美日韩亚洲一区| 特级做a爰片毛片免费看| 男人的天堂97| 亚洲高清资源| 国产在线操| 欧美成人伊人久久综合网| 麦克斯奥特曼在线观看| av在线色| 国产亚洲片| 同性男男肉交短文| 香蕉久久影院| 久久精品亚洲一级毛片| 午夜精品aaa国产福利| 2021久久精品国产99国产| 99久久久久久久| 女色专区| 天天干天天做天天射| 高清xxx| 亚洲wwww|