在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Meta開發AITemplate,大幅簡化多GPU后端部署

3D視覺工坊 ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-04 17:14 ? 次閱讀

眾所周知,GPU 在各種視覺、自然語言和多模態模型推理任務中都占據重要位置。然而,對于高性能 GPU 推理引擎,AI 從業者幾乎沒有選擇權,必須使用一些平臺專有的黑盒系統。這意味著如果要切換 GPU 供應商,就必須重新實現一遍部署系統。在生產環境中當涉及復雜的依賴狀況時,這種靈活性的缺失使維護迭代成本變得更加高昂。

在 AI 產品落地過程中,經常需要模型快速迭代。盡管一些閉源系統(如 TensorRT)提供了一些定制化功能,但這些定制化功能完全不能滿足需求。更進一步來說,這些閉源專有的解決方案,會使 debug 更加困難,對開發敏捷性造成影響。

針對這些業界難題,Meta AI 開發了擁有 NVIDIA GPU 和 AMD GPU 后端的統一推理引擎——AITemplate。

AITemplate 在 CNN、Transformer 和 Diffusion 模型上都能提供接近硬件上限的 TensorCore (NVIDIA GPU) 和 MatrixCore (AMD GPU) 性能。使用 AITemplate 后,在 NVIDIA GPU 上對比 PyTorch Eager 的提速最高能達到 12 倍,在 AMD GPU 上對比 PyTorch Eager 的提速達到 4 倍。

這意味著,當應用于超大規模集群時,AITemplate 能夠節約的成本數額將是驚人的。

具體而言,AITemplate 是一個能把 AI 模型轉換成高性能 C++ GPU 模板代碼的 Python 框架。該框架在設計上專注于性能和簡化系統。AITemplate 系統一共分為兩層:前段部分進行圖優化,后端部分針對目標 GPU 生成 C++ 模板代碼。AITemplate 不依賴任何額外的庫或 Runtime,如 cuBLAS、cudnn、rocBLAS、MIOpen、TensorRT、MIGraphX 等。任何 AITemplate 編譯的模型都是自洽的。

AITemplate 中提供了大量性能提升創新,包括更先進的 GPU Kernel fusion,和一些專門針對 Transformer 的先進優化。這些優化極大提升了 NVIDIA TensorCore 和 AMD MatrixCore 的利用率。

目前,AITemplate 支持 NVIDIA A100 和 MI-200 系列 GPU,兩種 GPU 都被廣泛應用在科技公司、研究實驗室和云計算提供商的數據中心。

團隊對 AITemplate 進行了一系列測試。下圖的測試展示了 AITemplate 和 PyTorch Eager 在 NVIDIA A100 上的主流模型中的加速比。

92189092-4576-11ed-96c9-dac502259ad0.png

在帶有 Cuda 11.6 的 Nvidia A100 上運行 BERT 和 ResNet-50,AITemplate 在 ResNet-50 中提供了 3 到 12 倍的加速,在 BERT 上提供了 2 到 5 倍的加速。

經測試,AITemplate 在 AMD MI250 GPU 上較 PyTorch Eager 也有較大的加速比。

922eea18-4576-11ed-96c9-dac502259ad0.png

使用 ROCm 5.2 和 MI250 加速器,ResNet-50 和 BERT 的加速在 1.5-2 倍范圍內。

AITemplate 的統一 GPU 后端支持,讓深度學習開發者在最小開銷的情況下,擁有了更多的硬件提供商選擇。下圖直觀展示了 AITemplate 在 NVIDIA A100 GPU 和 AMD MI250 GPU 上的加速對比:

924a6572-4576-11ed-96c9-dac502259ad0.png

此外,AITemaplte 的部署較其他方案也更為簡潔。由于 AI 模型被編譯成了自洽的二進制文件并且不存在任何第三方庫的依賴,任何被編譯的二進制文件都能在相同硬件、CUDA 11/ ROCm 5 或者更新的軟件環境中運行,也不用擔心任何后向兼容問題。AITemplate 提供了開箱即用的模型樣例,如 Vision Transformer、BERT、Stable Diffusion、ResNet 和 MaskRCNN,使得部署 PyTorch 模型更加簡單。

AITemplate 的優化

AITemplate 提供了目前最先進的 GPU Kernel 融合技術:支持縱向、水平和內存融合為一體的多維融合技術。縱向融合將同一條鏈上的操作進行融合;水平融合將并行無依賴的操作進行融合;內存融合把所有內存移動操作和計算密集算子進行融合。

9265ec70-4576-11ed-96c9-dac502259ad0.png

在水平融合中,AITemplate 目前可以把不同輸入形狀的矩陣乘法 (GEMM)、矩陣乘法和激活函數,以及 LayerNorm、LayerNorm 和激活函數進行融合。

在縱向融合中,AITemplate 支持超過傳統標準的 Elementwise 融合,包括:

通過 CUTLASS 和 Composable Kernel 支持了矩陣和 Elementwise 算子融合;

為 Transformer 的 Multi-head Attention 提供了矩陣乘法和內存布局轉置融合;

通過張量訪問器對內存操作,如 split、slice、concatenate 等進行融合來消除內存搬運。

在標準的 Transformer Multi head attention 模塊,目前 AITemplate 在 CUDA 平臺使用了 Flash Attention,在 AMD 平臺上使用了 Composable Kernel 提供的通用背靠背矩陣乘法融合。兩種解決方案都能大幅減小內存帶寬需求,在長序列問題中,提升更為明顯。如下圖所示:

928121ca-4576-11ed-96c9-dac502259ad0.png

AITemplate 與 Composable Kernel 的廣義背靠背融合顯著提高了長序列 Transformer 的推理效率。在 batch size 為 1 時,使用 AITemplate 的兩張 GPU 均比原生框架加速了 80%。

開發 AITemplate

AITemplate 有兩層模版系統:第一層在 Python 中使用 Jinja2 模板,第二層在 GPU TensorCore/MatrixCore 中使用 C++ 模板(NVIDIA GPU 上使用 CUTLASS,AMD GPU 上使用 Composable Kernel)。AITemplate 在 Python 中找到性能最優的 GPU 模板參數,再通過 Jinja2 渲染出最終的 C++ 代碼。

在代碼生成后,就能使用 GPU C++ 編譯器(NVIDIA 平臺上的 NVCC 和 AMD 平臺上的 HIPCC)編譯出最終的二進制代碼。AITemplate 提供了一套類似于 PyTorch 的前端,方便用戶直接將模型轉換到 AITemplate 而不是通過多層 IR 轉換。

總體來看,AITemplate 對當前一代及下一代 NVIDIA GPU 和 AMD GPU 提供了 SOTA 性能并大幅簡化了系統復雜度。

Meta 表示,這只是創建高性能多平臺推理引擎旅程的開始:「我們正在積極擴展 AITemplate 的完全動態輸入支持。我們也有計劃推廣 AITemplate 到其他平臺,例如 Apple 的 M 系列 GPU,以及來自其他供應商的 CPU 等等?!?/p>

此外,AITemplate 團隊也正在開發自動 PyTorch 模型轉換系統,使其成為開箱即用的 PyTorch 部署方案。「AITemplate 對支持 ONNX 和 Open-XLA 也持開放態度。我們希望能構建一個更為綠色高效的 AI 推理系統,能擁有更高的性能,更強的靈活性和更多的后端選擇?!箞F隊表示。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4764

    瀏覽量

    129174
  • AI
    AI
    +關注

    關注

    87

    文章

    31359

    瀏覽量

    269761

原文標題:推理速度數倍提升,大幅簡化多GPU后端部署:Meta發布全新推理引擎AITemplate

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Meta發布新AI模型Meta Motivo,旨在提升元宇宙體驗

    Meta在人工智能領域邁出了重要一步。通過這款模型,Meta希望能夠為用戶提供更加自然、流暢的元宇宙交互體驗。數字代理在元宇宙中的動作將更加逼真,從而增強用戶的沉浸感和參與度。 除了Meta Motivo,
    的頭像 發表于 12-16 10:34 ?413次閱讀

    詳解MySQL實例部署

    詳解MySQL實例部署
    的頭像 發表于 11-11 11:10 ?308次閱讀

    Arm推出GitHub平臺AI工具,簡化開發者AI應用開發部署流程

    軟件提供了無縫的開發體驗。 GitHub Actions、原生 GitHub 運行器和基于 Arm 平臺的 AI 框架相結合,幫助全球 2,000 萬開發簡化 AI 應用開發部署
    的頭像 發表于 10-31 18:51 ?2700次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款模態模型,現已在Amazon Bedrock和Amazon SageMaker中全面可用。
    的頭像 發表于 10-11 18:08 ?478次閱讀

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Meta在AI
    的頭像 發表于 09-27 11:44 ?424次閱讀

    Meta不會在歐盟提供新的模態AI模型

    科技巨頭Meta近日宣布了一項重要決策,其即將推出的創新模態Llama模型將不會在歐盟地區發布。這一決定背后,是Meta對歐洲復雜且不可預測的監管環境的深刻考量,也為Meta與歐盟監
    的頭像 發表于 07-19 16:04 ?527次閱讀

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新開源大語言模型采用 NVIDIA 技術構建,其經過優化后可在云、數據中心、邊緣和 PC 的 NVIDIA GPU 上運行。
    的頭像 發表于 04-23 09:52 ?497次閱讀

    高通與Meta合作優化Meta Llama 3,實現終端側運行

    高通技術公司高級副總裁兼技術規劃和邊緣解決方案業務總經理馬德嘉表示:“我們對Meta開放Meta Llama 3的策略表示贊賞,高通與Meta均致力于賦能開發者,推動AI創新。
    的頭像 發表于 04-22 09:51 ?491次閱讀

    Meta第二代自研AI芯片出世,性能提升三倍以上

    電子發燒友網報道(文/周凱揚)不久前,Meta宣布將花費150億美元,購置60萬塊GPU,而這還沒算上系統成本。就當大家以為Meta打算All In
    的頭像 發表于 04-15 09:25 ?2260次閱讀
    <b class='flag-5'>Meta</b>第二代自研AI芯片出世,性能提升三倍以上

    FPGA在深度學習應用中或將取代GPU

    現場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學習模型時面臨的許多問題 在過去的十年里,人工智能的再一次興起使顯卡行業受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅
    發表于 03-21 15:19

    模擬后端是什么意思

    模擬后端,在軟件開發和測試領域,通常是指使用工具或技術來模擬實際后端服務的行為。這樣做的主要目的是在項目開發過程中,當后端服務還未就緒或暫時
    的頭像 發表于 03-15 15:58 ?710次閱讀

    Meta將于今年在數據中心部署新款定制AI芯片

    Meta近日宣布,計劃于2024年在其數據中心部署新款內部定制的AI芯片。這款芯片將用于支持Meta的人工智能業務,進一步提升數據處理和運算效率。
    的頭像 發表于 02-04 10:17 ?791次閱讀

    Meta計劃今年部署自研定制芯片,以加速AI研發

    Meta公司近日宣布計劃在今年內為其數據中心部署一款自研定制芯片,以支持其人工智能(AI)的研發工作。這一舉措旨在提高Meta在AI領域的競爭力,并加速其技術發展。
    的頭像 發表于 02-03 10:48 ?686次閱讀

    java后端能轉鴻蒙app開發

    java后端轉鴻蒙app開發好。 還是前端呢
    發表于 01-29 18:15

    扎克伯格的Meta斥資數十億美元購買35萬塊Nvidia H100 GPU

    首席執行官馬克扎克伯格表示,Meta總共將擁有相當于600,000個NvidiaH100GPU的計算能力,以幫助其開發下一代人工智能產品。JAEALOT2024年1月22日馬克·扎克伯格計劃購買35
    的頭像 發表于 01-26 08:26 ?783次閱讀
    扎克伯格的<b class='flag-5'>Meta</b>斥資數十億美元購買35萬塊Nvidia H100 <b class='flag-5'>GPU</b>
    主站蜘蛛池模板: 手机看片福利在线| 亚洲丁香网| 欧美日韩色图| 国产综合13p| 开心色99×xxxx| 国产成人福利夜色影视| 日本日本69xxxx| 亚洲国产精品第一页| 综合网 色天使| 天天更新影院| 欧美综合色| 久久2017| 一级片在线免费| 欧美高清老少配性啪啪| 亚洲色图17p| 久久久久久久久国产| 天天爽天天干| 黑人影院| 亚洲资源最新版在线观看| 在线一级毛片| 中文三 级 黄 色 片| 香蕉久久夜色精品国产小说| 色噜噜狠狠色综合欧洲| 久久国产高清视频| 2021日本三级理论影院| 色惰网站| 13日本xxxxxxxxx18| 4438x成人免费| 在线观看www妖精免费福利视频| 婷婷爱爱| 国产在线观看网址你懂得| 天天干夜夜草| 黄网站观看| 亚州人成网在线播放| 噜噜噜噜噜噜色| 天天色综合2| 91大神精品视频| 特级免费毛片| 第四色激情| 国产成人综合亚洲怡春院| 久久久久激情免费观看|