在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA 、 Arm和Intel發布FP8標準化規范作為AI的交換格式

星星科技指導員 ? 來源:NVIDIA ? 作者:Shar Narasimhan ? 2022-10-11 11:30 ? 次閱讀

人工智能處理需要跨硬件和軟件平臺的全棧創新,以滿足神經網絡日益增長的計算需求。提高效率的一個關鍵領域是使用較低精度的數字格式來提高計算效率,減少內存使用,并優化互連帶寬。

為了實現這些好處,業界已經從 32 位精度轉換為 16 位,現在甚至是 8 位精度格式。 transformer 網絡是人工智能中最重要的創新之一,尤其受益于 8 位浮點精度。我們相信,擁有一種通用的交換格式將使硬件和軟件平臺的快速發展和互操作性得以提高,從而推動計算。

NVIDIA 、 ArmIntel 聯合撰寫了一份白皮書 FP8 Formats for Deep Learning ,描述了 8 位浮點( FP8 )規范。它提供了一種通用的格式,通過優化內存使用來加速人工智能的開發,并適用于人工智能訓練和推理。此 FP8 規格有兩種變體, E5M2 和 E4M3 。

該格式在 NVIDIA 料斗體系結構中本地實現,并在初始測試中顯示出出色的結果。它將立即受益于更廣泛的生態系統所做的工作,包括 AI 框架,為開發者實現它。

兼容性和靈活性

FP8 通過硬件和軟件之間的良好平衡,最大限度地減少了與現有 IEEE 754 浮點格式的偏差,以利用現有實現,加快采用速度,并提高開發人員的生產力。

E5M2 使用五位表示指數,兩位表示尾數,是一種截斷的 IEEE FP16 格式。在需要更高精度而犧牲某些數值范圍的情況下, E4M3 格式進行了一些調整,以擴展用四位指數和三位尾數表示的范圍。

新格式節省了額外的計算周期,因為它只使用 8 位。它可以用于人工智能訓練和推理,而不需要在精度之間進行任何重鑄。此外,通過最小化與現有浮點格式的偏差,它為未來 AI 創新提供了最大的自由度,同時仍堅持當前的慣例。

高精度訓練和推理

測試提議的 FP8 格式顯示,在廣泛的用例、架構和網絡中,其精度相當于 16 位精度。變壓器、計算機視覺和 GAN 網絡的結果都表明, FP8 訓練精度與 16 位精度相似,但可以顯著提高速度。有關精度研究的更多信息,請參閱 FP8 Formats for Deep Learning 白皮書。

pYYBAGNE42eAKKP8AACCv9ceJTc299.png

圖 1.語言模型人工智能培訓

在圖 1 中,不同的網絡使用不同的精度度量( PPL 和 Loss ),如圖所示。

pYYBAGNE42eAQ7-PAAAgaylpKC0333.png

圖 2.語言模型 AI 推理

在人工智能行業領先的基準 MLPerf Inference v2.1 中, NVIDIA Hopper 利用這種新的 FP8 格式在 BERT 高精度模型上實現了 4.5 倍的加速,在不影響精度的情況下獲得了吞吐量。

走向標準化

NVIDIA 、 Arm 和 Intel 以開放、無許可證的格式發布了此規范,以鼓勵行業廣泛采用。他們還將向 IEEE 提交該提案。

通過采用一種保持準確性的可互換格式,人工智能模型將在所有硬件平臺上持續高效地運行,并有助于推動人工智能的發展。

鼓勵標準機構和整個行業

關于作者

Shar Narasimhan 是 AI 的高級產品營銷經理,專門從事 NVIDIA 的 Tesla 數據中心團隊的深度學習培訓和 OEM 業務。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9111

    瀏覽量

    368103
  • NVIDIA
    +關注

    關注

    14

    文章

    5026

    瀏覽量

    103288
  • 人工智能
    +關注

    關注

    1792

    文章

    47445

    瀏覽量

    239053
收藏 人收藏

    評論

    相關推薦

    思必馳參與的智能家居團體標準發布

    近日,中國標準化協會發布通知:《智能家居場景工程技術規范》T/CAS 979-2024已起草完成并審查通過,正式準予發布,思必馳為該標準起草
    的頭像 發表于 12-31 16:57 ?514次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能。
    的頭像 發表于 12-17 17:47 ?205次閱讀

    南方智能參編《城市信息模型 數據交換標準格式

    近期,中國城市規劃設計研究院(以下簡稱“中規院”)作為第一起草單位的《城市信息模型 數據交換標準格式》編制組成立暨第一次工作會議在北京順利召開。
    的頭像 發表于 12-09 13:42 ?168次閱讀

    如何使用FP8新技術加速大模型訓練

    FP8 的詳細介紹可以參考此鏈接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples
    的頭像 發表于 12-09 11:30 ?230次閱讀

    三星與SK海力士攜手推進LPDDR6-PIM產品標準化

    AI)專用低功耗DRAM的標準化,從而更好地適應當前“端側AI”(on-device AI)的發展趨勢。
    的頭像 發表于 12-03 10:42 ?273次閱讀

    FP8數據格式在大型模型訓練中的應用

    本文主要介紹了 FP8 數據格式在大型模型訓練中的應用、挑戰及最佳實踐,展示了 FP8 在提升訓練速度和效率方面的潛力和實際效果。
    的頭像 發表于 11-19 14:54 ?380次閱讀
    <b class='flag-5'>FP8</b>數據<b class='flag-5'>格式</b>在大型模型訓練中的應用

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發表于 11-19 14:29 ?348次閱讀
    TensorRT-LLM低精度推理優化

    CAN技術的標準化之旅

    國際標準化組織 (ISO)于2024年5月27日發布了文件ISO 11898-1:2024;在此之前,于2024年3月22日,發布了文件ISO 11898-2:2024。自此,CAN (控制器局域網絡)技術的所有協議及收發器完全
    的頭像 發表于 11-07 11:48 ?443次閱讀

    FP8模型訓練中Debug優化思路

    目前,市場上許多公司都積極開展基于 FP8 的大模型訓練,以提高計算效率和性能。在此,我們整理并總結了客戶及 NVIDIA 技術團隊在 FP8 模型訓練過程中的 debug 思路和方法,供大家參考。
    的頭像 發表于 09-06 14:36 ?352次閱讀
    <b class='flag-5'>FP8</b>模型訓練中Debug優化思路

    三星或將加入UALink聯盟,推動AI芯片互聯標準化

    在全球半導體行業的競爭日益激烈的背景下,韓國科技巨頭三星正積極布局新的戰略領域。據臺灣媒體報道,三星已明確表達了對加入UALink聯盟的興趣,這一聯盟旨在推動AI芯片互聯的標準化,從而進一步提升三星在代工業務領域的競爭力,更好地滿足客戶需求。
    的頭像 發表于 07-01 09:33 ?402次閱讀

    NVIDIA Omniverse 將為全新 OpenPBR 材質模型提供原生支持

    ? NVIDIA 與 OpenUSD 聯盟(AOUSD)早前共同宣布成立 OpenUSD 聯盟材質工作組,推動通用場景描述(OpenUSD)格式材質交換標準化
    的頭像 發表于 06-14 11:23 ?660次閱讀
    <b class='flag-5'>NVIDIA</b> Omniverse 將為全新 OpenPBR 材質模型提供原生支持

    態勢數據有哪些格式和內容呢

    和內容。 特點:具有良好的可讀性和可擴展性,在態勢數據交換和共享中較為常見。 JSON: 定義:一種輕量級的數據交換格式,易于閱讀和編寫,也易于機器解析和生成。 特點:在Web服務和API中,JSON格式被廣泛用于傳輸態勢數據。
    的頭像 發表于 06-11 16:57 ?528次閱讀

    易華錄參編《數據要素流通標準化白皮書(2024)》正式發布

    為加快推動我國數據標準化工作,5月25日,由國家數據局主辦、中國電子技術標準化研究院承辦的第七屆數字中國建設峰會“數據標準化和數據基礎設施分論壇-數據標準化專場”成功召開。
    的頭像 發表于 05-27 09:45 ?819次閱讀
    易華錄參編《數據要素流通<b class='flag-5'>標準化</b>白皮書(2024)》正式<b class='flag-5'>發布</b>

    NVIDIA GPU架構下的FP8訓練與推理

    FP8 訓練利用 E5M2/E4M3 格式,具備與 FP16 相當的動態范圍,適用于反向傳播與前向傳播。
    的頭像 發表于 04-25 10:01 ?796次閱讀
    <b class='flag-5'>NVIDIA</b> GPU架構下的<b class='flag-5'>FP8</b>訓練與推理

    NVIDIA 發布全新交換機,全面優化萬億參數級 GPU 計算和 AI 基礎設施

    圣何塞 —— GTC —— 太平洋時間 2024 年 3 月 18 日 —— NVIDIA 發布專為大規模 AI 量身訂制的全新網絡交換機 - X800 系列。 ?
    發表于 03-19 10:05 ?365次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>發布</b>全新<b class='flag-5'>交換</b>機,全面優化萬億參數級 GPU 計算和 <b class='flag-5'>AI</b> 基礎設施
    主站蜘蛛池模板: 色偷偷视频| 欧美一欧美一区二三区性| 在线亚洲精品| 视频在线二区| 辣h高h肉h激h超h| 欧美视频xxxxx| 免费在线你懂的| 美女视频黄色的免费| 韩国三级hd| www.色在线观看| 最近观看免费高清视频| 午夜精品福利影院| 欧美成人在线影院| 2020天天操| 日本一卡二卡3卡四卡网站精品| 华人被黑人粗大猛然进| 4399一级成人毛片| 一区二区三区四区在线不卡高清| 永久免费观看黄网站| 嘿嘿嘿视频在线观看| 香淫| 日本黄色片段| 韩国三级理在线视频观看| 亚洲精品午夜视频| 岛国午夜| 天天躁天天狠天天透| 黄网免费看| 亚洲视频五区| 亚洲大成色www永久网| 日本丶国产丶欧美色综合| 黄色成人毛片| 天天操天天干天天做| 午夜精品网站| 国产精品护士| 国产综合视频在线观看| 人日人操| 97capcom超频在线| 免费啪视频在线观看| 国产成人精品一区| 日韩亚| 老色批影院|