在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MLPerf 聯盟公布7項測試構成了當前機器學習領域的全新行業基準測試

NVIDIA英偉達企業解決方案 ? 來源:lq ? 2018-12-24 14:12 ? 次閱讀

近日,MLPerf 聯盟公布了其7項測試的首批結果,此7項測試構成了當前機器學習領域的全新行業基準測試。NVIDIA參與了其中6個類別的測試,在這6項測試中,從單節點測試到大規模測試,NVIDIA平臺的測試結果都遙遙領先,證明了NVIDIA平臺方法在加速機器學習領域的強大實力。

MLPerf 聯盟的宗旨是“ 致力于確立一套通用的基準測試,助力機器學習 (ML) 領域跨移動設備和云服務測量系統的訓練和推理性能?!盢VIDIA 一直以來都是 MLPerf 聯盟的主要成員,與其他成員一同積極構建、完善和發展首套商定一致的工作負載,以便可以跨用例范圍地直接比較各平臺性能。

作為快速成長的新興市場,機器學習領域缺少用來評估平臺性能的行業測試基準。雖然 ResNet-50 等網絡經常用作訓練和推理的性能代理,但其仍是一套主要基于圖像任務的單一CNN,不能提供機器學習平臺的完整性能圖景。機器學習還包含許多其他用例,例如語音、翻譯和推薦系統等。

認識 MLPerf

MLPerf 的關鍵設計目標之一是工作負載的多樣化。因此,它涵蓋了對圖像和自然語言的使用,以及推薦系統和強化學習等,共 7 項測試。目前,這些工作負載僅可用于測試訓練,未來版本的工作負載將計劃以推理為重點。

NVIDIA最初致力于研究封閉組,旨在針對ML訓練系統(包括硬件和軟件)提供有價值的對比。為實現這一目標,封閉組要求所有提交成果均使用相同的數據準備和訓練程序來訓練相同的神經網絡模型架構。從應用程序角度看,這將確保所有條目盡可能等同,性能的差異只歸因于軟件、硬件或規模不同。選擇封閉組的網絡模型、數據集和訓練程序作為當今機器學習社區中的通用計算方法。另一方面,公開組不用于系統對比,而是用于鼓勵網絡模型架構和其算法方面的創新。

NVIDIA提交了7項測試類別中的6類測試結果,未提交強化學習測試,是因為這項測試基于戰略游戲《GO》,該游戲最初在配備Tesla P100 GPU的服務器上進行開發。但目前情況是,服務器中包含重要的CPU組件,因此只能提供有限的擴展。

MLPerf分數的計算方法是,首先測量訓練到達指定目標精度的時間,然后歸一化為參考平臺上未執行優化所需的時間。歸一化的目的是將不同的基準測試轉化為相似的分數量級,因為各基準測試所需的訓練時間不同。訓練時間和 MLPerf 分數均發布在 MLPerf 網站上,為此我們以分鐘為單位公布訓練時間。以下是 NVIDIA 達到收斂結果的時間,包括單節點和大規模的實現:

單節點封閉組 GPU 性能:

測試平臺:DGX-2H – 雙路Xeon Platinum 8174、1.5TB 系統 RAM、16 個 32GB Tesla V100 SXM-3 GPU通過NVSwitch互通。

大規模封閉組 GPU 性能:

測試平臺:DGX-1V 集群,適用于圖像分類和非重復性翻譯。DGX-2H 集群,適用于重型物體檢測和輕量型物體檢測、重復性翻譯。每個DGX-1V配備雙路 Xeon E5-2698 V4、512GB 系統 RAM、8 個16GB Tesla V100 SXM-2 GPU。每個DGX-2H配備雙路Xeon Platinum 8174、1.5TB系統RAM、16個32GB Tesla V100 SXM-3 GPU通過NVSwitch互通。

從以上數字可以看出:單個DGX-2節點能夠在20分鐘內完成多數工作負載。在大規模提交中,除1次測試外,都在7分鐘內完成這些任務。與第二快的提交相比,GPU的交付速度提高達 5.3 倍。鑒于深度學習早期階段的訓練以天和周計算,上述完成時間證明我們在過去幾年中取得了巨大進步。以下圖表說明我們在訓練 ResNet-50 模型方面取得的進步程度:

很顯然,因為一系列平臺創新,過去幾年里性能提升巨大。這些創新包括:

NVLink 結構技術:Pascal 架構中引入NVLink允許GPU以300GB/秒的速度進行通信,比PCIe快近10倍。

Tensor Cores:Volta架構中引入Tensor Cores,加速了大型矩陣運算(這是AI的核心),在單次運算中執行混合精度矩陣乘法和累加計算。

NVSwitch:首款節點交換架構,在單個服務器節點中支持16個全互聯GPU,并驅動全部8對GPU 分別以300GB/s的速度同時通信。這16個GPU 還可作為單個大型加速器,擁有0.5TB的統一內存空間和每秒2千萬億次的深度學習計算性能。

全棧優化:方法得當

NVIDIA的加速深度學習方法包含整套平臺,并在硬件、軟件和生態系統支持下持續創新。這種方法為深度學習社區帶來巨大的優勢,允許開發人員在任何提供商的云服務上使用任何熱門框架,或者使用自己的GPU基礎架構實現卓越的性能。NVIDIA向MLPerf提交的測試使用MXNet處理圖像分類工作負載(ResNet-50),使用PyTorch提交涵蓋翻譯、對象檢測和實例分割以及推薦器的工作負載。谷歌的TernsorFlow團隊也展示了在谷歌云平臺上使用NVIDIA V100 GPU處理ResNet-50的出色表現。

這些框架均可在NVIDIA GPU云(NGC)容器注冊服務器中免費獲取,并且每月更新一次,性能持續改進。此前發表的一篇博客中說明 11 月 18.11 版本的容器中對 NVIDIA 深度學習軟件堆棧的最新改進。以下將簡述這些改進:

MXNet

添加了 Horovod,改進跨多個節點訓練的性能。

借助小批量 (<= 32) 優化大規模多節點訓練的性能

有關更多詳細信息,請參閱AWS上的博客,其中具體概述了MXNet的最新改進。

TensorFlow

更新了XLA圖形編譯器,優化了運算符融合以節省內存帶寬,優化了Tensor Core數據布局。谷歌最近的一篇博客詳細介紹了更具體的細節。

PyTorch

Apex中新添實用程序,并融合實施Adam優化器,通過減少冗余GPU設備內存通道、改進卷積翻譯模型的層歸一化性能以及為多進程和多節點訓練改進DistributedDataParallel包裝器,以提高性能。

cuDNN

多方面顯著性改進了卷積性能,尤其在每個GPU 小批量處理數據之時;優化了Tensor Core的Persistent RNNs算法。

DALI

對象檢測模型所需的各種圖像預處理例程提速,現在它們可在GPU上運行,而無需CPU。

結束語

NVIDIA對第一組公布結果感到深受鼓舞,并對在AI社區中與各個框架開發團隊的合作深感自豪。MLPerf作為一種工具,允許AI平臺制造商使用一組商定的用例來比較他們的產品,我們將繼續與MLPerf聯盟合作,并隨AI工作負載的進展,迭代這一基準。以上這些技術現已面向AI開發者社區開放,可從我們的 NGC容器注冊服務器獲取。敬請關注我們的開發者博客更新,了解有關 TensorFlow、PyTorch和MXNet框架中的具體優化的更多信息。www.mlperf.org 上提供MLPerf基準模型,可根據相關基準目錄中的自述文件運行。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5021

    瀏覽量

    103250
  • 機器學習
    +關注

    關注

    66

    文章

    8425

    瀏覽量

    132769
  • 自然語言
    +關注

    關注

    1

    文章

    288

    瀏覽量

    13360
  • MLPerf
    +關注

    關注

    0

    文章

    35

    瀏覽量

    646

原文標題:NVIDIA 在全球首個全行業 AI 基準測試中拔得頭籌

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    突破防水極限,IP68防水測試設備引領行業前行

    著整個行業不斷前行。IP68防水等級代表了當前防水技術的巔峰。其中,“IP”是國際防護等級的縮寫,數字“6”表示設備能夠完全防止灰塵進入,而數字“8”則意味著設備
    的頭像 發表于 12-27 14:04 ?102次閱讀
    突破防水極限,IP68防水<b class='flag-5'>測試</b>設備引領<b class='flag-5'>行業</b>前行

    MLCommons推出AI基準測試0.5版

    開放式機器學習工程聯盟 MLCommons 在美國加州當地時間公布推出適用于消費類 PC 的 AI 性能的 MLPerf Client
    的頭像 發表于 12-12 16:47 ?347次閱讀

    星閃聯盟認證 SLE SLB測試

    行業標準。一、申請流程:輕松便捷1.產品廠商注冊星閃聯盟會員2.向聯盟秘書處報備產品測試3.測試實驗室設備
    的頭像 發表于 11-15 16:59 ?241次閱讀
    星閃<b class='flag-5'>聯盟</b>認證 SLE SLB<b class='flag-5'>測試</b>

    浪潮信息AI存儲性能測試的領先之道

    AI技術的無限可能。近日,在MLCommons的子項目MLPerf Storage v1.0性能基準評測中,浪潮信息再度展現了在AI存儲領域的卓越實力。
    的頭像 發表于 10-29 16:30 ?267次閱讀
    浪潮信息AI存儲性能<b class='flag-5'>測試</b>的領先之道

    DaVinci系統級基準測試測量

    電子發燒友網站提供《DaVinci系統級基準測試測量.pdf》資料免費下載
    發表于 10-16 11:32 ?0次下載
    DaVinci系統級<b class='flag-5'>基準</b><b class='flag-5'>測試</b>測量

    基準測試C55 DSP庫說明

    電子發燒友網站提供《基準測試C55 DSP庫說明.pdf》資料免費下載
    發表于 10-11 10:08 ?0次下載
    <b class='flag-5'>基準</b><b class='flag-5'>測試</b>C55 DSP庫說明

    柔性測試技術的應用領域

    柔性測試技術是以多種相關技術為基礎,可滿足復雜、多樣化的測試測量需求的系統化技術。它的應用領域廣泛,涵蓋了多個重要行業,以下是關于柔性測試
    的頭像 發表于 10-08 18:03 ?555次閱讀

    浪潮信息AS13000G7榮獲MLPerf? AI存儲基準測試性能全球第一

    獎得主大衛?帕特森(David Patterson)聯合頂尖學術機構發起成立。2023年推出MLPerf? 存儲基準性能測試,旨在以架構中立、具有代表性和可重復的方式衡量機器
    的頭像 發表于 09-28 16:46 ?223次閱讀
    浪潮信息AS13000G<b class='flag-5'>7</b>榮獲<b class='flag-5'>MLPerf</b>? AI存儲<b class='flag-5'>基準</b><b class='flag-5'>測試</b>五<b class='flag-5'>項</b>性能全球第一

    華為云圖引擎服務GES震撼業界,刷新基準測試世界紀錄

    9月26日,國際知名的關聯數據基準委員會(LDBC)最新公布的社交網絡測試交互式負載(SNB)成績單上,華為云的圖引擎服務(GES)大放異彩,圓滿通過了所有基于聲明式查詢語言的基準
    的頭像 發表于 09-27 14:28 ?499次閱讀

    是德科技與AMD攜手革新云與邊緣基礎設施性能基準測試

    , Inc.(NASDAQ: AMD)緊密合作,利用AMD最新推出的第四代EPYC? CPU,共同開發出一種創新的基準測試方法。這一方法不僅為高速數字設計公司、網絡設備制造商和數據中心運營商提供了全新的系統性能評估手段,更在云和
    的頭像 發表于 09-19 14:23 ?413次閱讀

    Sitara? AM62Ax基準測試

    電子發燒友網站提供《Sitara? AM62Ax基準測試.pdf》資料免費下載
    發表于 09-07 10:41 ?0次下載
    Sitara? AM62Ax<b class='flag-5'>基準</b><b class='flag-5'>測試</b>

    如何理解機器學習中的訓練集、驗證集和測試

    理解機器學習中的訓練集、驗證集和測試集,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了
    的頭像 發表于 07-10 15:45 ?4364次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    捕捉復雜非線性模式的場景中顯得力不從心。 將時間序列的分析與預測用于大規模的數據生產一直存在諸多困難。 在這種背景下,結合機器學習,特別是深度學習技術的時間序列分析方法,成了研究和應用
    發表于 06-25 15:00

    機器視覺行業就率將迎來一輪“洗牌賽”

    盡管當前機器視覺領域的相關企業普遍面臨挑戰,但長遠來看,隨著技術的進步和市場需求的增長,機器視覺在工業自動化、智能制造乃至其他領域將有巨大的應用潛力。
    發表于 03-26 11:10 ?919次閱讀

    通用CPU性能基準測試的研究現狀

    經過持續迭代升級,TPC已發展成為能夠滿足多種應用場景性能測試需求的基準測試簇,根據測試場景和測試事務的不同,可將 TPC性能
    發表于 02-20 10:22 ?724次閱讀
    通用CPU性能<b class='flag-5'>基準</b><b class='flag-5'>測試</b>的研究現狀
    主站蜘蛛池模板: 日本3级视频| 婷婷5月天| 5g影院天天爽| 男女啪视频大全1000| 国产农村三片免费网站 | 久久久久女人精品毛片九一| www视频在线观看天堂| 嫩草影院入口一二三免费| 五月桃花网婷婷亚洲综合| 四虎永久精品免费网址大全| 亚洲综合色丁香婷婷六月图片 | 天堂在线bt| 97色在线视频观看香蕉| 国模吧在线视频| 久久久噜噜噜www成人网| 日本媚薬痉挛在线观看免费| 四虎现在的网址入口| 亚洲成人激情电影| 永久精品免费影院在线观看网站| 免费看av的网址| 色婷婷九月| 亚洲网站免费| 亚洲a成人| 久久国产免费观看精品1| 色先锋av资源中文字幕| 在线看片成人免费视频| 一级毛片免费毛片一级毛片免费| 深爱开心激情网| 四虎永久在线精品国产免费 | xxxxxx性| 2021天天躁狠狠燥| 色免费在线| 日本xxxx色视频在线观看| 久久久99精品免费观看精品| 97成人资源| videos另类重口tv| 啪啪免费看视频| 狼色网| 在线观看亚洲一区二区| 亚洲欧美日韩一区| www色综合|