在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI優化的FPGA和GPU的芯片級對比

FPGA之家 ? 來源:FPGA之家 ? 作者:FPGA之家 ? 2021-03-29 14:15 ? 次閱讀

本部分,我們就跟隨作者一起看看Intel Stratix10 NX和Nvidia在這個領域的利器T4以及V100之間的對比,過程分為芯片級對比以及系統級對比。

本部分一起先來看看芯片級對比

首先來看下我們的GPU對手——Nvidia T4和V100分別有320個和640個張量核(專門用于AI工作負載的矩陣乘法引擎)

Nvidia Tesla T4

Nvidia Tesla V100

下面表格總結了與Stratix10 NX和這些同代工藝GPU的關鍵指標對比。 就die尺寸來說,V100是Nvidia最大的12nm GPU,幾乎比T4大50%,而Stratix10 NX比兩種GPU都小。

36bc17bc-8ecc-11eb-8b86-12bb97331649.png

首先,文章使用GPU最擅長處理的工作負載:通用矩陣乘(GEMM)來跑GPU的benchmark(什么是GEMM請移步https://spatial-lang.org/gemm),為了測量最佳的GPU性能,對每個器件使用最新的library,這些庫不會出錯,并且分別在使用和不使用張量核的情況下測試性能。對于fp32和fp16實驗,分別使用CUDA10.0和10.2的CuBLAS庫進行V100和T4。對于int8,我們使用CUDA10.2中的cuBLASLt庫,這樣可以比cuBLAS庫獲得更高的int8性能。文章使用Nvidia的官方(高度優化)的cuDNN kernel來處理DL工作負載,并且分別對V100和T4使用了從cuDNN7.6.2和7.6.5。 (cuBLAS API,從cuda6.0開始;cuBLASLt API,從cuda10.1開始)

cuDNN庫不支持int8計算kernel,但它們支持將所有模型權重保存在片上內存中。對于每個工作負載、問題大小和序列長度,文章在兩種GPU上運行了所有可能的配置組合,如精度{fp32、fp16、int8}、計算樣式{persistent、non-persistent}、張量核心設置{enable、disable}。然后,選擇最佳的性能,來和Stratix10 NX的NPU進行比較。 這里因為是芯片級對比,所以只考慮了芯核的計算效率,不包括任何初始化、芯核啟動或主機-GPU數據傳輸開銷。

下圖給出了T4和V100 GPU上fp32、fp16和int8精度的GEMM benchmark測試結果。結果表明,相對于張量核禁用情況(藍線),啟用張量核(紅線) 可以顯著提高GPU在GEMM上的性能。

3735e1d2-8ecc-11eb-8b86-12bb97331649.png

然而,一個普遍的趨勢是,張量核雖然是為GEMM設計的,但在矩陣大小為2048或以下情況時的利用效率明顯不如峰值情況(紅色虛線)。因此要實現高利用率,除非工作負載中的矩陣大小非常大,而這在實際DL工作負載中并不常見。T4和V100上的張量核都不支持fp32的精度,而是在執行乘法運算之前,將fp32數據轉換為fp16。相對于純fp16 GEMM,這種數據轉換開銷降低了張量核性能。另一個有趣的情況是,當T4張量核在int8模式下工作時,它們需要將輸入矩陣從標準的行/列主要格式轉換為特定于張量核的布局。因此,即使在處理非常大的8192×8192矩陣時,在張量核(沒有標記的紅線)上實現的int8性能還不到峰值性能的45%。

為了更好地理解這種數據轉換的開銷,文章還進行了一個額外的實驗,在這個實驗中,對張量核進行了特殊布局(帶有標記的紅線)。即使不算矩陣布局變化的開銷,對于4096×4096及以下的矩陣大小,張量核利用率也小于40%,在6144×6144矩陣中利用率達到最高為72%。

下面來看看FPGA上的情況,上圖(Fig.6)的右上角那張圖比較了Stratix10 NX上的NPU性能與具有int8張量核的T4 GPU的性能。為了公平地比較,文章禁用了NPU兩個輸入矩陣其中一個的矩陣布局變換,只保留了對另一個輸入以及輸出矩陣的布局變換(因為NPU以標準格式使用和生成這些矩陣)。

雖然NPU是為矩陣向量運算而設計的,但它在GEMM工作負載上仍然實現了與T4相似的性能,其矩陣大小從512到3072不等(最大的矩陣可以fit進片上BRAM)。

最后,一起看看頂級FPGA和GPU的PK結果。下圖(Fig.7)將文章在Stratix10 NX上增強型NPU的性能與T4和V100的最佳性能進行比較。對于比較小的batch-3和batch-6情況,FPGA性能總是顯著高于兩個GPU。FPGA在batch-6(其設計為:雙核batch-3)中表現最好,平均性能分別是T4和V100的24.2x和11.7x。

與batch-6相比,FPGA在batch-3上的性能較低,因為兩個核中的一個完全空閑。然而,它仍然比T4和V100分別平均快了22.3x和9.3x。在batch size高于6時,如果batch size不能被6整除,則NPU可能不能被充分利用。例如,在batch size為8、32和256的情況下,NPU最多可以達到其batch-6性能的67%、89%和99%,而batch size為12、36和258(上圖中的虛線所示)可以達到100%的效率。在32輸入的中等batch size情況下,NX仍然比T4具有更好的性能,并且與V100性能相當。

即使在比較大的batch size情況下,NX的性能也比T4高58%,只比die size更大(大將近一倍)的V100低30%。這些結果表明,人工智能優化的FPGA在低batch實時推理中不僅可以實現比GPU好一個數量級的性能,而且可以在放寬延遲約束下的高batch推理中和GPU匹敵。上圖(Fig.7)中的右下角圖總結了不同batch size情況下NX相對于CPU的平均加速情況。

上圖(Fig.7)中的右上角圖顯示了與不同batch大小下的兩個GPU相比,NX的平均利用率。NX在batch-6中的平均利用率為37.1%,而T4和V100分別僅為1.5%和3%。GPU張量核并非直接互連,它們只能接收來自本地核內寄存器文件的輸入。因此,每個GPU張量核都必須發送它的partial result到全局內存中,并與其他張量核同步,以結合這些partial result。然后GPU從全局內存中讀取組合好的矢量來執行進一步的操作,如激活函數(activation functions)。

較高的batch size可以攤銷這種同步延遲,但即使在batch-256情況下,T4和V100的利用率分別只有13.3%和17.8%。 另一方面,FPGA在架構上也更具優勢,其在張量塊之間有專用的用來做減法的互連, FPGA的可編程布線資源還允許將MVU tile和矢量單元級引擎級聯起來進行直接通信,減少了像GPU中那樣必須通過內存通信的情況。

綜上可以看到,FPGA依靠架構優勢和超高的資源利用率,在AI性能PK上對GPU形成了強勁挑戰。下一篇,我們再來一起看看從系統角度,FPGA和GPU的對比情況以及功耗方面的分析。

原文標題:讀《超越巔峰性能:AI優化的FPGA和GPU真實性能對比》:芯對芯

文章出處:【微信公眾號:FPGA之家】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1629

    文章

    21746

    瀏覽量

    603751
  • AI
    AI
    +關注

    關注

    87

    文章

    30979

    瀏覽量

    269249

原文標題:讀<超越巔峰性能:AI優化的FPGA和GPU真實性能對比>:芯對芯

文章出處:【微信號:zhuyandz,微信公眾號:FPGA之家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    芯片級封裝的bq24165/166/16評估模塊

    電子發燒友網站提供《芯片級封裝的bq24165/166/16評估模塊.pdf》資料免費下載
    發表于 12-18 14:56 ?0次下載
    <b class='flag-5'>芯片級</b>封裝的bq24165/166/16評估模塊

    行業首個芯片級游戲技術,OPPO「風馳游戲內核」正式亮相一加游戲大會

    獨家自研芯片級游戲技術「風馳游戲內核」,深入芯片底層,實現芯片性能供給與游戲性能需求的精準平衡,在功耗、溫度和畫質三方面體驗全面提升,堪比一次芯片的自我迭代。「風馳
    的頭像 發表于 12-13 10:20 ?207次閱讀
    行業首個<b class='flag-5'>芯片級</b>游戲技術,OPPO「風馳游戲內核」正式亮相一加游戲大會

    一加將首發芯片級游戲技術 帶來極致手游體驗

    一加即將召開一場盛大的游戲盛會,屆時將揭曉其最新旗艦手機系列。中國區總裁李杰在采訪中透露,一加團隊在移動游戲技術領域取得了重大進展,推出了一種創新的“芯片級游戲優化技術”。這項技術不僅對硬件適配
    的頭像 發表于 12-11 15:51 ?202次閱讀

    NPU與GPU的性能對比

    它們在不同應用場景下的表現。 一、設計初衷與優化方向 NPU : 專為加速AI任務而設計,包括深度學習和推理。 針對神經網絡的計算模式進行了優化,能夠高效地執行矩陣乘法、卷積等操作。 擁有眾多小型處理單元,配備專門的內存體系結構
    的頭像 發表于 11-14 15:19 ?1116次閱讀

    瑞沃微:一文詳解CSP(Chip Scale Package)芯片級封裝工藝

    在半導體技術的快速發展中,封裝技術作為連接芯片與外部世界的橋梁,其重要性不言而喻。CSP(Chip Scale Package),即芯片級封裝技術,正是近年來備受矚目的一種先進封裝技術。今天,請跟隨瑞沃微的腳步,一起深入了解CSP芯片級
    的頭像 發表于 11-06 10:53 ?875次閱讀
    瑞沃微:一文詳解CSP(Chip Scale Package)<b class='flag-5'>芯片級</b>封裝工藝

    實現芯片級封裝的最佳熱性能

    電子發燒友網站提供《實現芯片級封裝的最佳熱性能.pdf》資料免費下載
    發表于 10-15 10:22 ?0次下載
    實現<b class='flag-5'>芯片級</b>封裝的最佳熱性能

    解決芯片級功率MOSFET的組裝問題

    電子發燒友網站提供《解決芯片級功率MOSFET的組裝問題.pdf》資料免費下載
    發表于 08-27 11:17 ?0次下載
    解決<b class='flag-5'>芯片級</b>功率MOSFET的組裝問題

    自動駕駛三大主流芯片架構分析

    當前主流的AI芯片主要分為三類,GPUFPGA、ASIC。GPUFPGA均是前期較為成熟的
    的頭像 發表于 08-19 17:11 ?1647次閱讀
    自動駕駛三大主流<b class='flag-5'>芯片</b>架構分析

    概倫電子宣布正式推出芯片級HBM靜電防護分析平臺ESDi

    近日,概倫電子宣布正式推出芯片級HBM靜電防護分析平臺ESDi和功率器件及電源芯片設計分析驗證工具PTM,并開始在國內外市場廣泛推廣。
    的頭像 發表于 05-28 10:09 ?601次閱讀

    FPGA芯片你了解多少?

    的缺點。 FPGA和CPU、GPU、ASIC的芯片等核心區別是其底層邏輯運算單元的連線及邏輯布局未固化,用戶可通過 EDA 軟件對邏輯單元和開關陣列編程,進行功能配置,從而去實現特定功能的集成電路
    發表于 04-17 11:13

    FPGA在深度學習應用中或將取代GPU

    對神經網絡進行任何更改,也不需要學習任何新工具。不過你可以保留你的 GPU 用于訓練。” Zebra 提供了將深度學習代碼轉換為 FPGA 硬件指令的抽象層 AI 硬件前景
    發表于 03-21 15:19

    fpga芯片和人工智能芯片的區別

    FPGA芯片和人工智能芯片AI芯片)在設計和應用上存在一些關鍵的區別,這些區別主要體現在它們的功能、
    的頭像 發表于 03-14 17:26 ?1258次閱讀

    芯片級的薄膜電阻和板的厚膜電阻都是如何進行修調呢?

    在MEMS某些器件設計中,常常需要用到可調電阻,在板電路上可以通過電位器對貼片電阻進行調阻,但在芯片級的薄膜電阻和板的厚膜電阻都是如何進行修調呢?
    的頭像 發表于 02-29 10:44 ?986次閱讀
    在<b class='flag-5'>芯片級</b>的薄膜電阻和板<b class='flag-5'>級</b>的厚膜電阻都是如何進行修調呢?

    Vision Pro芯片級內部拆解分析

    近日國外知名拆解機構iFixit對Vision Pro進行了芯片級拆解,結果顯示該設備內含大量德州儀器(TI)芯片,還有一顆國產芯片——兆易創新GD25Q80E 1 MB 串行 NOR 閃存。
    的頭像 發表于 02-21 10:11 ?1317次閱讀
    Vision Pro<b class='flag-5'>芯片級</b>內部拆解分析

    FPGA、ASIC、GPU誰是最合適的AI芯片

    CPU、GPU遵循的是馮·諾依曼體系結構,指令要經過存儲、譯碼、執行等步驟,共享內存在使用時,要經歷仲裁和緩存。 而FPGA和ASIC并不是馮·諾依曼架構(是哈佛架構)。以FPGA為例,它本質上是無指令、無需共享內存的體系結
    發表于 01-06 11:20 ?1686次閱讀
    <b class='flag-5'>FPGA</b>、ASIC、<b class='flag-5'>GPU</b>誰是最合適的<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>?
    主站蜘蛛池模板: 99久久久精品| 国产成人mv在线观看入口视频| sis色中色| 天堂在线最新版在线www| 狠狠色欧美亚洲狠狠色www| 色月| 激情综合激情五月| 一级毛片免费不卡在线视频| 久久aa毛片免费播放嗯啊| 日韩高清一级| 性久久久久久久久久| 2019天天干夜夜操| 人人人人干| 午夜免费片| 9999毛片免费看| 亚洲九九香蕉| avtt天堂网永久资源| 夜夜做日日做夜夜爽| 色橹橹| 手机看片自拍| 狠狠操狠狠插| 一本大道一卡二卡四卡| 人色网| 羞羞色院91精品网站| 99国产福利| 国产精品国产午夜免费福利看| 奇米影视一区二区三区| 国产精品资源| 在线精品国产第一页| abc119影院成人免费看| 免费观看黄视频| 美女被免费网站在线视频九色| 亚洲天堂免费| 亚洲成人观看| 日本成人免费网站| 日本色图视频| 欧美福利网| 六月婷婷激情综合| 久久不射影院| 午夜骚片| 欧美另类自拍|