在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在推斷更大的網絡時如何解決計算復雜性增加的問題

冬至子 ? 來源:OpenFPGA ? 作者:碎碎思 ? 2023-05-23 17:21 ? 次閱讀

低計算成本技術

首先,我們將討論如何降低計算成本本身。

量化

量化是權重或激活(每層的輸入和輸出)中比特的減少,通常在 fp32 中構建。眾所周知,深度學習在推理過程中能夠以比訓練過程更低的位精度進行處理,盡管這取決于模型,但即使是 8 位定點數和位數更少的定點數也具有實用的精度。FPGA 與 1 位左右的低精度網絡特別兼容,因為可以使用 LUT 將卷積運算替換為查找表。

修剪

修剪是在卷積層等使用的權重矩陣中,稀疏化(移至 0)足夠接近 0 的值的過程。足夠接近 0 的系數對卷積運算的最終結果影響很小,因此將其設置為 0 不會顯著影響推理結果。在實踐中,我們會設置剪枝的閾值等參數,給出測試模式,檢查允許的誤差范圍。

修剪主要應用于兩個粒度。

  • 1、粗粒:每通道
  • 2、細粒度:單位因子

1 的粗粒度修剪只是簡單地刪除了通道,因此可以在不特別注意計算硬件的情況下提高速度。另一方面,2的細粒度修剪只會增加矩陣內部0元素的數量,同時保持矩陣的大小不變。

在這里我們將限制在這個級別,但是還有其他方法可以減少計算量,例如拓撲調整可以減少模型本身的計算量。

FPGA 上優化的 DNN 框架

GPU 上做深度學習時,無論前端選擇哪種框架,后端幾乎都是跑NVIDIA 優化過的cuDNN 庫。cuDNN 庫經過優化,幾乎可以榨干 GPU 的峰值性能。出于這個原因,在不實現卷積等功能的情況下在后端使用這些庫是很常見的。

FPGA 也是如此,例如 Xilinx 提供了一個名為Vitis-AI的推理框架,而英特爾 FPGA 提供了OpenVINO 工具包。在本節中,根據DPU Vitis-AI 中用于邊緣設備

DPU

DPU是Deep Learning Processing Unit的縮寫,顧名思義就是深度學習的處理器。與我們目前創建的架構不同,其中電路來處理每一層,DPU 實現了一個巨大的算術單元塊,并通過在算術單元塊上連續執行每一層的處理來執行推理過程。

DPU的硬件架構如下圖所示。如圖所示,DPU 具有類似于普通處理器的架構,例如指令調度器。

image.png

DPU只支持8bit的量化網絡,其量化工具在Vitis-AI(原DNNDK)中提供。

下面我們挑選 DPU 架構中的一些有趣的點簡單說一下。

數據并行度提取

在上一篇文章中,我們提取了像素之間和輸出通道之間的 2 軸數據并行性以進行加速。DPU 還提取輸入通道之間的數據并行性。

DPU 有幾種配置,可以根據要實現的芯片大小進行更改,如下表所示。

image.png

性能最高的B4096架構共有2048個算子,像素并行度8,輸入通道方向16個,輸出通道方向16個。雖然有 2048 個運算單元,但總共是 4096 次運算/時鐘,因為每個運算單元同時執行乘法和加法。

上次創建的架構中,運算次數最多的卷積層只有4*8=32個運算單元,兩個卷積層加起來就有32+16=48個單元,性能簡直快了近40倍,區別蠻大的。

用于 DSPDDR(雙倍數據速率)

在 DPU 中,通過僅以雙倍工作頻率運行 DSP 來提高性能,如下圖所示。每個周期可能的操作數翻了一番,從而使 DSP 的使用量減半。

image.png

DPU方面主要針對Zynq Ultrascale+,工作頻率為300~400 MHz。

所以DSP運行在600-800 MHz范圍內,速度非常快。

特別是,這種時鐘分頻的優化在像這次這樣用 HLS 開發時很難重現,需要在 RTL 中進行調整。

另外,在像 DPU 這樣的架構中,每個周期持續向計算單元提供數據是一個問題,但我的印象是這也得到了很好的優化。這是作者的經驗,但是在對1K圖像進行3×3卷積時,運算單元能夠在90%以上的周期內運行(當通道數是并行數的倍數時)。

由于很難創建優化到這種程度的HLS,因此在 FPGA 上實際執行深度學習時,在某些框架上執行推理會更有效。但是,我認為有些模式在現有框架上無法很好地處理,例如使用更優化的架構來切換每一層的量化位數。在這種情況下,可能需要構建自己的硬件來處理數據。

總結

感謝您閱讀到這里。

在本系列教程中,我們專注于在 FPGA 上實際編寫代碼和執行處理。說到FPGA開發,大家可能會有這樣的印象,寫RTL很難,還得懂硬件。然而,就像我一開始創建的推理電路一樣,如果我不關心性能,我可以將高級綜合應用于普通的 C 代碼并且它可以工作。此外,在隨后的加速中,我們主要通過簡單地添加 #pragma. 就能實現 400 倍的顯著速度提升。我認為在創建DPU等優化庫時仍然需要用RTL編寫,但如果目的是在短時間內創建適度優化的庫(像這次的HLS)如果使用它,則可以輕松開發一些應用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19349

    瀏覽量

    230296
  • FPGA
    +關注

    關注

    1630

    文章

    21759

    瀏覽量

    604371
  • DPU
    DPU
    +關注

    關注

    0

    文章

    365

    瀏覽量

    24215
  • LUT
    LUT
    +關注

    關注

    0

    文章

    49

    瀏覽量

    12531
收藏 人收藏

    評論

    相關推薦

    何解決汽車制造商多樣價值和復雜性成本的矛盾?

    何解決多樣價值和復雜性成本之間的矛盾,已成為當今汽車制造商面臨的最大挑戰之一。電氣設計領域對此感受最深,因為“電氣系統”幾乎受所有設計決策和客戶選擇的影響。
    發表于 07-18 10:33 ?1470次閱讀
    如<b class='flag-5'>何解</b>決汽車制造商多樣<b class='flag-5'>性</b>價值和<b class='flag-5'>復雜性</b>成本的矛盾?

    掌握5G測試的復雜性:越來越受到關注

    隨著蜂窩技術的發展,以大約10年的間隔,從3G到4G再到10G相隔10年,無線網絡的性能提升了10倍。這伴隨著測試復雜性更大增加。但是,隨著我們進入2019年,最好暫停并反思該行業通過3G,4G
    發表于 03-09 11:51

    抑制嵌入式系統設計的復雜性解析

    抑制嵌入式系統設計的復雜性
    發表于 12-30 07:20

    嵌入式調試的復雜性分析

    高手談嵌入式調試的復雜性
    發表于 02-19 07:14

    如何用可重構射頻前端簡化LTE設計復雜性

    如何用可重構射頻前端簡化LTE設計復雜性
    發表于 05-24 07:10

    免疫系統的主組織相容復雜性及其應用

    模擬免疫系統的主組織相容復雜性的基礎上,結合模糊邏輯與擴展陰性選擇算法提出了一個基于免疫系統主組織相容復雜性的模糊邏輯綜合決策算法,并用該算法構建了一個實際
    發表于 05-28 11:01 ?8次下載

    基于構件回歸測試的復雜性度量框架

    的軟件修改需求,維護者可以實施不同的修改手段.不同的修改手段會導致不同的回歸測試復雜性,這種復雜性是軟件維護成本和有效的重要因素.目前的研究沒有強調構件軟件的回歸測試復雜性問題.基于
    發表于 01-19 16:41 ?0次下載

    計算用戶需要注意的一些主要趨勢

    隨著云計算復雜性的不斷增長,存儲管理人員需要找到一種簡單的方法。這就要求跨越云平臺、SaaS和本地部署的所有關鍵流程實現自動化和工作流程。因此,盡管云計算的部署量不斷增加,人們需要找到一種降低
    的頭像 發表于 02-07 10:18 ?4137次閱讀

    比爾蓋茨與喬布斯的共同特質:整合復雜性

    整合復雜性是指:發展和保持對立的特征、價值觀和思想,然后將它們整合成更大的特征、價值觀和思想的能力
    的頭像 發表于 07-06 14:26 ?3965次閱讀

    導致計算機程序的復雜性和多樣的算法

    在過去,很多巧妙的計算機算法設計,改變了我們的計算技術。通過操作標準計算機中提供的中間運算符,可以產生很多的高效函數。這些函數導致了計算機程序的復雜
    的頭像 發表于 01-22 08:40 ?3558次閱讀

    大數據分析學習的挑戰:復雜性、不確定性及涌現

    來源:ST社區 科多分享的大數據分析學習與研究的新挑戰:對于習慣結構化數據研究的統計學來說,大數據分析顯然是一種嶄新的挑戰。 挑戰來自何方?來自于大數據的復雜性、不確定性和涌現三個方面,其中復雜性
    的頭像 發表于 11-17 10:19 ?2891次閱讀

    組合最優化計算機算法和復雜性的PDF電子書免費下載

    本書討論組合最優化的計算機算法及其復雜性,是計算機和學的基礎理論之一。
    發表于 01-04 08:00 ?19次下載

    模型復雜性日益增加,AI優化的硬件隨之出現

    人工智能(AI)模型的規模和復雜度以每年大約 10 倍的速度不斷增加,AI 解決方案提供商面臨著巨大的壓力,他們必須縮短產品上市時間,提高性能,快速適應不斷變化的形勢。模型復雜性日益增加
    的頭像 發表于 06-16 17:00 ?2375次閱讀

    駕馭軟件定義車輛的復雜性

    。 第一步是了解與大多數其他行業相比,汽車行業具有增加軟件復雜性的功能。 “軟件定義”的定義意味著大部分汽車功能現在由運行在所需處理器、內存和傳感器上的軟件應用程序實現。此外,大多數功能是由人機界面軟件中實現的好
    的頭像 發表于 07-14 17:42 ?963次閱讀
    駕馭軟件定義車輛的<b class='flag-5'>復雜性</b>

    黑盒化技術簡化FPV計算復雜性

    當一個模塊被黑盒化時,它的輸出被視為FPV設計的輸入,即它們可以取任何隨機值。部分模塊的黑盒化對FPV的性能有著非常巨大的影響,所以FPV證明的開始應該盡量地考慮任何黑盒化的可能。
    的頭像 發表于 09-13 10:55 ?1149次閱讀
    主站蜘蛛池模板: bt天堂在线www最新版资源网| 97福利| 日本黄色网址免费| 久久婷婷久久一区二区三区| 性 色 黄 一级| 性欧美人与zooz| 午夜男人视频| 国产精品丝袜在线观看| 亚洲婷婷综合色高清在线| 亚洲成人av| 日本成片免费高清| 天使色吧| 三级在线观看视频| 五月婷婷激情综合| 日韩高清特级特黄毛片| 久久伊人色| a级黄色毛片三个搞一| 日韩一级片在线免费观看| 亚洲第一视频在线观看| 丁香五香天堂网卡| 国产激烈无遮挡免费床戏视频| videosgratis乱色欧美野外 | 欧美一区亚洲二区| 亚洲天堂ww| 欧美性淫爽www视频播放| 四虎成人欧美精品在永久在线| 亚洲黄色三级| 日韩欧美在线中文字幕| 国产一级真人毛爱做毛片| 久久久久久88色偷偷| 高清国产亚洲va精品| 天天爆操| 在线观看一二三区| 亚洲国产成a人v在线观看| 你懂的视频在线观看资源| 96一级毛片| 国产1024一区二区你懂的| 久久久久国产一级毛片高清片 | 中文字幕 视频一区| 性福利视频| 黄色一级视频欧美|