在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于FPGA的高性能DNN加速器自動生成方案

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-16 10:39 ? 次閱讀

美國伊利諾伊大學、IBM中國研究院等的最新研究,提出一種基于FPGA的DNN推理加速器DNNBuilder,獲得電子設計自動化領域學術頂會ICCAD的最佳論文。實驗證明,DNNBuilder生成的加速器擁有現時最先進的性能和效率,超越了同類加速器。本文帶來論文作者的詳細解讀。

FPGA 編程耗時耗力,即使對專業人員來說也頗有難度。如何才能加速深度神經網絡模型在FPGA上的部署?

有沒有想過,要是有個能“一鍵自動生成”FPGA上DNN模型實現的工具就好了?

你還別說,現在還真有一款這樣的工具,而且云端和邊緣的設備都適用!

相關研究論文獲得了第37屆電子設計自動化頂會International Conference on Computer Aided Design(ICCAD)的最佳論文獎。

獲獎團隊研究成員來自美國伊利諾伊大學(UIUC)、IBM中國研究院及IBM T. J. Watson研究中心。該團隊同時隸屬于IBM和UIUC聯合成立的認知計算AI系統研究中心(C3SR.com)。

全文地址:

https://zhangxf218.wixsite.com/mysite

DNN推理加速挑戰巨大

DNN應用已被廣泛部署于云端和終端設備中,如人臉識別、語音識別(翻譯)、產品推薦、物體檢測等。這些應用需要大量計算與存儲資源,以滿足其高吞吐率、低能耗和低延時要求。

可見,不論是云端還是終端計算, DNN的推理過程都需要作加速處理才能適應日常使用需求。在加速器的設計上,設計者無可避免地會遇到多種挑戰,包括:

流式數據(如視頻輸入輸出)要求加速器具備高吞吐率和低延時的DNN推理性能;

不平衡的DNN網絡要求加速器設計擁有合理的資源分配策略以平衡不同網絡層的資源需求;

高分辨率圖片和視頻輸入要求加速器能應對由此帶來的巨大片上數據緩存壓力。

使用FPGA,高效靈活的DNN加速方案

本文作者提出使用基于FPGA的DNN推理加速器去應對上述挑戰。

FPGA可提供比基于CPUGPU解決方案更低的延時和能耗,也能提供比專用集成電路ASIC)更高的靈活度和更短的產品上市周期,是非常理想的DNN加速平臺。

可是,設計一個基于FPGA的高性能DNN推理加速器還是充滿了困難,它需要寄存器傳輸級(RTL)編程技巧,硬件驗證知識和豐富的硬件資源分配經驗等硬件設計相關知識,對于在算法層面關注深度學習的研究人員來說是非常不友好的。

為此,作者認為業界需要一種更加便捷的端到端DNN加速器自動生成方案——DNNBuilder。

只需三步,獲得高性能DNN加速器

圖 1 DNN推理加速器自動生成流程

DNNBuilder只需Design、Generation和Execution三步就能自動生成基于FPGA的高性能DNN推理加速器,并能把加速器快捷部署到云端或終端不同的FPGA上而不要求使用者了解RTL編程或硬件資源分配策略。

其中,DNNBuilder的第一步支持熱門的深度學習框架(如Caffe,Tensorflow),使用者能繼續使用原有的網絡設計和訓練工具去定制DNN,并可像往常一樣使用GPU加速訓練過程。特別的一點是,本文作者在Design步驟中增加了網絡更新接口以接收該加速器在硬件性能方面的反饋,并以此引導使用者對DNN作相應優化(如增減層數、調整量化方案等)。

DNNBuilder的第二步操作會接收上一步訓練好的網絡定義及權重數據文件,并開始分析網絡結構和提取關鍵參數,如網絡層數、網絡層種類、通道數等。根據對網絡的理解,DNNBuilder會綜合考慮DNN每層復雜度、權重數據可重用程度和可用的FPGA硬件資源,自動生成性能優化策略。隨后,DNNBuilder會根據優化策略配置預制的高度參數化的RTL IP,并使用這些IP搭建整個DNN加速器。

在DNNBuilder的最后一步,使用者可以把生成的二進制文件下載至FPGA,運行DNN推理加速器。

三大硬件設計創新

本文提出了多個DNN加速器架構創新,令自動生成的加速器也擁有現時最高的吞吐率、最少的輸出響應時間和極佳的可拓展性。論文著重介紹的有三個創新點,包括“列緩存方案(a column-based cache scheme)”、“細粒度流水線結構(a fine-grained layer-based pipeline structure)”和“高性能RTL IP (optimized and reconfigurable DNN-specific RTL IPs)”。

1)列緩存方案能在使用高清輸入的情況下大幅減少存放特征圖(feature map)所需的緩存空間,其核心思想是通過緩存若干slices代替緩存整個3維特征圖(圖2左),從而減少FPGA片上存儲器(Block RAM)的使用量。

只要這些被緩存的數據可提供足夠數量的卷積滑窗操作,不同網絡層之間的操作就能繼續下去。如當前的網絡層為卷積層(卷積核=3x3,stride=1),緩存4個slices就能滿足2次滑窗操作,當需要做第三次滑窗時,只需要傳入1個新的slice替代舊數據即可。

此設計可行的根本原因是特征圖數據生命周期短,可在計算后立刻丟棄以節省空間。實驗表明(見圖2右),在運行高清輸入的YOLO加速器時,在使用列緩存方案可減少7至320倍的片上緩存使用量(平均減少43倍)。

2)細粒度流水線結構可在保留傳統流水線結構高吞吐率特性的同時,大幅度減少DNN加速器的計算延時。

與使用傳統流水線結構的加速器類似,該結構會在FPGA上例化DNN中需要使用參數的主要網絡層(如卷積層、全連接層),每一主要網絡層會對應加速器的一級流水;而不同的地方是此方案讓各層重疊,從而大幅度降低輸出需要等待的時間。

一個使用傳統流水結構的加速器對一個9層的DNN作推理運算需要等待457.24ms才能獲得結果,而在使用本文提出的結構后,運行同樣的網絡推理僅需等待59.04ms(圖3右),延時下降幅度達7.7倍。

圖 3傳統流水線結構(左)及本文提出的細粒度流水結構(右)

3)高性能RTL IP是構建DNN加速器的最基本模塊。通過分解這些DNN網絡層,核心功能可以被映射到對應所需的RTL IP上,并通過這些IP搭建加速器(圖4左)。

由于這些IP是高度可配置的,DNNBuilder可通過生成優化策略去合理配置這些IP,以滿足不同網絡層對硬件資源和運行性能的要求。

圖4右展示了DNNBuilder使用的卷積IP。它的輸入和輸出數據處理并行度均可被配置(分別對應CPF和KPF)。此外IP中數據通路的位寬都是靈活的可變的(如輸入輸出位寬,bias和weight的位寬等),這樣DNNBuilder就可以精確控制每一個IP相應的資源消耗及可獲取的性能。

圖4

自動化:確保最優資源分配

DNNBuilder可對FPGA的計算及存儲資源作分配并生成優化策略,為RTL IP的參數配置提供依據。

在計算資源分配方面,作者在文中提及了資源分配的理論基礎(圖5左公式):即在使用流水線結構的加速器中,只有每一級流水的延時相當時,加速器才能獲得最大吞吐率。

根據算法理論,作者設計了基于FPGA的DNN推理加速器的資源分配算法(見原文Algorithm 1)。

此外,本文還討論了FPGA外部存儲器訪存帶寬的分配問題。作者使用Roofline模型(圖5右)闡述了可通過改變CTC指數 (Computation to communication Ratio) 增加數據重用的機會,從而減少帶寬資源消耗。CTC指數的增減可通過調整列緩存方案中slices多寡實現。根據此思路,作者在原文Algorithm2中詳細描述了帶寬資源分配方案。

終極殺器:DNNBuilder

為評估自動生成加速器的性能,作者選擇了KU115(中端FPGA)和ZC706(嵌入式FPGA)這兩款設備作為目標FPGA,讓DNNBuilder分別對應云端和終端計算場景生成DNN推理加速器。

首先,作者與最近使用同款ZC706 FPGA的設計作比較(表1)。DNNBuilder生成的設計獲得最高的吞吐率(GOPS)和最優秀的功率效率(GOPS/W)。

表1 DNN推理加速器性能對比(終端FPGA設備)

隨后,作者選擇了與其他運行在云端FPGA的加速器作對比(表2)。在使用Xilinx的一款中端FPGA KU115,DNNBuilder所生成設計能獲得超過2TOPS(16比特量化)和4TOPS(8比特量化)吞吐率,超越其他設計。在功率效率方面,DNNBuilder也領先其他對手。

表2 DNN推理加速器性能對比(云端FPGA設備)

本文作者還以AlexNet作為基準測試,對比了基于GPU和FPGA的DNN推理加速器(表3)。此對比同樣分成兩組,分別使用云端(TitanX GPU vs. KU115 FPGA)與終端設別 (TX2 GPU vs. ZC706 FPGA)。DNNbuilder所生成的基于FPGA的加速器在效率方面超過了基于GPU的設計。

表3 GPU與FPGA的DNN推理性能對比

結論

本文作者提出了DNNBuilder,它是一種基于FPGA的高性能DNN加速器自動生成方案。作者通過三個硬件設計創新(列緩存方案、細粒度流水線結構和高性能RTL IP)和自動化資源分配方案,確保生成的加速器擁有現時最先進的性能和效率。實驗表明,DNNBuilder生成的加速器在運行VGG-16時吞吐率可達4022 GOPS,效率達180.2 GOPS/W,超越了同類加速器。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1629

    文章

    21736

    瀏覽量

    603387
  • 寄存器
    +關注

    關注

    31

    文章

    5343

    瀏覽量

    120368
  • 加速器
    +關注

    關注

    2

    文章

    799

    瀏覽量

    37873

原文標題:自動編程DNN加速器!只需3步,云端終端通用

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    汽車發動機升級產品,一種電子加速器是否真實?

    發動機點火線圈工作,有幾個點火線圈就有幾個一種電子加速器一種電子加速器巧妙運用電磁螺線管的高能電粒子,成功的培育出優質電,展現了磁,電的未知功能。特別是汽車在年檢中未達到汽車污染物排
    發表于 10-09 20:48

    汽車發動機升級產品,一種電子加速器的總體功能。

    汽車發動機升級產品,一種電子加速器的總體功能就是以本身的磁,電控制本身的電的運動規律的裝置,電的輻射范圍例如臺風樣旋轉形成螺旋狀,從而產生強大的電吸拉力,來感應其它裝置產生很好的效果為汽車發動機
    發表于 10-21 07:13

    汽車發動機升級產品,一種電子加速器問專家?

    尊敬的汽車專家,我想問汽車發動機升級產品,一種電子加速器的特殊表現,例如,一種電子加速器安裝在摩托車發動機上,我經過反復的實驗證明,旦加油
    發表于 12-11 08:45

    汽車發動機升級產品,一種電子加速器與汽車點火增強位置不同。

    不改變原電流大小,只改變原電流的運動模式,來提高汽車發動機點火系統的性能。全網搜索:汽車發動機升級產品,一種電子加速器
    發表于 10-07 08:26

    為什么汽車發動機升級產品,一種電子加速器能激發電的性能

    `請大師來解釋下,我認為在同電源中,這邊一種電子加速器產生了電的性能提升,那么在相通的同
    發表于 09-12 22:20

    機器學習實戰:GNN加速器FPGA解決方案

    的場景。如上所述種種設計挑戰的存在,使得業界急需一種可以支持高度并發實時計算、巨大內存容量和帶寬、以及在數據中心范圍可擴展的GNN加速解決方案。5. GNN加速器
    發表于 10-20 09:48

    核動力發動機與一種電子加速器

    天然鈾礦石粉有1%的鈾235,汽車發動機燃燒將有強動力表現,鈾是金屬,也有導電性,可以與鐵作用生成金屬間化合物,鈾235原子,電子活動力比較強,能量反應強大,具有a放射性電子流,在一種電子加速器的加持下
    發表于 04-25 18:32

    一種基于FPGA的圖神經網絡加速器解決方案

    Achronix Speedster7t AC7t1500 FPGA器件提供的具有競爭性的優勢,創建了一種高度可擴展的、能夠提供卓越性能的GNN加速解決
    發表于 09-25 17:20

    一種新穎的自動化攻擊圖生成方法_武健

    一種新穎的自動化攻擊圖生成方法_武健
    發表于 03-19 11:45 ?0次下載

    UIUC推出最新DNN/FPGA協同方案 助力物聯網終端設備AI應用

    」網絡搜索引擎 +「Auto-HLS」加速器生成技術,自動生成適用于終端設備的 DNN 模型及 FPGA
    發表于 06-10 14:39 ?1229次閱讀
    UIUC推出最新<b class='flag-5'>DNN</b>/<b class='flag-5'>FPGA</b>協同<b class='flag-5'>方案</b> 助力物聯網終端設備AI應用

    電子學報第七期《一種可配置的CNN協加速器FPGA實現方法》

    電子學報第七期《一種可配置的CNN協加速器FPGA實現方法》
    發表于 11-18 16:31 ?15次下載

    Rapanda流加速器-實時流式FPGA加速器解決方案

    電子發燒友網站提供《Rapanda流加速器-實時流式FPGA加速器解決方案.pdf》資料免費下載
    發表于 09-13 10:17 ?0次下載
    Rapanda流<b class='flag-5'>加速器</b>-實時流式<b class='flag-5'>FPGA</b><b class='flag-5'>加速器</b>解決<b class='flag-5'>方案</b>

    使用賽靈思Alveo加速器加速DNN

    電子發燒友網站提供《使用賽靈思Alveo加速器加速DNN.pdf》資料免費下載
    發表于 09-18 09:27 ?1次下載
    使用賽靈思Alveo<b class='flag-5'>加速器</b>卡<b class='flag-5'>加速</b><b class='flag-5'>DNN</b>

    AI芯片設計DNN加速器buffer管理策略

    如前所述,數據緩存是創建高效DNN加速器的關鍵組件之。因此,除了選擇適當的數據流(控制數據緩存的位置和時間)外,DNN加速器還需要
    的頭像 發表于 10-17 17:23 ?1440次閱讀
    AI芯片設計<b class='flag-5'>DNN</b><b class='flag-5'>加速器</b>buffer管理策略

    Hitek Systems開發基于PCIe的高性能加速器以滿足行業需求

    Hitek Systems 使用開放式 FPGA 堆棧 (OFS) 和 Agilex 7 FPGA,以開發基于最新 PCIe 的高性能加速器 (HiPrAcc),旨在滿足網絡、計算和高
    的頭像 發表于 03-22 14:02 ?639次閱讀
    Hitek Systems開發基于PCIe的<b class='flag-5'>高性能</b><b class='flag-5'>加速器</b>以滿足行業需求
    主站蜘蛛池模板: 男人的天堂欧美| 浮荡视频在线观看免费| 在线啪| 四虎精品成人免费观看| 国产美女流出白浆在线观看| 欧美黑人三级| 欧美视频三区| 欧美色天使| 天天干夜啪| 深夜动态福利gif动态进| 日本免费小视频| 夜夜摸夜夜操| 成人免费视频一区| 黑色丝袜美女被视频网站| 最好看的最新中文字幕2018免费视频 | 一级片视频在线| 国漫在线观看| 操夜夜| 四虎永久在线精品国产| 综合网在线观看| 久久人人干| 在线国产三级| 国产成年网站v片在线观看| avt天堂网| 色视频在线观看| 天天干夜夜想| 一区二区三区精品国产欧美| 国产人人艹| 日本人善交69xxx| 日本精品一在线观看视频| 手机看片1024在线| 伊人涩| 91精品国产免费久久久久久青草| 又粗又大的机巴好爽欧美| 男人的天堂免费网站| 国产一级簧片| 色之综合网| 久在操| 手机在线观看毛片| 免费午夜视频在线观看| 天堂网成人|