在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

Xilinx賽靈思官微 ? 來源:djl ? 作者:賽靈思Yao Fu、Eph ? 2019-07-30 08:59 ? 次閱讀

與其他 FPGA DSP 架構(gòu)相比,賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運(yùn)算上能實(shí)現(xiàn) 1.75 倍的解決方案級(jí)性能。

概要

本白皮書探討將 INT8 運(yùn)算用于實(shí)現(xiàn)在賽靈思 DSP48E2 片上、使用深度學(xué)習(xí)推斷和計(jì)算機(jī)視覺功能的嵌入式視覺應(yīng)用,以及這種方案與其他 FPGA 的對(duì)比。與占用相同資源數(shù)量的其他 FPGA 相比,賽靈思的 DSP 架構(gòu)對(duì) INT8 乘法累加 (MACC) 運(yùn)算能實(shí)現(xiàn) 1.75 倍的峰值解決方案級(jí)性能。由于嵌入式視覺應(yīng)用可以在不犧牲準(zhǔn)確性的情況下使用較低位精度,因此需要高效的 INT8 實(shí)現(xiàn)方案。

賽靈思的 DSP 架構(gòu)和庫(kù)針對(duì) INT8 運(yùn)算進(jìn)行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。本白皮書還闡述了要運(yùn)用賽靈思這一獨(dú)特技術(shù),為何輸入的最小位寬為 24 位。此外本白皮書還詳細(xì)介紹了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算術(shù)運(yùn)算使用。另外還提供在深度學(xué)習(xí)領(lǐng)域或其他計(jì)算機(jī)視覺處理任務(wù)領(lǐng)域如何將這些功能用于嵌入式視覺的實(shí)例。

用于深度學(xué)習(xí)和計(jì)算機(jī)視覺的 INT8

嵌入式視覺是專業(yè)術(shù)語,指的是在嵌入式平臺(tái)上實(shí)現(xiàn)用于現(xiàn)實(shí)用途的計(jì)算機(jī)視覺算法。雖然計(jì)算機(jī)視覺算法近年來有明顯改進(jìn),要在降低功耗的條件下將這樣復(fù)雜且高計(jì)算強(qiáng)度的算法移植到嵌入式平臺(tái)上卻是一大挑戰(zhàn)。以更低功耗處理更多運(yùn)算是一個(gè)亙古不變的需求,無論是對(duì)過濾、角點(diǎn)檢測(cè)等傳統(tǒng)計(jì)算機(jī)視覺算法還是對(duì)深度學(xué)習(xí)算法。

深度神經(jīng)網(wǎng)絡(luò)憑借人類級(jí) AI 功能已推動(dòng)眾多應(yīng)用不斷演進(jìn)并重新對(duì)其定義。鑒于這類算法提供的超高精度,這些網(wǎng)絡(luò)是嵌入式設(shè)備中的主要工作負(fù)載。隨著更精確的深度學(xué)習(xí)模型被開發(fā)出來,它們的復(fù)雜性也帶來了高計(jì)算強(qiáng)度和高內(nèi)存帶寬方面的難題。能效要求正推動(dòng)深度學(xué)習(xí)推斷新模式開發(fā)方面的創(chuàng)新,這些模式需要的計(jì)算強(qiáng)度和內(nèi)存帶寬較低,但絕不能以犧牲準(zhǔn)確性和吞吐量為代價(jià)。降低這一開銷將最終提升能效,降低所需的總功耗。

除了節(jié)省計(jì)算過程中的耗電,較低位寬的計(jì)算還能降低內(nèi)存帶寬所需的功耗,因?yàn)樵趦?nèi)存事務(wù)數(shù)量不變的情況下傳輸?shù)奈粩?shù)減少了。

研究顯示要保持同樣的準(zhǔn)確性[ 參考資料 1][ 參考資料 2][ 參考資料 3],深度學(xué)習(xí)推斷中無需浮點(diǎn)計(jì)算,而且圖像分類等許多應(yīng)用只需要 INT8 或更低定點(diǎn)計(jì)算精度來保持可接受的推斷準(zhǔn)確性[ 參考資料 2][ 參考資料 3]。表 1 列出了精調(diào)網(wǎng)絡(luò)以及卷積層和完全相連層的動(dòng)態(tài)定點(diǎn)參數(shù)及輸出。括號(hào)內(nèi)的數(shù)字代表未精調(diào)的準(zhǔn)確性。

表 1 :帶定點(diǎn)精度的 CNN 模型

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

對(duì)用于深度學(xué)習(xí)的 INT8 運(yùn)算的優(yōu)化也直接地適用于大量傳統(tǒng)計(jì)算機(jī)視覺功能。這些算法一般工作在 8 位到 16 位整數(shù)表達(dá)式。OpenVX[ 參考資料 4]是一種近期提議的計(jì)算機(jī)視覺標(biāo)準(zhǔn),規(guī)定了每個(gè)通道 INT8 表達(dá)式的用法。大多數(shù)計(jì)算機(jī)視覺應(yīng)用需要某些程度的過濾,而過濾能夠分解為一套點(diǎn)積運(yùn)算。賽靈思 DSP48E2 Slice 上的 SIMD 運(yùn)算模式為實(shí)現(xiàn)視覺算法涉及的運(yùn)算提供額外選擇。

賽靈思 DSP Slice 片上的 INT8 運(yùn)算

UltraScale 和 UltraScale+ FPGA、Zynq UltraScale+ MPSoC(可編程邏輯)中的賽靈思 DSP48E2 Slice 設(shè)計(jì)用于完成一次乘法和加法運(yùn)算,最大可在一個(gè)時(shí)鐘周期內(nèi)高效地實(shí)現(xiàn) 18x27 位相乘和 48 位累加,如圖 1 所示。除了采用回送或鏈接多個(gè) DSP48E2 Slice,乘法累加 (MACC) 也能使用賽靈思器件高效完成。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 1 :使用 MACC 模式的 DSP48E2 Slice

INT8 計(jì)算本身就能發(fā)揮寬 27 位帶寬的優(yōu)勢(shì)。在傳統(tǒng)應(yīng)用中,預(yù)加法器一般用于高效實(shí)現(xiàn)(A+B)xC 類型的運(yùn)算,但這類型運(yùn)算不常見于深度學(xué)習(xí)和計(jì)算機(jī)視覺應(yīng)用中。將 (A+B)xC 的結(jié)果分解為 AxC 和 BxC,然后在獨(dú)立的數(shù)據(jù)流中進(jìn)行累加,使之適用于典型深度學(xué)習(xí)和計(jì)算機(jī)視覺計(jì)算的要求。

對(duì) INT8 MACC 運(yùn)算來說,擁有 18x27 位乘法器很占優(yōu)勢(shì)。乘法器的輸入中至少有一個(gè)必須為最小 24 位,同時(shí)進(jìn)位累加器必須為 32 位寬,才能在一個(gè) DSP48E2 Slice 上同時(shí)進(jìn)行兩個(gè) INT8 MACC 運(yùn)算。27 位輸入可與 48 位累加器相結(jié)合,實(shí)現(xiàn) 1.75 倍的解決方案性能提升(DSP 乘法器與 INT8 MACC 之比為 1.75:1)。其他廠商提供的 FPGA 在單個(gè) DSP 模塊中只提供 18x19 乘法器,DSP 乘法器與 INT8 MACC 之比僅為 1:1。

可擴(kuò)展的 INT8 優(yōu)化

目標(biāo)是找到一種能夠?qū)斎?a 、b 和 c 進(jìn)行高效編碼的方法,這樣 a 、b 和 c 之間的相乘結(jié)果可以輕松分解為 a x c 和 b x c。鑒于公共輸入 c,這種方法可以推斷為單個(gè)指令,擁有公共系數(shù)的 2 個(gè)數(shù)據(jù)。

在更低精度計(jì)算中,例如 INT8 乘法中,高位 10 位或 19 位輸入用 0 或 1 填充,僅攜帶 1 位信息。對(duì)最終的 45 位乘積的高位 29 位來說,情況一樣。這樣就可以使用高位 19 位來進(jìn)行另一個(gè)運(yùn)算,同時(shí)不影響低位 8 位和 16 位輸入。

總的來說,要把未使用的高位用于另一計(jì)算必須遵循兩條規(guī)則:

1. 高位不應(yīng)影響低位的計(jì)算。

2. 低位計(jì)算對(duì)高位的任何影響必須可檢測(cè)、可恢復(fù)。

為滿足上述規(guī)則,高位乘積結(jié)果的最低有效位不得進(jìn)入低位 16 位。因此高位的輸入應(yīng)至少?gòu)牡?17 位開始。對(duì)一個(gè) 8 位的高位輸入,總輸入寬位至少為 16+8=24 位。這種最小 24 位輸入大小只能保證用一個(gè)乘法器同時(shí)完成兩次相乘,但仍然足以實(shí)現(xiàn)總體 1.75 倍的 MACC 吞吐量。

接下來的步驟是在一個(gè) DSP48E2 Slice 中并行計(jì)算 ac 和 bc 。DSP48E2 Slice 被用作一個(gè)帶有一個(gè) 27 位預(yù)加法器(輸入和輸出均為 27 位寬)和一個(gè) 27x18 乘法器的算術(shù)單元。見圖 2。

1. 通過預(yù)加法器在 DSP48E2 乘法器的 27 位端口 p 打包 8 位輸入 a 和 b,這樣 2 位向量能盡量分隔開。輸入 a 左移位僅 18 位,這樣從第一項(xiàng)得到的 27 位結(jié)果中的兩個(gè)符號(hào)位 a 以避免在 b<0 和 a=–128 時(shí)預(yù)加法器中發(fā)生溢值。a 的移位量為 18,恰好與 DSP48E2 乘法器端口 B 的寬度一樣。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 2 :8 位優(yōu)化

2. DSP48E2 27x18 乘法器用于計(jì)算打包的 27 位端口 p 和以二進(jìn)制補(bǔ)碼格式表達(dá)在 18 位 c 中的 8 位系數(shù)的積?,F(xiàn)在該 45 位乘積是二進(jìn)制補(bǔ)碼格式的兩個(gè) 44 位項(xiàng)的和:ac 左移位 18 位以及 bc 。

后加法器可用于累加上述包含單獨(dú)的高位乘積項(xiàng)和低位乘積項(xiàng)的 45 位乘積。在累加單個(gè) 45 位積時(shí),對(duì)高位項(xiàng)和低位項(xiàng)進(jìn)行了校正累加。最終的累加結(jié)果如果沒有溢值,可以用簡(jiǎn)單運(yùn)算分開。

這種方法的局限在于每個(gè) DSP48E2 Slice 能累加的乘積項(xiàng)的數(shù)量。由于高位項(xiàng)和低位項(xiàng)間始終保持兩位(圖 3),可以保證在低位不溢值的情況下累加多達(dá) 7 個(gè)項(xiàng)。在七個(gè)乘積項(xiàng)后,需要使用額外的 DSP48E2 Slice 來克服這一局限。執(zhí)行 7x2 INT8 乘法- 加法運(yùn)算,與擁有相同數(shù)量乘法器的競(jìng)爭(zhēng)型器件相比 INT8 MACC 運(yùn)算的效率提升 1.75 倍。

根據(jù)實(shí)際用例的要求,這種方法有多種變化形式。使用修正線性單元(ReLU)的卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生非負(fù)激活,而無符號(hào) INT8 格式產(chǎn)生額外一位精度和 1.78 倍峰值吞吐量提升。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 3 :用單個(gè) DSP48E2 Slice 打包兩個(gè) INT8 乘運(yùn)算

DSP48E2 SIMD 模式

DSP48E2 Slice 的后加法器分裂成四個(gè) 12 位或兩個(gè) 24 位 SIMA ALU(參見圖 4),以執(zhí)行并行加法、減法、累加或逐位邏輯運(yùn)算。在 SIMD 模式下,DSP48E2 Slice 的預(yù)加法器和乘法器不可用。在每個(gè)周期上,ALUMODE[3:0] 控制總線選擇運(yùn)算,而 OPMODE[8:0] 控制總線則選擇操作數(shù) W、X、Y 和 Z。如果考慮 24 位運(yùn)算,DSP48E2 Slice 的 P 寄存器能存儲(chǔ)處理兩個(gè)輸入陣列的結(jié)果。對(duì)每一個(gè)陣列按順序求和,每個(gè)周期一個(gè)元。吞吐量由此變?yōu)槊總€(gè)周期產(chǎn)生兩個(gè)新結(jié)果。詳細(xì)說明,請(qǐng)參閱《UltraScale 架構(gòu) DSP Slice 用戶指南》(UG579)(關(guān)鍵字“SIMD”、“ALUMODE”和“OPMODE”)[ 參考資料 5 ]。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 4 :DSP48E2 雙 24 位 SIMD 模式

映射 INT8 優(yōu)化到深度學(xué)習(xí)應(yīng)用

新型神經(jīng)網(wǎng)絡(luò)大部分是從這個(gè)初始概念模型[ 參考資料 6 ]衍生而來。見圖 5。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 5 :概念和深度神經(jīng)網(wǎng)絡(luò)

雖然從標(biāo)準(zhǔn)感知器結(jié)構(gòu)開始已有相當(dāng)程度的演進(jìn),現(xiàn)代深度學(xué)習(xí)(也稱為深度神經(jīng)網(wǎng)絡(luò) (DNN))的基本運(yùn)算仍然是類感知器的運(yùn)算,只是有有更大的總體規(guī)模和更深的堆疊感知器結(jié)構(gòu)。圖 5 顯示了感知器的基本運(yùn)算。在每個(gè)典型的深度學(xué)習(xí)推斷中它穿過多個(gè)層,最終重復(fù)數(shù)百萬至數(shù)十億次。如圖 6 所示,在神經(jīng)網(wǎng)絡(luò)層中,計(jì)算 m 個(gè)感知器/ 神經(jīng)元輸出中的每一個(gè)輸出的主要計(jì)算運(yùn)算包括:

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

將全部的 n 個(gè)輸入樣本

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

乘以對(duì)應(yīng)的內(nèi)核權(quán)重

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

并累加結(jié)果

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

其中:f(x) 可以是任何選擇的激活函數(shù)。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 6 :深度學(xué)習(xí)中的感知器

如果的精度限定為 INT8,該乘積之和是 INT8 優(yōu)化方法中介紹的并行 MACC 中的第一個(gè)。第二個(gè)乘積和使用相同輸入,但內(nèi)核權(quán)重不同。第二個(gè)感知器/ 神經(jīng)元輸出的結(jié)果是

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

見圖 7。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 7 :使用共享輸入并行得到兩個(gè)乘積項(xiàng)和

使用 INT8 優(yōu)化方法將值向左移位 18 位,每個(gè) DSP48E2 Slice 就得出最終輸出值的部分且獨(dú)立的一部分。用于每個(gè) DSP48E2 Slice 的累加器有 48 位寬并鏈接到下一個(gè) Slice。為避免移位飽和影響到計(jì)算,鏈接的模塊數(shù)量被限制為 7 個(gè),即對(duì)總共 n 個(gè)輸入樣本使用 2n 個(gè) MACC 和 n 個(gè) DSP Slice。

典型的 DNN 每層有數(shù)百到數(shù)千個(gè)輸入樣本。但是在完成 7 個(gè)項(xiàng)的累加后,48 位累加器的低位項(xiàng)可能飽和,因此每 7 個(gè)項(xiàng)之和就需要一個(gè)額外的 DSP48E2 Slice。這相當(dāng)于每 7 個(gè) DSP48E2 Slice 和 14 個(gè) MACC,另加一個(gè) DSP48E2 Slice 用于防止過飽和,從而帶來 7/4 或 1.75 倍的吞吐量提升。

在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,卷積層一般主要使用同一組權(quán)重,從而形成 axw 和 bxw 類型的并行 MACC 運(yùn)算。因此除輸入共享外,還可以使用權(quán)重共享(見圖 8)。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 8 :權(quán)重共享和輸入共享比較

創(chuàng)建 INT8 鏈接 MACC 的其他方法

還可以使用可編程邏輯中與 DSP48E2 Slice 工作頻率近似的可用 LUT(即未被設(shè)計(jì)其余部分使用的 LUT)來構(gòu)建 INT8 鏈接 MACC。

使用可用 LUT 能顯著提高深度學(xué)習(xí)性能,一些情況下可提升達(dá) 3 倍之多。在許多情況下,對(duì)于其他非FPGA 架構(gòu)而言,在計(jì)算可用深度學(xué)習(xí)運(yùn)算時(shí)這些可用的計(jì)算資源并未考慮在內(nèi)。

賽靈思 FPGA 和 MPSoC 中的編程邏輯是獨(dú)有的,因?yàn)樗懿⑿星腋咝У靥幚聿煌ぷ髫?fù)載。例如賽靈思 FPGA 和 MPSoC 能并行執(zhí)行 CNN 圖像分類、網(wǎng)絡(luò)加密和數(shù)據(jù)壓縮。本深度學(xué)習(xí)性能比較分析未將MACC LUT 考慮在內(nèi),因?yàn)橐话?LUT 用于執(zhí)行其他并行功能比用于執(zhí)行 MACC 功能時(shí)更有價(jià)值。

映射 INT8 優(yōu)化到計(jì)算機(jī)視覺功能

Khronos OpenVX 標(biāo)準(zhǔn)定義了一套計(jì)算機(jī)視覺處理模塊,對(duì)下列用例尤為重要:面部、身體和手勢(shì)跟蹤;智能視頻監(jiān)控;高級(jí)駕駛員輔助系統(tǒng) (ADAS) ;對(duì)象和情景再現(xiàn);增強(qiáng)現(xiàn)實(shí);目測(cè);機(jī)器人等。表 2 顯示了 INT8 優(yōu)化適用的計(jì)算機(jī)視覺相關(guān)功能。

表 2 :適用于計(jì)算機(jī)視覺功能的 INT8 優(yōu)化

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

可擴(kuò)展 INT8 優(yōu)化可檢查同時(shí)處理兩個(gè)有共享系數(shù)的數(shù)據(jù)項(xiàng)的兼容性。SIMD 可檢查能從 DSP48E2 Slice 中的四個(gè)操作數(shù)和算子受益的模塊。數(shù)據(jù)和權(quán)重遵循 8 位限制的所有濾波器相關(guān)模塊都能從這種可擴(kuò)展 INT8 方法獲益。大多數(shù)其他涉及基本圖像算術(shù)(例如加/ 減或比較等)的模塊能運(yùn)用 DSP48E2 的 SIMD 運(yùn)算。

使用可擴(kuò)展 INT8 優(yōu)化的定制 2D 卷積

在計(jì)算機(jī)視覺功能環(huán)境中,大部分預(yù)處理任務(wù)會(huì)涉及一定程度的過濾。因?yàn)閳D像主要使用每個(gè)通道 8 位的方式表達(dá),深度學(xué)習(xí)應(yīng)用中對(duì) INT8 運(yùn)算的優(yōu)化能應(yīng)用到圖像處理中的二維過濾運(yùn)算。唯一的局限是濾波器中的系數(shù)的精度必須能夠用 8 位表達(dá)。這對(duì)諸如索貝爾、Scharr、拉普拉斯或其他邊緣檢測(cè)濾波器等常見濾波器而言,一般來說是正確的。

使用下列方法之一即可發(fā)揮 DSP48E2 Slice 內(nèi)的雙乘法器模式的作用:

對(duì)同一通道在多像素輸出上運(yùn)算:在這種模式下可以并行計(jì)算出兩個(gè)輸出像素。因?yàn)樵趫D像中濾波器系數(shù)在像素間共享,因此能同時(shí)計(jì)算位置 (x,y) 和 (x,y+1) 的像素。按照濾波器計(jì)算順序,每個(gè)濾波器系數(shù)與兩個(gè)不同輸入像素相乘。這意味著在可編程邏輯中提供的資源不變的情況下,性能提高了 1.75 倍。

對(duì)不同通道或圖像的多像素輸出進(jìn)行運(yùn)算:如果正在處理的圖像有多個(gè)通道且濾波器在不同通道間共享,對(duì)處于相同位置 (x,y) 的像素,濾波器的系數(shù)可在多通道間共享。相同的方法可擴(kuò)展用于同時(shí)運(yùn)算多個(gè)圖像。

使用 SIMD 運(yùn)算的中值濾波器

圖像處理中常用的中值濾波器也用于消噪。在圖像上使用中值濾波器涉及用預(yù)設(shè)大小的窗口掃描圖像,計(jì)算進(jìn)入該窗口的像素的中值,使用中值替換中心像素。中值計(jì)算屬于高計(jì)算強(qiáng)度。它涉及為值排序,然后找到位于列表中間的值。排序流程是一個(gè)比較運(yùn)算序列。

要使用可編程邏輯上的 DSP 實(shí)現(xiàn)中值濾波器,可以對(duì)算法做改動(dòng)。每次比較運(yùn)算可以分為減法運(yùn)算及后續(xù)的符號(hào)位檢查。對(duì)減法運(yùn)算,DSP48E2 Slice 能夠以四個(gè) 12 位或兩個(gè) 24 位模式進(jìn)行運(yùn)算。要充分利用 DSP48E2 Slice,可以并行運(yùn)算多個(gè)像素。假定每個(gè)像素為單通道,深度小于 12 位,就可以同時(shí)處理四個(gè)輸出像素。對(duì)每個(gè)輸出像素存在多個(gè)排序運(yùn)算,這些排序運(yùn)算都可以使用 DSP48E2 Slice 中的減法運(yùn)算。結(jié)果的符號(hào)位可以使用最小的邏輯在 DSP48E2 Slice 之外檢查。比較的總數(shù)量取決于用于排序值的算法。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 9 :中值濾波器的 DSP48E2 運(yùn)算模式

競(jìng)爭(zhēng)分析

在競(jìng)爭(zhēng)分析中使用英特爾(前 Altera)的 Arria 10 器件與賽靈思的 Zynq UltraScale+ MPSoC 對(duì)比。在進(jìn)行嵌入式視覺應(yīng)用計(jì)算效率比較時(shí),選擇的器件有可比的 DSP 密度和器件功耗:

? Arria 10 SoC :SX220、SX270 和 SX480

? Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件

重點(diǎn)比較能用于包括深度學(xué)習(xí)和計(jì)算機(jī)視覺在內(nèi)的眾多應(yīng)用的通用 MACC 性能。

英特爾的 MACC 性能基于運(yùn)用預(yù)加法器的算子。但是這種實(shí)現(xiàn)方案產(chǎn)生的是乘積項(xiàng)的和,而非單獨(dú)的乘積項(xiàng)。因此英特爾的預(yù)加法器不適用高效深度學(xué)習(xí)或計(jì)算機(jī)視覺運(yùn)算。

在本計(jì)算效率分析中,每個(gè)器件的功耗使用賽靈思的2016.4 版 Power Estimator 工具和英特爾的 16.0.1 版 EPE Power Estimate 工具進(jìn)行估算,并根據(jù)下列假設(shè)得出:

1. 90% DSP 占用率

2. 英特爾器件 - 速度等級(jí)為:2L, 最大頻率下供電電壓為 0.9V

3. 賽靈思器件 - 速度等級(jí)為 1L, 最大頻率下供電電壓為 0.72V

4. 時(shí)鐘速率為 DSP Fmax 時(shí)邏輯利用率為 70%

5. 時(shí)鐘速率為 DSP 最大頻率的一半時(shí),Block RAM 利用率為 90%

6. DSP 翻轉(zhuǎn)率為 12.5%

7. 功耗特征:“典型功耗”

圖 10 所示的即為深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算的能效對(duì)比。與英特爾的 Arria 10 SoC 器件相比,賽靈思器件能讓深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算的計(jì)算效率提高 3-7 倍。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 10 :INT8 深度學(xué)習(xí)和計(jì)算機(jī)視覺能效對(duì)比:賽靈思對(duì)比英特爾

結(jié) 論

本白皮書探討了如何在賽靈思 DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算,從而實(shí)現(xiàn) 1.75 倍的性能提升。賽靈思 DSP48E2 Slice 可用于在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。為高效實(shí)現(xiàn) INT8,需要 24 位輸入寬度,這一優(yōu)勢(shì)只有賽靈思 DSP48E2 Slice 支持。同樣的優(yōu)勢(shì)還能用于計(jì)算機(jī)視覺運(yùn)算,例如過濾任務(wù)及其它圖像操作任務(wù)。賽靈思的 DSP48E2 Slice 的 SIMD 模式為開展四個(gè) 12 位或兩個(gè) 24 位 SIMD 運(yùn)算提供了新的途徑。

總之,賽靈思的 Zynq UltraScale+ MPSoC 非常適用于 INT8 工作負(fù)載,使之成為為嵌入式視覺領(lǐng)域大量應(yīng)用加速的理想選擇。賽靈思不斷創(chuàng)新新的基于軟/ 硬件的方法,以加速嵌入式視覺應(yīng)用領(lǐng)域的深度學(xué)習(xí)和計(jì)算機(jī)視覺功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    采用FPGA實(shí)現(xiàn)DisplayPort詳細(xì)教程【內(nèi)部資料】

    ,以及如何使用我們即將推出的 XAPP“使用 MicroBlazeTM 嵌入式系統(tǒng)實(shí)施 DisplayPort Source PolicyMaker 控制系統(tǒng)參考設(shè)計(jì)作者:Carol Fields
    發(fā)表于 03-01 11:10

    用OpenCV和Vivado HLS加速基于Zynq SoC的嵌入式視覺應(yīng)用開發(fā)

    設(shè)計(jì)流程  為了進(jìn)一步幫助嵌入式視覺開發(fā)人員創(chuàng)建Smarter Vision系統(tǒng),在Vivado中增加了對(duì)OpenCV
    發(fā)表于 04-21 15:49

    XilinxFPGA技術(shù)及應(yīng)用線上公開課

    ` 本帖最后由 MGJOY 于 2017-4-10 15:07 編輯 本周三,4月12日,FPGA技術(shù)及應(yīng)用線上公開課。歡迎大家觀看、學(xué)習(xí)交流~分享主題【
    發(fā)表于 04-10 15:06

    基于Spartan-3A的視頻分析

    視頻分析對(duì)性能處理的要求可充分發(fā)揮FPGA的并行架構(gòu)、嵌入式和DSP處理能力所帶來的優(yōu)點(diǎn)。
    發(fā)表于 05-16 10:26 ?1193次閱讀
    基于<b class='flag-5'>賽</b><b class='flag-5'>靈</b><b class='flag-5'>思</b>Spartan-3A的視頻分析

    收購(gòu)嵌入式Linux方案提供商PetaLogix

    All Programmable技術(shù)和器件的全球領(lǐng)先企業(yè)公司(Xilinx, Inc. (NASDAQ:XLNX) )今天宣布收購(gòu)嵌入式Linux解決方案
    發(fā)表于 08-30 16:59 ?656次閱讀

    收購(gòu)嵌入式Linux方案提供商PetaLogix

    公司(Xilinx)宣布收購(gòu)嵌入式Linux解決方案提供商PetaLogix。隨著Linux解決方案成為越來越多依賴
    發(fā)表于 09-05 09:14 ?575次閱讀

    玩轉(zhuǎn)Xilinx嵌入式視覺開發(fā)者專區(qū) 讓視覺系統(tǒng)開發(fā)更加簡(jiǎn)單

    Programmable 的差異化嵌入式視覺應(yīng)用。通過嵌入式視覺開發(fā)者專區(qū),
    發(fā)表于 11-10 14:49 ?997次閱讀

    強(qiáng)化嵌入式視覺應(yīng)用與工業(yè)物聯(lián)網(wǎng)產(chǎn)品系列

    與軟件定義SDSoC開發(fā)環(huán)境公用版。這些新產(chǎn)品、開發(fā)環(huán)境及強(qiáng)化產(chǎn)業(yè)生態(tài)系的結(jié)合,使該公司客戶得以在快速成長(zhǎng)的嵌入式視覺應(yīng)用與工業(yè)物聯(lián)網(wǎng)市場(chǎng)中,創(chuàng)造具更高差異化與靈活性的應(yīng)用。
    發(fā)表于 02-08 17:37 ?204次閱讀

    Xilinx INT8 優(yōu)化開發(fā)嵌入式視覺

    INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計(jì)算機(jī)視覺
    的頭像 發(fā)表于 09-22 17:27 ?5498次閱讀

    嵌入式視覺的發(fā)展趨勢(shì)及其算法示例

    在這篇文章中,前機(jī)器視覺市場(chǎng)戰(zhàn)略總監(jiān)Aaron Behman 針對(duì)嵌入式視覺方面的問題進(jìn)行
    發(fā)表于 11-15 17:27 ?5485次閱讀

    DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運(yùn)算分析

    學(xué)習(xí)每秒運(yùn)算次數(shù) (OPS) 上相比其它 FPGA,能實(shí)現(xiàn) 1.75 倍的峰值解決方案級(jí)性能。由于深度學(xué)習(xí)推斷可以在不犧牲準(zhǔn)確性的情況下使用較低位精度,因此需要高效的 INT8 實(shí)現(xiàn)方案。
    發(fā)表于 11-16 14:23 ?1.5w次閱讀
    DSP48E2 Slice 上<b class='flag-5'>優(yōu)化</b> <b class='flag-5'>INT8</b> 深度學(xué)習(xí)運(yùn)算分析

    擴(kuò)大生態(tài)系統(tǒng),重塑嵌入式視覺、工業(yè)物聯(lián)網(wǎng)系統(tǒng)設(shè)計(jì)的未來

    的系統(tǒng)正在重塑嵌入式視覺和工業(yè)物聯(lián)網(wǎng) (IIoT) 的未來。于今年 2 月在德國(guó)紐倫堡舉辦的嵌入式
    的頭像 發(fā)表于 02-14 03:09 ?3522次閱讀
    <b class='flag-5'>賽</b><b class='flag-5'>靈</b><b class='flag-5'>思</b>擴(kuò)大生態(tài)系統(tǒng),重塑<b class='flag-5'>嵌入式</b><b class='flag-5'>視覺</b>、工業(yè)物聯(lián)網(wǎng)系統(tǒng)設(shè)計(jì)的未來

    Arm攜手助力嵌入式開發(fā)人員獲取成熟的Arm IP

    Arm和(Xilinx)強(qiáng)強(qiáng)聯(lián)合,將業(yè)界最強(qiáng)大、最成熟的嵌入式生態(tài)系統(tǒng)優(yōu)勢(shì)與賽FPGA
    的頭像 發(fā)表于 10-11 10:05 ?3173次閱讀

    INT8優(yōu)化為嵌入式視覺應(yīng)用性能計(jì)算方法

    的 DSP 架構(gòu)和庫(kù)針對(duì) INT8 運(yùn)算進(jìn)行了精心優(yōu)化。本白皮書介紹如何使用
    的頭像 發(fā)表于 07-29 11:19 ?2492次閱讀

    性能優(yōu)良的FPGA嵌入式處理器平臺(tái)

    公司昨天宣布了由獨(dú)立的第三方對(duì)運(yùn)行Accelerated Technology公司(AT)的Nucleus實(shí)時(shí)操作系統(tǒng)(RTOS)的32位MicroBlaze處理器平臺(tái)進(jìn)行的測(cè)試結(jié)果,再次證明了
    發(fā)表于 06-28 11:38 ?2326次閱讀
    主站蜘蛛池模板: 午夜毛片不卡高清免费| 久久人人干| 亚洲另类电击调教在线观看| 国产99在线播放免费| 欧美一级欧美三级在线观看| 一本大道香蕉大vr在线吗视频| 国产精品成人一区二区| 伊人网成人| 久久精品2020| 黄色网久久| 亚洲jjzzjjzz在线观看| 激情爱爱的免费视频| 可以免费播放的在线视频| 中国免费黄色片| 国产人成精品香港三级古代| 国产黄色片一级| 午夜伦理在线观看| 4虎最新地址| 亚洲一区二区视频在线观看| 青娱乐99| 免费看黄在线| 一级做a爱片在线播放| 成人在线精品| 35pao强力| 欧美日韩国产另类一区二区三区| 天天天干| 在线播放黄色| gav久久| 亚洲国产网| 久久久久久久蜜桃| 成人黄色三级| 日本三级吹潮| 玖玖福利| 色综合网址| 天天艹在线| 亚洲大色| 午夜免费啪视频观看网站| 第四色亚洲| 在线capcom超级碰碰| 美女黄网站人色视频免费国产| 久草免费在线播放|