完结小说排行榜,辰东完美世界有声小说,完结小说

與其他 FPGA DSP 架構(gòu)相比，賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運(yùn)算上能實(shí)現(xiàn) 1.75 倍的解決方案級(jí)性能。

概要

本白皮書探討將 INT8 運(yùn)算用于實(shí)現(xiàn)在賽靈思 DSP48E2 片上、使用深度學(xué)習(xí)推斷和計(jì)算機(jī)視覺功能的嵌入式視覺應(yīng)用，以及這種方案與其他 FPGA 的對(duì)比。與占用相同資源數(shù)量的其他 FPGA 相比，賽靈思的 DSP 架構(gòu)對(duì) INT8 乘法累加 (MACC) 運(yùn)算能實(shí)現(xiàn) 1.75 倍的峰值解決方案級(jí)性能。由于嵌入式視覺應(yīng)用可以在不犧牲準(zhǔn)確性的情況下使用較低位精度，因此需要高效的 INT8 實(shí)現(xiàn)方案。

賽靈思的 DSP 架構(gòu)和庫(kù)針對(duì) INT8 運(yùn)算進(jìn)行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice，在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。本白皮書還闡述了要運(yùn)用賽靈思這一獨(dú)特技術(shù)，為何輸入的最小位寬為 24 位。此外本白皮書還詳細(xì)介紹了如何以 SIMD 模式使用 DSP48E2 Slice，供基本算術(shù)運(yùn)算使用。另外還提供在深度學(xué)習(xí)領(lǐng)域或其他計(jì)算機(jī)視覺處理任務(wù)領(lǐng)域如何將這些功能用于嵌入式視覺的實(shí)例。

用于深度學(xué)習(xí)和計(jì)算機(jī)視覺的 INT8

嵌入式視覺是專業(yè)術(shù)語，指的是在嵌入式平臺(tái)上實(shí)現(xiàn)用于現(xiàn)實(shí)用途的計(jì)算機(jī)視覺算法。雖然計(jì)算機(jī)視覺算法近年來有明顯改進(jìn)，要在降低功耗的條件下將這樣復(fù)雜且高計(jì)算強(qiáng)度的算法移植到嵌入式平臺(tái)上卻是一大挑戰(zhàn)。以更低功耗處理更多運(yùn)算是一個(gè)亙古不變的需求，無論是對(duì)過濾、角點(diǎn)檢測(cè)等傳統(tǒng)計(jì)算機(jī)視覺算法還是對(duì)深度學(xué)習(xí)算法。

深度神經(jīng)網(wǎng)絡(luò)憑借人類級(jí) AI 功能已推動(dòng)眾多應(yīng)用不斷演進(jìn)并重新對(duì)其定義。鑒于這類算法提供的超高精度，這些網(wǎng)絡(luò)是嵌入式設(shè)備中的主要工作負(fù)載。隨著更精確的深度學(xué)習(xí)模型被開發(fā)出來，它們的復(fù)雜性也帶來了高計(jì)算強(qiáng)度和高內(nèi)存帶寬方面的難題。能效要求正推動(dòng)深度學(xué)習(xí)推斷新模式開發(fā)方面的創(chuàng)新，這些模式需要的計(jì)算強(qiáng)度和內(nèi)存帶寬較低，但絕不能以犧牲準(zhǔn)確性和吞吐量為代價(jià)。降低這一開銷將最終提升能效，降低所需的總功耗。

除了節(jié)省計(jì)算過程中的耗電，較低位寬的計(jì)算還能降低內(nèi)存帶寬所需的功耗，因?yàn)樵趦?nèi)存事務(wù)數(shù)量不變的情況下傳輸?shù)奈粩?shù)減少了。

研究顯示要保持同樣的準(zhǔn)確性[ 參考資料 1][ 參考資料 2][ 參考資料 3]，深度學(xué)習(xí)推斷中無需浮點(diǎn)計(jì)算，而且圖像分類等許多應(yīng)用只需要 INT8 或更低定點(diǎn)計(jì)算精度來保持可接受的推斷準(zhǔn)確性[ 參考資料 2][ 參考資料 3]。表 1 列出了精調(diào)網(wǎng)絡(luò)以及卷積層和完全相連層的動(dòng)態(tài)定點(diǎn)參數(shù)及輸出。括號(hào)內(nèi)的數(shù)字代表未精調(diào)的準(zhǔn)確性。

表 1 ：帶定點(diǎn)精度的 CNN 模型

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

對(duì)用于深度學(xué)習(xí)的 INT8 運(yùn)算的優(yōu)化也直接地適用于大量傳統(tǒng)計(jì)算機(jī)視覺功能。這些算法一般工作在 8 位到 16 位整數(shù)表達(dá)式。OpenVX[ 參考資料 4]是一種近期提議的計(jì)算機(jī)視覺標(biāo)準(zhǔn)，規(guī)定了每個(gè)通道 INT8 表達(dá)式的用法。大多數(shù)計(jì)算機(jī)視覺應(yīng)用需要某些程度的過濾，而過濾能夠分解為一套點(diǎn)積運(yùn)算。賽靈思 DSP48E2 Slice 上的 SIMD 運(yùn)算模式為實(shí)現(xiàn)視覺算法涉及的運(yùn)算提供額外選擇。

賽靈思 DSP Slice 片上的 INT8 運(yùn)算

UltraScale 和 UltraScale+ FPGA、Zynq UltraScale+ MPSoC（可編程邏輯）中的賽靈思 DSP48E2 Slice 設(shè)計(jì)用于完成一次乘法和加法運(yùn)算，最大可在一個(gè)時(shí)鐘周期內(nèi)高效地實(shí)現(xiàn) 18x27 位相乘和 48 位累加，如圖 1 所示。除了采用回送或鏈接多個(gè) DSP48E2 Slice，乘法累加 (MACC) 也能使用賽靈思器件高效完成。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 1 ：使用 MACC 模式的 DSP48E2 Slice

INT8 計(jì)算本身就能發(fā)揮寬 27 位帶寬的優(yōu)勢(shì)。在傳統(tǒng)應(yīng)用中，預(yù)加法器一般用于高效實(shí)現(xiàn)（A+B）xC 類型的運(yùn)算，但這類型運(yùn)算不常見于深度學(xué)習(xí)和計(jì)算機(jī)視覺應(yīng)用中。將 (A+B)xC 的結(jié)果分解為 AxC 和 BxC，然后在獨(dú)立的數(shù)據(jù)流中進(jìn)行累加，使之適用于典型深度學(xué)習(xí)和計(jì)算機(jī)視覺計(jì)算的要求。

對(duì) INT8 MACC 運(yùn)算來說，擁有 18x27 位乘法器很占優(yōu)勢(shì)。乘法器的輸入中至少有一個(gè)必須為最小 24 位，同時(shí)進(jìn)位累加器必須為 32 位寬，才能在一個(gè) DSP48E2 Slice 上同時(shí)進(jìn)行兩個(gè) INT8 MACC 運(yùn)算。27 位輸入可與 48 位累加器相結(jié)合，實(shí)現(xiàn) 1.75 倍的解決方案性能提升（DSP 乘法器與 INT8 MACC 之比為 1.75:1）。其他廠商提供的 FPGA 在單個(gè) DSP 模塊中只提供 18x19 乘法器，DSP 乘法器與 INT8 MACC 之比僅為 1:1。

可擴(kuò)展的 INT8 優(yōu)化

目標(biāo)是找到一種能夠?qū)斎?a 、b 和 c 進(jìn)行高效編碼的方法，這樣 a 、b 和 c 之間的相乘結(jié)果可以輕松分解為 a x c 和 b x c。鑒于公共輸入 c，這種方法可以推斷為單個(gè)指令，擁有公共系數(shù)的 2 個(gè)數(shù)據(jù)。

在更低精度計(jì)算中，例如 INT8 乘法中，高位 10 位或 19 位輸入用 0 或 1 填充，僅攜帶 1 位信息。對(duì)最終的 45 位乘積的高位 29 位來說，情況一樣。這樣就可以使用高位 19 位來進(jìn)行另一個(gè)運(yùn)算，同時(shí)不影響低位 8 位和 16 位輸入。

總的來說，要把未使用的高位用于另一計(jì)算必須遵循兩條規(guī)則：

1. 高位不應(yīng)影響低位的計(jì)算。

2. 低位計(jì)算對(duì)高位的任何影響必須可檢測(cè)、可恢復(fù)。

為滿足上述規(guī)則，高位乘積結(jié)果的最低有效位不得進(jìn)入低位 16 位。因此高位的輸入應(yīng)至少?gòu)牡?17 位開始。對(duì)一個(gè) 8 位的高位輸入，總輸入寬位至少為 16+8=24 位。這種最小 24 位輸入大小只能保證用一個(gè)乘法器同時(shí)完成兩次相乘，但仍然足以實(shí)現(xiàn)總體 1.75 倍的 MACC 吞吐量。

接下來的步驟是在一個(gè) DSP48E2 Slice 中并行計(jì)算 ac 和 bc 。DSP48E2 Slice 被用作一個(gè)帶有一個(gè) 27 位預(yù)加法器（輸入和輸出均為 27 位寬）和一個(gè) 27x18 乘法器的算術(shù)單元。見圖 2。

1. 通過預(yù)加法器在 DSP48E2 乘法器的 27 位端口 p 打包 8 位輸入 a 和 b，這樣 2 位向量能盡量分隔開。輸入 a 左移位僅 18 位，這樣從第一項(xiàng)得到的 27 位結(jié)果中的兩個(gè)符號(hào)位 a 以避免在 b<0 和 a=–128 時(shí)預(yù)加法器中發(fā)生溢值。a 的移位量為 18，恰好與 DSP48E2 乘法器端口 B 的寬度一樣。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 2 ：8 位優(yōu)化

2. DSP48E2 27x18 乘法器用于計(jì)算打包的 27 位端口 p 和以二進(jìn)制補(bǔ)碼格式表達(dá)在 18 位 c 中的 8 位系數(shù)的積?，F(xiàn)在該 45 位乘積是二進(jìn)制補(bǔ)碼格式的兩個(gè) 44 位項(xiàng)的和：ac 左移位 18 位以及 bc 。

后加法器可用于累加上述包含單獨(dú)的高位乘積項(xiàng)和低位乘積項(xiàng)的 45 位乘積。在累加單個(gè) 45 位積時(shí)，對(duì)高位項(xiàng)和低位項(xiàng)進(jìn)行了校正累加。最終的累加結(jié)果如果沒有溢值，可以用簡(jiǎn)單運(yùn)算分開。

這種方法的局限在于每個(gè) DSP48E2 Slice 能累加的乘積項(xiàng)的數(shù)量。由于高位項(xiàng)和低位項(xiàng)間始終保持兩位（圖 3），可以保證在低位不溢值的情況下累加多達(dá) 7 個(gè)項(xiàng)。在七個(gè)乘積項(xiàng)后，需要使用額外的 DSP48E2 Slice 來克服這一局限。執(zhí)行 7x2 INT8 乘法- 加法運(yùn)算，與擁有相同數(shù)量乘法器的競(jìng)爭(zhēng)型器件相比 INT8 MACC 運(yùn)算的效率提升 1.75 倍。

根據(jù)實(shí)際用例的要求，這種方法有多種變化形式。使用修正線性單元（ReLU）的卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生非負(fù)激活，而無符號(hào) INT8 格式產(chǎn)生額外一位精度和 1.78 倍峰值吞吐量提升。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 3 ：用單個(gè) DSP48E2 Slice 打包兩個(gè) INT8 乘運(yùn)算

DSP48E2 SIMD 模式

DSP48E2 Slice 的后加法器分裂成四個(gè) 12 位或兩個(gè) 24 位 SIMA ALU（參見圖 4），以執(zhí)行并行加法、減法、累加或逐位邏輯運(yùn)算。在 SIMD 模式下，DSP48E2 Slice 的預(yù)加法器和乘法器不可用。在每個(gè)周期上，ALUMODE[3:0] 控制總線選擇運(yùn)算，而 OPMODE[8:0] 控制總線則選擇操作數(shù) W、X、Y 和 Z。如果考慮 24 位運(yùn)算，DSP48E2 Slice 的 P 寄存器能存儲(chǔ)處理兩個(gè)輸入陣列的結(jié)果。對(duì)每一個(gè)陣列按順序求和，每個(gè)周期一個(gè)元。吞吐量由此變?yōu)槊總€(gè)周期產(chǎn)生兩個(gè)新結(jié)果。詳細(xì)說明，請(qǐng)參閱《UltraScale 架構(gòu) DSP Slice 用戶指南》（UG579）（關(guān)鍵字“SIMD”、“ALUMODE”和“OPMODE”）[ 參考資料 5 ]。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 4 ：DSP48E2 雙 24 位 SIMD 模式

映射 INT8 優(yōu)化到深度學(xué)習(xí)應(yīng)用

新型神經(jīng)網(wǎng)絡(luò)大部分是從這個(gè)初始概念模型[ 參考資料 6 ]衍生而來。見圖 5。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 5 ：概念和深度神經(jīng)網(wǎng)絡(luò)

雖然從標(biāo)準(zhǔn)感知器結(jié)構(gòu)開始已有相當(dāng)程度的演進(jìn)，現(xiàn)代深度學(xué)習(xí)（也稱為深度神經(jīng)網(wǎng)絡(luò) (DNN)）的基本運(yùn)算仍然是類感知器的運(yùn)算，只是有有更大的總體規(guī)模和更深的堆疊感知器結(jié)構(gòu)。圖 5 顯示了感知器的基本運(yùn)算。在每個(gè)典型的深度學(xué)習(xí)推斷中它穿過多個(gè)層，最終重復(fù)數(shù)百萬至數(shù)十億次。如圖 6 所示，在神經(jīng)網(wǎng)絡(luò)層中，計(jì)算 m 個(gè)感知器/ 神經(jīng)元輸出中的每一個(gè)輸出的主要計(jì)算運(yùn)算包括：

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

將全部的 n 個(gè)輸入樣本

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

乘以對(duì)應(yīng)的內(nèi)核權(quán)重

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

并累加結(jié)果

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

其中：f(x) 可以是任何選擇的激活函數(shù)。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 6 ：深度學(xué)習(xí)中的感知器

如果和的精度限定為 INT8，該乘積之和是 INT8 優(yōu)化方法中介紹的并行 MACC 中的第一個(gè)。第二個(gè)乘積和使用相同輸入，但內(nèi)核權(quán)重不同。第二個(gè)感知器/ 神經(jīng)元輸出的結(jié)果是

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

見圖 7。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 7 ：使用共享輸入并行得到兩個(gè)乘積項(xiàng)和

使用 INT8 優(yōu)化方法將值向左移位 18 位，每個(gè) DSP48E2 Slice 就得出最終輸出值的部分且獨(dú)立的一部分。用于每個(gè) DSP48E2 Slice 的累加器有 48 位寬并鏈接到下一個(gè) Slice。為避免移位飽和影響到計(jì)算，鏈接的模塊數(shù)量被限制為 7 個(gè)，即對(duì)總共 n 個(gè)輸入樣本使用 2n 個(gè) MACC 和 n 個(gè) DSP Slice。

典型的 DNN 每層有數(shù)百到數(shù)千個(gè)輸入樣本。但是在完成 7 個(gè)項(xiàng)的累加后，48 位累加器的低位項(xiàng)可能飽和，因此每 7 個(gè)項(xiàng)之和就需要一個(gè)額外的 DSP48E2 Slice。這相當(dāng)于每 7 個(gè) DSP48E2 Slice 和 14 個(gè) MACC，另加一個(gè) DSP48E2 Slice 用于防止過飽和，從而帶來 7/4 或 1.75 倍的吞吐量提升。

在卷積神經(jīng)網(wǎng)絡(luò)（CNN）中，卷積層一般主要使用同一組權(quán)重，從而形成 axw 和 bxw 類型的并行 MACC 運(yùn)算。因此除輸入共享外，還可以使用權(quán)重共享（見圖 8）。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 8 ：權(quán)重共享和輸入共享比較

創(chuàng)建 INT8 鏈接 MACC 的其他方法

還可以使用可編程邏輯中與 DSP48E2 Slice 工作頻率近似的可用 LUT（即未被設(shè)計(jì)其余部分使用的 LUT）來構(gòu)建 INT8 鏈接 MACC。

使用可用 LUT 能顯著提高深度學(xué)習(xí)性能，一些情況下可提升達(dá) 3 倍之多。在許多情況下，對(duì)于其他非FPGA 架構(gòu)而言，在計(jì)算可用深度學(xué)習(xí)運(yùn)算時(shí)這些可用的計(jì)算資源并未考慮在內(nèi)。

賽靈思 FPGA 和 MPSoC 中的編程邏輯是獨(dú)有的，因?yàn)樗懿⑿星腋咝У靥幚聿煌ぷ髫?fù)載。例如賽靈思 FPGA 和 MPSoC 能并行執(zhí)行 CNN 圖像分類、網(wǎng)絡(luò)加密和數(shù)據(jù)壓縮。本深度學(xué)習(xí)性能比較分析未將MACC LUT 考慮在內(nèi)，因?yàn)橐话?LUT 用于執(zhí)行其他并行功能比用于執(zhí)行 MACC 功能時(shí)更有價(jià)值。

映射 INT8 優(yōu)化到計(jì)算機(jī)視覺功能

Khronos OpenVX 標(biāo)準(zhǔn)定義了一套計(jì)算機(jī)視覺處理模塊，對(duì)下列用例尤為重要：面部、身體和手勢(shì)跟蹤；智能視頻監(jiān)控；高級(jí)駕駛員輔助系統(tǒng) (ADAS) ；對(duì)象和情景再現(xiàn)；增強(qiáng)現(xiàn)實(shí)；目測(cè)；機(jī)器人等。表 2 顯示了 INT8 優(yōu)化適用的計(jì)算機(jī)視覺相關(guān)功能。

表 2 ：適用于計(jì)算機(jī)視覺功能的 INT8 優(yōu)化

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

可擴(kuò)展 INT8 優(yōu)化可檢查同時(shí)處理兩個(gè)有共享系數(shù)的數(shù)據(jù)項(xiàng)的兼容性。SIMD 可檢查能從 DSP48E2 Slice 中的四個(gè)操作數(shù)和算子受益的模塊。數(shù)據(jù)和權(quán)重遵循 8 位限制的所有濾波器相關(guān)模塊都能從這種可擴(kuò)展 INT8 方法獲益。大多數(shù)其他涉及基本圖像算術(shù)（例如加/ 減或比較等）的模塊能運(yùn)用 DSP48E2 的 SIMD 運(yùn)算。

使用可擴(kuò)展 INT8 優(yōu)化的定制 2D 卷積

在計(jì)算機(jī)視覺功能環(huán)境中，大部分預(yù)處理任務(wù)會(huì)涉及一定程度的過濾。因?yàn)閳D像主要使用每個(gè)通道 8 位的方式表達(dá)，深度學(xué)習(xí)應(yīng)用中對(duì) INT8 運(yùn)算的優(yōu)化能應(yīng)用到圖像處理中的二維過濾運(yùn)算。唯一的局限是濾波器中的系數(shù)的精度必須能夠用 8 位表達(dá)。這對(duì)諸如索貝爾、Scharr、拉普拉斯或其他邊緣檢測(cè)濾波器等常見濾波器而言，一般來說是正確的。

使用下列方法之一即可發(fā)揮 DSP48E2 Slice 內(nèi)的雙乘法器模式的作用：

對(duì)同一通道在多像素輸出上運(yùn)算：在這種模式下可以并行計(jì)算出兩個(gè)輸出像素。因?yàn)樵趫D像中濾波器系數(shù)在像素間共享，因此能同時(shí)計(jì)算位置 (x,y) 和 (x,y+1) 的像素。按照濾波器計(jì)算順序，每個(gè)濾波器系數(shù)與兩個(gè)不同輸入像素相乘。這意味著在可編程邏輯中提供的資源不變的情況下，性能提高了 1.75 倍。

對(duì)不同通道或圖像的多像素輸出進(jìn)行運(yùn)算：如果正在處理的圖像有多個(gè)通道且濾波器在不同通道間共享，對(duì)處于相同位置 (x,y) 的像素，濾波器的系數(shù)可在多通道間共享。相同的方法可擴(kuò)展用于同時(shí)運(yùn)算多個(gè)圖像。

使用 SIMD 運(yùn)算的中值濾波器

圖像處理中常用的中值濾波器也用于消噪。在圖像上使用中值濾波器涉及用預(yù)設(shè)大小的窗口掃描圖像，計(jì)算進(jìn)入該窗口的像素的中值，使用中值替換中心像素。中值計(jì)算屬于高計(jì)算強(qiáng)度。它涉及為值排序，然后找到位于列表中間的值。排序流程是一個(gè)比較運(yùn)算序列。

要使用可編程邏輯上的 DSP 實(shí)現(xiàn)中值濾波器，可以對(duì)算法做改動(dòng)。每次比較運(yùn)算可以分為減法運(yùn)算及后續(xù)的符號(hào)位檢查。對(duì)減法運(yùn)算，DSP48E2 Slice 能夠以四個(gè) 12 位或兩個(gè) 24 位模式進(jìn)行運(yùn)算。要充分利用 DSP48E2 Slice，可以并行運(yùn)算多個(gè)像素。假定每個(gè)像素為單通道，深度小于 12 位，就可以同時(shí)處理四個(gè)輸出像素。對(duì)每個(gè)輸出像素存在多個(gè)排序運(yùn)算，這些排序運(yùn)算都可以使用 DSP48E2 Slice 中的減法運(yùn)算。結(jié)果的符號(hào)位可以使用最小的邏輯在 DSP48E2 Slice 之外檢查。比較的總數(shù)量取決于用于排序值的算法。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 9 ：中值濾波器的 DSP48E2 運(yùn)算模式

競(jìng)爭(zhēng)分析

在競(jìng)爭(zhēng)分析中使用英特爾（前 Altera）的 Arria 10 器件與賽靈思的 Zynq UltraScale+ MPSoC 對(duì)比。在進(jìn)行嵌入式視覺應(yīng)用計(jì)算效率比較時(shí)，選擇的器件有可比的 DSP 密度和器件功耗：

? Arria 10 SoC ：SX220、SX270 和 SX480

? Zynq UltraScale+ MPSoC ：ZU3、ZU7 和 ZU9 器件

重點(diǎn)比較能用于包括深度學(xué)習(xí)和計(jì)算機(jī)視覺在內(nèi)的眾多應(yīng)用的通用 MACC 性能。

英特爾的 MACC 性能基于運(yùn)用預(yù)加法器的算子。但是這種實(shí)現(xiàn)方案產(chǎn)生的是乘積項(xiàng)的和，而非單獨(dú)的乘積項(xiàng)。因此英特爾的預(yù)加法器不適用高效深度學(xué)習(xí)或計(jì)算機(jī)視覺運(yùn)算。

在本計(jì)算效率分析中，每個(gè)器件的功耗使用賽靈思的2016.4 版 Power Estimator 工具和英特爾的 16.0.1 版 EPE Power Estimate 工具進(jìn)行估算，并根據(jù)下列假設(shè)得出：

1. 90% DSP 占用率

2. 英特爾器件 - 速度等級(jí)為：2L, 最大頻率下供電電壓為 0.9V

3. 賽靈思器件 - 速度等級(jí)為 1L, 最大頻率下供電電壓為 0.72V

4. 時(shí)鐘速率為 DSP Fmax 時(shí)邏輯利用率為 70%

5. 時(shí)鐘速率為 DSP 最大頻率的一半時(shí),Block RAM 利用率為 90%

6. DSP 翻轉(zhuǎn)率為 12.5%

7. 功耗特征：“典型功耗”

圖 10 所示的即為深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算的能效對(duì)比。與英特爾的 Arria 10 SoC 器件相比，賽靈思器件能讓深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算的計(jì)算效率提高 3-7 倍。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

圖 10 ：INT8 深度學(xué)習(xí)和計(jì)算機(jī)視覺能效對(duì)比：賽靈思對(duì)比英特爾

結(jié) 論

本白皮書探討了如何在賽靈思 DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算，從而實(shí)現(xiàn) 1.75 倍的性能提升。賽靈思 DSP48E2 Slice 可用于在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。為高效實(shí)現(xiàn) INT8，需要 24 位輸入寬度，這一優(yōu)勢(shì)只有賽靈思 DSP48E2 Slice 支持。同樣的優(yōu)勢(shì)還能用于計(jì)算機(jī)視覺運(yùn)算，例如過濾任務(wù)及其它圖像操作任務(wù)。賽靈思的 DSP48E2 Slice 的 SIMD 模式為開展四個(gè) 12 位或兩個(gè) 24 位 SIMD 運(yùn)算提供了新的途徑。

總之，賽靈思的 Zynq UltraScale+ MPSoC 非常適用于 INT8 工作負(fù)載，使之成為為嵌入式視覺領(lǐng)域大量應(yīng)用加速的理想選擇。賽靈思不斷創(chuàng)新新的基于軟/ 硬件的方法，以加速嵌入式視覺應(yīng)用領(lǐng)域的深度學(xué)習(xí)和計(jì)算機(jī)視覺功能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺

計(jì)算機(jī)視覺

+關(guān)注

關(guān)注
8

文章
1698

瀏覽量
45993
嵌入式視覺

嵌入式視覺

+關(guān)注

關(guān)注
8

文章
117

瀏覽量
59147
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121170

評(píng)論

相關(guān)推薦

采用FPGA實(shí)現(xiàn)DisplayPort詳細(xì)教程【賽靈思內(nèi)部資料】

，以及如何使用我們即將推出的 XAPP“使用 MicroBlazeTM 嵌入式系統(tǒng)實(shí)施 DisplayPort Source PolicyMaker 控制系統(tǒng)參考設(shè)計(jì)作者：Carol Fields賽靈

發(fā)表于 03-01 11:10

用OpenCV和Vivado HLS加速基于Zynq SoC的嵌入式視覺應(yīng)用開發(fā)

設(shè)計(jì)流程　　為了進(jìn)一步幫助嵌入式視覺開發(fā)人員創(chuàng)建Smarter Vision系統(tǒng)，賽靈思在Vivado中增加了對(duì)OpenCV

發(fā)表于 04-21 15:49

Xilinx賽靈思FPGA技術(shù)及應(yīng)用線上公開課

` 本帖最后由 MGJOY 于 2017-4-10 15:07 編輯本周三，4月12日，賽靈思FPGA技術(shù)及應(yīng)用線上公開課。歡迎大家觀看、學(xué)習(xí)交流~分享主題【賽

發(fā)表于 04-10 15:06

基于賽靈思Spartan-3A的視頻分析

視頻分析對(duì)性能處理的要求可充分發(fā)揮賽靈思FPGA的并行架構(gòu)、嵌入式和DSP處理能力所帶來的優(yōu)點(diǎn)。

發(fā)表于 05-16 10:26 ?1193次閱讀

基于<b class='flag-5'>賽</b><b class='flag-5'>靈</b><b class='flag-5'>思</b>Spartan-3A的視頻分析

賽靈思收購(gòu)嵌入式Linux方案提供商PetaLogix

All Programmable技術(shù)和器件的全球領(lǐng)先企業(yè)賽靈思公司(Xilinx, Inc. (NASDAQ:XLNX) )今天宣布收購(gòu)嵌入式Linux解決方案

發(fā)表于 08-30 16:59 ?656次閱讀

賽靈思收購(gòu)嵌入式Linux方案提供商PetaLogix

賽靈思公司（Xilinx）宣布收購(gòu)嵌入式Linux解決方案提供商PetaLogix。隨著Linux解決方案成為越來越多依賴

發(fā)表于 09-05 09:14 ?575次閱讀

玩轉(zhuǎn)Xilinx嵌入式視覺開發(fā)者專區(qū) 讓視覺系統(tǒng)開發(fā)更加簡(jiǎn)單

Programmable 的差異化嵌入式視覺應(yīng)用。通過嵌入式視覺開發(fā)者專區(qū)，賽靈

發(fā)表于 11-10 14:49 ?997次閱讀

賽靈思強(qiáng)化嵌入式視覺應(yīng)用與工業(yè)物聯(lián)網(wǎng)產(chǎn)品系列

與軟件定義SDSoC開發(fā)環(huán)境公用版。這些新產(chǎn)品、開發(fā)環(huán)境及強(qiáng)化產(chǎn)業(yè)生態(tài)系的結(jié)合，使該公司客戶得以在快速成長(zhǎng)的嵌入式視覺應(yīng)用與工業(yè)物聯(lián)網(wǎng)市場(chǎng)中，創(chuàng)造具更高差異化與靈活性的應(yīng)用。賽靈

發(fā)表于 02-08 17:37 ?204次閱讀

Xilinx INT8 優(yōu)化開發(fā)嵌入式視覺

賽靈思 INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計(jì)算機(jī)視覺

發(fā)表于 09-22 17:27 ?5498次閱讀

嵌入式視覺的發(fā)展趨勢(shì)及其算法示例

在這篇文章中，前賽靈思機(jī)器視覺市場(chǎng)戰(zhàn)略總監(jiān)Aaron Behman 針對(duì)嵌入式視覺方面的問題進(jìn)行

發(fā)表于 11-15 17:27 ?5485次閱讀

DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運(yùn)算分析

學(xué)習(xí)每秒運(yùn)算次數(shù) (OPS) 上相比其它 FPGA，能實(shí)現(xiàn) 1.75 倍的峰值解決方案級(jí)性能。由于深度學(xué)習(xí)推斷可以在不犧牲準(zhǔn)確性的情況下使用較低位精度，因此需要高效的 INT8 實(shí)現(xiàn)方案。賽靈

發(fā)表于 11-16 14:23 ?1.5w次閱讀

賽靈思擴(kuò)大生態(tài)系統(tǒng)，重塑嵌入式視覺、工業(yè)物聯(lián)網(wǎng)系統(tǒng)設(shè)計(jì)的未來

的系統(tǒng)正在重塑嵌入式視覺和工業(yè)物聯(lián)網(wǎng) (IIoT) 的未來。賽靈思于今年 2 月在德國(guó)紐倫堡舉辦的嵌入式

發(fā)表于 02-14 03:09 ?3522次閱讀

Arm攜手賽靈思助力嵌入式開發(fā)人員獲取成熟的Arm IP

Arm和賽靈思（Xilinx）強(qiáng)強(qiáng)聯(lián)合，將業(yè)界最強(qiáng)大、最成熟的嵌入式生態(tài)系統(tǒng)優(yōu)勢(shì)與賽靈思FPGA

發(fā)表于 10-11 10:05 ?3173次閱讀

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用性能和計(jì)算方法

賽靈思的 DSP 架構(gòu)和庫(kù)針對(duì) INT8 運(yùn)算進(jìn)行了精心優(yōu)化。本白皮書介紹如何使用賽

發(fā)表于 07-29 11:19 ?2492次閱讀

性能優(yōu)良的賽思靈FPGA嵌入式處理器平臺(tái)

賽靈思公司昨天宣布了由獨(dú)立的第三方對(duì)運(yùn)行Accelerated Technology公司（AT）的Nucleus實(shí)時(shí)操作系統(tǒng)（RTOS）的32位MicroBlaze處理器平臺(tái)進(jìn)行的測(cè)試結(jié)果,再次證明了

發(fā)表于 06-28 11:38 ?2326次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計(jì)算方法

評(píng)論

采用FPGA實(shí)現(xiàn)DisplayPort詳細(xì)教程【賽靈思內(nèi)部資料】

用OpenCV和Vivado HLS加速基于Zynq SoC的嵌入式視覺應(yīng)用開發(fā)

Xilinx賽靈思FPGA技術(shù)及應(yīng)用線上公開課

基于賽靈思Spartan-3A的視頻分析

賽靈思收購(gòu)嵌入式Linux方案提供商PetaLogix

賽靈思收購(gòu)嵌入式Linux方案提供商PetaLogix

玩轉(zhuǎn)Xilinx嵌入式視覺開發(fā)者專區(qū) 讓視覺系統(tǒng)開發(fā)更加簡(jiǎn)單

賽靈思強(qiáng)化嵌入式視覺應(yīng)用與工業(yè)物聯(lián)網(wǎng)產(chǎn)品系列

Xilinx INT8 優(yōu)化開發(fā)嵌入式視覺

嵌入式視覺的發(fā)展趨勢(shì)及其算法示例

DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運(yùn)算分析

賽靈思擴(kuò)大生態(tài)系統(tǒng)，重塑嵌入式視覺、工業(yè)物聯(lián)網(wǎng)系統(tǒng)設(shè)計(jì)的未來

Arm攜手賽靈思助力嵌入式開發(fā)人員獲取成熟的Arm IP

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用性能和計(jì)算方法

性能優(yōu)良的賽思靈FPGA嵌入式處理器平臺(tái)