與其他 FPGA DSP 架構(gòu)相比,賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運(yùn)算上能實(shí)現(xiàn) 1.75 倍的解決方案級(jí)性能。
概要
本白皮書探討將 INT8 運(yùn)算用于實(shí)現(xiàn)在賽靈思 DSP48E2 片上、使用深度學(xué)習(xí)推斷和計(jì)算機(jī)視覺功能的嵌入式視覺應(yīng)用,以及這種方案與其他 FPGA 的對(duì)比。與占用相同資源數(shù)量的其他 FPGA 相比,賽靈思的 DSP 架構(gòu)對(duì) INT8 乘法累加 (MACC) 運(yùn)算能實(shí)現(xiàn) 1.75 倍的峰值解決方案級(jí)性能。由于嵌入式視覺應(yīng)用可以在不犧牲準(zhǔn)確性的情況下使用較低位精度,因此需要高效的 INT8 實(shí)現(xiàn)方案。
賽靈思的 DSP 架構(gòu)和庫(kù)針對(duì) INT8 運(yùn)算進(jìn)行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。本白皮書還闡述了要運(yùn)用賽靈思這一獨(dú)特技術(shù),為何輸入的最小位寬為 24 位。此外本白皮書還詳細(xì)介紹了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算術(shù)運(yùn)算使用。另外還提供在深度學(xué)習(xí)領(lǐng)域或其他計(jì)算機(jī)視覺處理任務(wù)領(lǐng)域如何將這些功能用于嵌入式視覺的實(shí)例。
用于深度學(xué)習(xí)和計(jì)算機(jī)視覺的 INT8
嵌入式視覺是專業(yè)術(shù)語,指的是在嵌入式平臺(tái)上實(shí)現(xiàn)用于現(xiàn)實(shí)用途的計(jì)算機(jī)視覺算法。雖然計(jì)算機(jī)視覺算法近年來有明顯改進(jìn),要在降低功耗的條件下將這樣復(fù)雜且高計(jì)算強(qiáng)度的算法移植到嵌入式平臺(tái)上卻是一大挑戰(zhàn)。以更低功耗處理更多運(yùn)算是一個(gè)亙古不變的需求,無論是對(duì)過濾、角點(diǎn)檢測(cè)等傳統(tǒng)計(jì)算機(jī)視覺算法還是對(duì)深度學(xué)習(xí)算法。
深度神經(jīng)網(wǎng)絡(luò)憑借人類級(jí) AI 功能已推動(dòng)眾多應(yīng)用不斷演進(jìn)并重新對(duì)其定義。鑒于這類算法提供的超高精度,這些網(wǎng)絡(luò)是嵌入式設(shè)備中的主要工作負(fù)載。隨著更精確的深度學(xué)習(xí)模型被開發(fā)出來,它們的復(fù)雜性也帶來了高計(jì)算強(qiáng)度和高內(nèi)存帶寬方面的難題。能效要求正推動(dòng)深度學(xué)習(xí)推斷新模式開發(fā)方面的創(chuàng)新,這些模式需要的計(jì)算強(qiáng)度和內(nèi)存帶寬較低,但絕不能以犧牲準(zhǔn)確性和吞吐量為代價(jià)。降低這一開銷將最終提升能效,降低所需的總功耗。
除了節(jié)省計(jì)算過程中的耗電,較低位寬的計(jì)算還能降低內(nèi)存帶寬所需的功耗,因?yàn)樵趦?nèi)存事務(wù)數(shù)量不變的情況下傳輸?shù)奈粩?shù)減少了。
研究顯示要保持同樣的準(zhǔn)確性[ 參考資料 1][ 參考資料 2][ 參考資料 3],深度學(xué)習(xí)推斷中無需浮點(diǎn)計(jì)算,而且圖像分類等許多應(yīng)用只需要 INT8 或更低定點(diǎn)計(jì)算精度來保持可接受的推斷準(zhǔn)確性[ 參考資料 2][ 參考資料 3]。表 1 列出了精調(diào)網(wǎng)絡(luò)以及卷積層和完全相連層的動(dòng)態(tài)定點(diǎn)參數(shù)及輸出。括號(hào)內(nèi)的數(shù)字代表未精調(diào)的準(zhǔn)確性。
表 1 :帶定點(diǎn)精度的 CNN 模型
對(duì)用于深度學(xué)習(xí)的 INT8 運(yùn)算的優(yōu)化也直接地適用于大量傳統(tǒng)計(jì)算機(jī)視覺功能。這些算法一般工作在 8 位到 16 位整數(shù)表達(dá)式。OpenVX[ 參考資料 4]是一種近期提議的計(jì)算機(jī)視覺標(biāo)準(zhǔn),規(guī)定了每個(gè)通道 INT8 表達(dá)式的用法。大多數(shù)計(jì)算機(jī)視覺應(yīng)用需要某些程度的過濾,而過濾能夠分解為一套點(diǎn)積運(yùn)算。賽靈思 DSP48E2 Slice 上的 SIMD 運(yùn)算模式為實(shí)現(xiàn)視覺算法涉及的運(yùn)算提供額外選擇。
賽靈思 DSP Slice 片上的 INT8 運(yùn)算
UltraScale 和 UltraScale+ FPGA、Zynq UltraScale+ MPSoC(可編程邏輯)中的賽靈思 DSP48E2 Slice 設(shè)計(jì)用于完成一次乘法和加法運(yùn)算,最大可在一個(gè)時(shí)鐘周期內(nèi)高效地實(shí)現(xiàn) 18x27 位相乘和 48 位累加,如圖 1 所示。除了采用回送或鏈接多個(gè) DSP48E2 Slice,乘法累加 (MACC) 也能使用賽靈思器件高效完成。
圖 1 :使用 MACC 模式的 DSP48E2 Slice
INT8 計(jì)算本身就能發(fā)揮寬 27 位帶寬的優(yōu)勢(shì)。在傳統(tǒng)應(yīng)用中,預(yù)加法器一般用于高效實(shí)現(xiàn)(A+B)xC 類型的運(yùn)算,但這類型運(yùn)算不常見于深度學(xué)習(xí)和計(jì)算機(jī)視覺應(yīng)用中。將 (A+B)xC 的結(jié)果分解為 AxC 和 BxC,然后在獨(dú)立的數(shù)據(jù)流中進(jìn)行累加,使之適用于典型深度學(xué)習(xí)和計(jì)算機(jī)視覺計(jì)算的要求。
對(duì) INT8 MACC 運(yùn)算來說,擁有 18x27 位乘法器很占優(yōu)勢(shì)。乘法器的輸入中至少有一個(gè)必須為最小 24 位,同時(shí)進(jìn)位累加器必須為 32 位寬,才能在一個(gè) DSP48E2 Slice 上同時(shí)進(jìn)行兩個(gè) INT8 MACC 運(yùn)算。27 位輸入可與 48 位累加器相結(jié)合,實(shí)現(xiàn) 1.75 倍的解決方案性能提升(DSP 乘法器與 INT8 MACC 之比為 1.75:1)。其他廠商提供的 FPGA 在單個(gè) DSP 模塊中只提供 18x19 乘法器,DSP 乘法器與 INT8 MACC 之比僅為 1:1。
可擴(kuò)展的 INT8 優(yōu)化
目標(biāo)是找到一種能夠?qū)斎?a 、b 和 c 進(jìn)行高效編碼的方法,這樣 a 、b 和 c 之間的相乘結(jié)果可以輕松分解為 a x c 和 b x c。鑒于公共輸入 c,這種方法可以推斷為單個(gè)指令,擁有公共系數(shù)的 2 個(gè)數(shù)據(jù)。
在更低精度計(jì)算中,例如 INT8 乘法中,高位 10 位或 19 位輸入用 0 或 1 填充,僅攜帶 1 位信息。對(duì)最終的 45 位乘積的高位 29 位來說,情況一樣。這樣就可以使用高位 19 位來進(jìn)行另一個(gè)運(yùn)算,同時(shí)不影響低位 8 位和 16 位輸入。
總的來說,要把未使用的高位用于另一計(jì)算必須遵循兩條規(guī)則:
1. 高位不應(yīng)影響低位的計(jì)算。
2. 低位計(jì)算對(duì)高位的任何影響必須可檢測(cè)、可恢復(fù)。
為滿足上述規(guī)則,高位乘積結(jié)果的最低有效位不得進(jìn)入低位 16 位。因此高位的輸入應(yīng)至少?gòu)牡?17 位開始。對(duì)一個(gè) 8 位的高位輸入,總輸入寬位至少為 16+8=24 位。這種最小 24 位輸入大小只能保證用一個(gè)乘法器同時(shí)完成兩次相乘,但仍然足以實(shí)現(xiàn)總體 1.75 倍的 MACC 吞吐量。
接下來的步驟是在一個(gè) DSP48E2 Slice 中并行計(jì)算 ac 和 bc 。DSP48E2 Slice 被用作一個(gè)帶有一個(gè) 27 位預(yù)加法器(輸入和輸出均為 27 位寬)和一個(gè) 27x18 乘法器的算術(shù)單元。見圖 2。
1. 通過預(yù)加法器在 DSP48E2 乘法器的 27 位端口 p 打包 8 位輸入 a 和 b,這樣 2 位向量能盡量分隔開。輸入 a 左移位僅 18 位,這樣從第一項(xiàng)得到的 27 位結(jié)果中的兩個(gè)符號(hào)位 a 以避免在 b<0 和 a=–128 時(shí)預(yù)加法器中發(fā)生溢值。a 的移位量為 18,恰好與 DSP48E2 乘法器端口 B 的寬度一樣。
圖 2 :8 位優(yōu)化
2. DSP48E2 27x18 乘法器用于計(jì)算打包的 27 位端口 p 和以二進(jìn)制補(bǔ)碼格式表達(dá)在 18 位 c 中的 8 位系數(shù)的積?,F(xiàn)在該 45 位乘積是二進(jìn)制補(bǔ)碼格式的兩個(gè) 44 位項(xiàng)的和:ac 左移位 18 位以及 bc 。
后加法器可用于累加上述包含單獨(dú)的高位乘積項(xiàng)和低位乘積項(xiàng)的 45 位乘積。在累加單個(gè) 45 位積時(shí),對(duì)高位項(xiàng)和低位項(xiàng)進(jìn)行了校正累加。最終的累加結(jié)果如果沒有溢值,可以用簡(jiǎn)單運(yùn)算分開。
這種方法的局限在于每個(gè) DSP48E2 Slice 能累加的乘積項(xiàng)的數(shù)量。由于高位項(xiàng)和低位項(xiàng)間始終保持兩位(圖 3),可以保證在低位不溢值的情況下累加多達(dá) 7 個(gè)項(xiàng)。在七個(gè)乘積項(xiàng)后,需要使用額外的 DSP48E2 Slice 來克服這一局限。執(zhí)行 7x2 INT8 乘法- 加法運(yùn)算,與擁有相同數(shù)量乘法器的競(jìng)爭(zhēng)型器件相比 INT8 MACC 運(yùn)算的效率提升 1.75 倍。
根據(jù)實(shí)際用例的要求,這種方法有多種變化形式。使用修正線性單元(ReLU)的卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生非負(fù)激活,而無符號(hào) INT8 格式產(chǎn)生額外一位精度和 1.78 倍峰值吞吐量提升。
圖 3 :用單個(gè) DSP48E2 Slice 打包兩個(gè) INT8 乘運(yùn)算
DSP48E2 SIMD 模式
DSP48E2 Slice 的后加法器分裂成四個(gè) 12 位或兩個(gè) 24 位 SIMA ALU(參見圖 4),以執(zhí)行并行加法、減法、累加或逐位邏輯運(yùn)算。在 SIMD 模式下,DSP48E2 Slice 的預(yù)加法器和乘法器不可用。在每個(gè)周期上,ALUMODE[3:0] 控制總線選擇運(yùn)算,而 OPMODE[8:0] 控制總線則選擇操作數(shù) W、X、Y 和 Z。如果考慮 24 位運(yùn)算,DSP48E2 Slice 的 P 寄存器能存儲(chǔ)處理兩個(gè)輸入陣列的結(jié)果。對(duì)每一個(gè)陣列按順序求和,每個(gè)周期一個(gè)元。吞吐量由此變?yōu)槊總€(gè)周期產(chǎn)生兩個(gè)新結(jié)果。詳細(xì)說明,請(qǐng)參閱《UltraScale 架構(gòu) DSP Slice 用戶指南》(UG579)(關(guān)鍵字“SIMD”、“ALUMODE”和“OPMODE”)[ 參考資料 5 ]。
圖 4 :DSP48E2 雙 24 位 SIMD 模式
映射 INT8 優(yōu)化到深度學(xué)習(xí)應(yīng)用
新型神經(jīng)網(wǎng)絡(luò)大部分是從這個(gè)初始概念模型[ 參考資料 6 ]衍生而來。見圖 5。
圖 5 :概念和深度神經(jīng)網(wǎng)絡(luò)
雖然從標(biāo)準(zhǔn)感知器結(jié)構(gòu)開始已有相當(dāng)程度的演進(jìn),現(xiàn)代深度學(xué)習(xí)(也稱為深度神經(jīng)網(wǎng)絡(luò) (DNN))的基本運(yùn)算仍然是類感知器的運(yùn)算,只是有有更大的總體規(guī)模和更深的堆疊感知器結(jié)構(gòu)。圖 5 顯示了感知器的基本運(yùn)算。在每個(gè)典型的深度學(xué)習(xí)推斷中它穿過多個(gè)層,最終重復(fù)數(shù)百萬至數(shù)十億次。如圖 6 所示,在神經(jīng)網(wǎng)絡(luò)層中,計(jì)算 m 個(gè)感知器/ 神經(jīng)元輸出中的每一個(gè)輸出的主要計(jì)算運(yùn)算包括:
將全部的 n 個(gè)輸入樣本
乘以對(duì)應(yīng)的內(nèi)核權(quán)重
并累加結(jié)果
其中:f(x) 可以是任何選擇的激活函數(shù)。
圖 6 :深度學(xué)習(xí)中的感知器
如果和的精度限定為 INT8,該乘積之和是 INT8 優(yōu)化方法中介紹的并行 MACC 中的第一個(gè)。第二個(gè)乘積和使用相同輸入,但內(nèi)核權(quán)重不同。第二個(gè)感知器/ 神經(jīng)元輸出的結(jié)果是
見圖 7。
圖 7 :使用共享輸入并行得到兩個(gè)乘積項(xiàng)和
使用 INT8 優(yōu)化方法將值向左移位 18 位,每個(gè) DSP48E2 Slice 就得出最終輸出值的部分且獨(dú)立的一部分。用于每個(gè) DSP48E2 Slice 的累加器有 48 位寬并鏈接到下一個(gè) Slice。為避免移位飽和影響到計(jì)算,鏈接的模塊數(shù)量被限制為 7 個(gè),即對(duì)總共 n 個(gè)輸入樣本使用 2n 個(gè) MACC 和 n 個(gè) DSP Slice。
典型的 DNN 每層有數(shù)百到數(shù)千個(gè)輸入樣本。但是在完成 7 個(gè)項(xiàng)的累加后,48 位累加器的低位項(xiàng)可能飽和,因此每 7 個(gè)項(xiàng)之和就需要一個(gè)額外的 DSP48E2 Slice。這相當(dāng)于每 7 個(gè) DSP48E2 Slice 和 14 個(gè) MACC,另加一個(gè) DSP48E2 Slice 用于防止過飽和,從而帶來 7/4 或 1.75 倍的吞吐量提升。
在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,卷積層一般主要使用同一組權(quán)重,從而形成 axw 和 bxw 類型的并行 MACC 運(yùn)算。因此除輸入共享外,還可以使用權(quán)重共享(見圖 8)。
圖 8 :權(quán)重共享和輸入共享比較
創(chuàng)建 INT8 鏈接 MACC 的其他方法
還可以使用可編程邏輯中與 DSP48E2 Slice 工作頻率近似的可用 LUT(即未被設(shè)計(jì)其余部分使用的 LUT)來構(gòu)建 INT8 鏈接 MACC。
使用可用 LUT 能顯著提高深度學(xué)習(xí)性能,一些情況下可提升達(dá) 3 倍之多。在許多情況下,對(duì)于其他非FPGA 架構(gòu)而言,在計(jì)算可用深度學(xué)習(xí)運(yùn)算時(shí)這些可用的計(jì)算資源并未考慮在內(nèi)。
賽靈思 FPGA 和 MPSoC 中的編程邏輯是獨(dú)有的,因?yàn)樗懿⑿星腋咝У靥幚聿煌ぷ髫?fù)載。例如賽靈思 FPGA 和 MPSoC 能并行執(zhí)行 CNN 圖像分類、網(wǎng)絡(luò)加密和數(shù)據(jù)壓縮。本深度學(xué)習(xí)性能比較分析未將MACC LUT 考慮在內(nèi),因?yàn)橐话?LUT 用于執(zhí)行其他并行功能比用于執(zhí)行 MACC 功能時(shí)更有價(jià)值。
映射 INT8 優(yōu)化到計(jì)算機(jī)視覺功能
Khronos OpenVX 標(biāo)準(zhǔn)定義了一套計(jì)算機(jī)視覺處理模塊,對(duì)下列用例尤為重要:面部、身體和手勢(shì)跟蹤;智能視頻監(jiān)控;高級(jí)駕駛員輔助系統(tǒng) (ADAS) ;對(duì)象和情景再現(xiàn);增強(qiáng)現(xiàn)實(shí);目測(cè);機(jī)器人等。表 2 顯示了 INT8 優(yōu)化適用的計(jì)算機(jī)視覺相關(guān)功能。
表 2 :適用于計(jì)算機(jī)視覺功能的 INT8 優(yōu)化
可擴(kuò)展 INT8 優(yōu)化可檢查同時(shí)處理兩個(gè)有共享系數(shù)的數(shù)據(jù)項(xiàng)的兼容性。SIMD 可檢查能從 DSP48E2 Slice 中的四個(gè)操作數(shù)和算子受益的模塊。數(shù)據(jù)和權(quán)重遵循 8 位限制的所有濾波器相關(guān)模塊都能從這種可擴(kuò)展 INT8 方法獲益。大多數(shù)其他涉及基本圖像算術(shù)(例如加/ 減或比較等)的模塊能運(yùn)用 DSP48E2 的 SIMD 運(yùn)算。
使用可擴(kuò)展 INT8 優(yōu)化的定制 2D 卷積
在計(jì)算機(jī)視覺功能環(huán)境中,大部分預(yù)處理任務(wù)會(huì)涉及一定程度的過濾。因?yàn)閳D像主要使用每個(gè)通道 8 位的方式表達(dá),深度學(xué)習(xí)應(yīng)用中對(duì) INT8 運(yùn)算的優(yōu)化能應(yīng)用到圖像處理中的二維過濾運(yùn)算。唯一的局限是濾波器中的系數(shù)的精度必須能夠用 8 位表達(dá)。這對(duì)諸如索貝爾、Scharr、拉普拉斯或其他邊緣檢測(cè)濾波器等常見濾波器而言,一般來說是正確的。
使用下列方法之一即可發(fā)揮 DSP48E2 Slice 內(nèi)的雙乘法器模式的作用:
對(duì)同一通道在多像素輸出上運(yùn)算:在這種模式下可以并行計(jì)算出兩個(gè)輸出像素。因?yàn)樵趫D像中濾波器系數(shù)在像素間共享,因此能同時(shí)計(jì)算位置 (x,y) 和 (x,y+1) 的像素。按照濾波器計(jì)算順序,每個(gè)濾波器系數(shù)與兩個(gè)不同輸入像素相乘。這意味著在可編程邏輯中提供的資源不變的情況下,性能提高了 1.75 倍。
對(duì)不同通道或圖像的多像素輸出進(jìn)行運(yùn)算:如果正在處理的圖像有多個(gè)通道且濾波器在不同通道間共享,對(duì)處于相同位置 (x,y) 的像素,濾波器的系數(shù)可在多通道間共享。相同的方法可擴(kuò)展用于同時(shí)運(yùn)算多個(gè)圖像。
使用 SIMD 運(yùn)算的中值濾波器
圖像處理中常用的中值濾波器也用于消噪。在圖像上使用中值濾波器涉及用預(yù)設(shè)大小的窗口掃描圖像,計(jì)算進(jìn)入該窗口的像素的中值,使用中值替換中心像素。中值計(jì)算屬于高計(jì)算強(qiáng)度。它涉及為值排序,然后找到位于列表中間的值。排序流程是一個(gè)比較運(yùn)算序列。
要使用可編程邏輯上的 DSP 實(shí)現(xiàn)中值濾波器,可以對(duì)算法做改動(dòng)。每次比較運(yùn)算可以分為減法運(yùn)算及后續(xù)的符號(hào)位檢查。對(duì)減法運(yùn)算,DSP48E2 Slice 能夠以四個(gè) 12 位或兩個(gè) 24 位模式進(jìn)行運(yùn)算。要充分利用 DSP48E2 Slice,可以并行運(yùn)算多個(gè)像素。假定每個(gè)像素為單通道,深度小于 12 位,就可以同時(shí)處理四個(gè)輸出像素。對(duì)每個(gè)輸出像素存在多個(gè)排序運(yùn)算,這些排序運(yùn)算都可以使用 DSP48E2 Slice 中的減法運(yùn)算。結(jié)果的符號(hào)位可以使用最小的邏輯在 DSP48E2 Slice 之外檢查。比較的總數(shù)量取決于用于排序值的算法。
圖 9 :中值濾波器的 DSP48E2 運(yùn)算模式
競(jìng)爭(zhēng)分析
在競(jìng)爭(zhēng)分析中使用英特爾(前 Altera)的 Arria 10 器件與賽靈思的 Zynq UltraScale+ MPSoC 對(duì)比。在進(jìn)行嵌入式視覺應(yīng)用計(jì)算效率比較時(shí),選擇的器件有可比的 DSP 密度和器件功耗:
? Arria 10 SoC :SX220、SX270 和 SX480
? Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件
重點(diǎn)比較能用于包括深度學(xué)習(xí)和計(jì)算機(jī)視覺在內(nèi)的眾多應(yīng)用的通用 MACC 性能。
英特爾的 MACC 性能基于運(yùn)用預(yù)加法器的算子。但是這種實(shí)現(xiàn)方案產(chǎn)生的是乘積項(xiàng)的和,而非單獨(dú)的乘積項(xiàng)。因此英特爾的預(yù)加法器不適用高效深度學(xué)習(xí)或計(jì)算機(jī)視覺運(yùn)算。
在本計(jì)算效率分析中,每個(gè)器件的功耗使用賽靈思的2016.4 版 Power Estimator 工具和英特爾的 16.0.1 版 EPE Power Estimate 工具進(jìn)行估算,并根據(jù)下列假設(shè)得出:
1. 90% DSP 占用率
2. 英特爾器件 - 速度等級(jí)為:2L, 最大頻率下供電電壓為 0.9V
3. 賽靈思器件 - 速度等級(jí)為 1L, 最大頻率下供電電壓為 0.72V
4. 時(shí)鐘速率為 DSP Fmax 時(shí)邏輯利用率為 70%
5. 時(shí)鐘速率為 DSP 最大頻率的一半時(shí),Block RAM 利用率為 90%
6. DSP 翻轉(zhuǎn)率為 12.5%
7. 功耗特征:“典型功耗”
圖 10 所示的即為深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算的能效對(duì)比。與英特爾的 Arria 10 SoC 器件相比,賽靈思器件能讓深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算的計(jì)算效率提高 3-7 倍。
圖 10 :INT8 深度學(xué)習(xí)和計(jì)算機(jī)視覺能效對(duì)比:賽靈思對(duì)比英特爾
結(jié) 論
本白皮書探討了如何在賽靈思 DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)和計(jì)算機(jī)視覺運(yùn)算,從而實(shí)現(xiàn) 1.75 倍的性能提升。賽靈思 DSP48E2 Slice 可用于在共享相同內(nèi)核權(quán)重的同時(shí)處理兩個(gè)并行的 INT8 MACC 運(yùn)算。為高效實(shí)現(xiàn) INT8,需要 24 位輸入寬度,這一優(yōu)勢(shì)只有賽靈思 DSP48E2 Slice 支持。同樣的優(yōu)勢(shì)還能用于計(jì)算機(jī)視覺運(yùn)算,例如過濾任務(wù)及其它圖像操作任務(wù)。賽靈思的 DSP48E2 Slice 的 SIMD 模式為開展四個(gè) 12 位或兩個(gè) 24 位 SIMD 運(yùn)算提供了新的途徑。
總之,賽靈思的 Zynq UltraScale+ MPSoC 非常適用于 INT8 工作負(fù)載,使之成為為嵌入式視覺領(lǐng)域大量應(yīng)用加速的理想選擇。賽靈思不斷創(chuàng)新新的基于軟/ 硬件的方法,以加速嵌入式視覺應(yīng)用領(lǐng)域的深度學(xué)習(xí)和計(jì)算機(jī)視覺功能。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45993 -
嵌入式視覺
+關(guān)注
關(guān)注
8文章
117瀏覽量
59147 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121170
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論