在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英特爾AVX-512VNNI技術解析

科技見聞網 ? 來源:科技見聞網 ? 作者:科技見聞網 ? 2022-03-31 14:08 ? 次閱讀

英特爾AVX-512VNNI技術解析

高級矢量擴展指令集(AdvancedVector ExtensionsAVX)是x86架構微處理器中的SIMD指令集。英特爾AVX-512顧名思義寄存器位寬是512b,可以支持16路32b單精度浮點數或64路8b整型數。

英特爾至強可擴展處理器通過英特爾深度學習加速(英特爾DLBoost)進一步提升了AI計算性能。英特爾深度學習加速包含英特爾AVX-512VNNI(VectorNeural Network Instructions),是對標準英特爾AVX-512指令集的擴展。

如何理解英特爾AVX-512技術,還要從SIMD指令集說起。SIMD是單指令流多數據流操作(SingleInstruction Stream, Multiple Data Stream)的縮寫,相對應的是SISD單指令流單數據流(SingleInstruction Stream, Single Data Stream)。相較于傳統的單指令單數據指令,SIMD指令使得一條指令可以完成多組數據的操作。單指令單數據流和單指令多數據流區別如下圖所示:

英特爾AVX-512VNNI技術解析

英特爾AVX指令集的前世今生

英特爾AVX-512VNNI技術解析

英特爾最早發布的SIMD指令集是MMX指令集:

1996年,英特爾發布了基于新版P55C架構的PentiumMMX系列處理器,其中引入了新的MMX指令集,開始支持SIMD。PentiumMMX系列處理器上新引入的MMX指令集開創了x86處理器支持SIMD操作的先河,該指令集定義了8個64-bit寬度的寄存器,每個寄存器的64-bit容量中可以放入八個8-bit長度的整數或四個16-bit長度整數或兩個32-bit整數,CPU在識別到MMX指令集的新指令時會自動將寄存器中的數據進行分割計算,這樣一來,單個指令就成功操作了多個數據,實現了SIMD。

英特爾AVX-512指令集實際上分成不同的擴展,用來實現不同的操作。具體的擴展如下:

AVX-512 Foundation

AVX-512 Conflict Detection Instructions (CD)

AVX-512 Exponential and Reciprocal Instructions (ER)

AVX-512 Prefetch Instructions (PF)

AVX-512 Vector Length Extensions (VL)

AVX-512 Byte and Word Instructions (BW)

AVX-512 Doubleword and Quadword Instructions (DQ)

AVX-512 Integer Fused Multiply Add (IFMA)

AVX-512 Vector Byte Manipulation Instructions (VBMI)

AVX-512 Vector Neural Network Instructions Word variable precision (4VNNIW)

AVX-512 Fused Multiply Accumulation Packed Single precision (4FMAPS)

VPOPCNTDQ

VPCLMULQDQ

AVX-512 Vector Neural Network Instructions (VNNI)

AVX-512 Galois Field New Instructions (GFNI)

AVX-512 Vector AES instructions (VAES)

AVX-512 Vector Byte Manipulation Instructions 2 (VBMI2)

AVX-512 Bit Algorithms (BITALG)

AVX-512 Bfloat16 Floating-Point Instructions (BF16)

AVX-512 Half-Precision Floating-Point Instructions (FP16)

通過以上這些指令集擴展,讓英特爾至強可擴展處理器家族在音視頻處理、游戲、科學計算、數據加密壓縮以及深度學習等場景中擁有了出色的表現。

英特爾AVX-512VNNI(VectorNeural Network Instructions)

英特爾AVX-512VNNI(VectorNeural NetworkInstructions)是英特爾深度學習加速一項重要的內容,也是對標準英特爾AVX-512指令集的擴展。可以將三條指令合并成一條指令執行,更進一步的發揮新一代英特爾至強可擴展處理器的計算潛能,提升INT8模型的推理性能。目前第2代和第3代英特爾至強可擴展處理器均支持英特爾VNNI。

未使用VNNI的平臺需要vpmaddubsw、vpmaddwd和vpaddd指令才能完成INT8卷積運算中的乘累加:

英特爾AVX-512VNNI技術解析

而擁有VNNI的平臺上則可以使用一條指令vpdpbusd完成INT8卷積操作:

英特爾AVX-512VNNI技術解析

英特爾深度學習加速VNNI加速推薦系統中的矢量召回

下面介紹一個具體的使用場景:英特爾深度學習加速VNNI加速推薦系統中的矢量召回。

眾所周知,推薦系統需要解決的問題是:如何為既定用戶生成一個長度為K的推薦列表,并使該推薦列表盡量(高準確性)、盡快(低延遲)地滿足用戶的興趣和需求?常規的推薦系統包含兩部分:矢量召回(vectorrecall)和重排(ranking)。前者從龐大的推薦池里粗篩出當前用戶最可能感興趣的幾百或幾千條內容,并將結果交由后者的排序模塊進一步排序,得到最終推薦結果。

英特爾AVX-512VNNI技術解析

矢量召回可以轉換成高緯度的矢量相似性搜索問題。HNSW(HierarchicalNavigable Small World)算法是基于圖結構的ANN(ApproximateNearest Neighbor)矢量相似度搜索算法之一,也是速度最快精度最高的算法之一。

英特爾AVX-512VNNI技術解析

矢量原始數據的數據類型常常是FP32。對于很多業務(如圖片檢索),矢量數據是可以用INT8/INT16表示而且量化誤差對最終搜集結果影響有限。這時可以使用VNNI intrinsic 指令實現矢量INT8/INT16 的內積計算。大量實驗表明QPS性能有較大的提升,而且召回率幾乎不變。QPS提升的原因一方面是 INT8/INT16訪問帶寬比 FP32少很多,另一方面距離計算部分由于使用 VNNI指令得以加速。

當數據集比較大時(如1億到10億數據量級范圍),傳統的做法是將數據集切片,變成幾個較小的數據集,每個數據集單獨獲取topK,最后再合并。由于增加了多個機器之間的通信,增加延遲的同時降低了QPS。在大數據集上使用HNSW方案的最佳實踐是:盡量不切片,在完整的數據集上建立索引和執行搜索,可獲得最佳性能。當數據集過大,內存空間不夠時,可以考慮使用英特爾傲騰持久內存解決。

Super-FusedBERT技術解析

BERT介紹

BERT(BidirectionalEncoder Representations fromTransformers,基于變換器的雙向編碼器表示技術)是2018年谷歌公司提出的NLP(Naturallanguageprocessing,自然語言處理)學科的新技術。谷歌正在利用BERT來更好地理解用戶搜索語句的語義。2020年的一項文獻調查得出結論:“在一年多一點的時間里,BERT已經成為NLP實驗中無處不在的基線”,算上分析和改進模型的研究出版物超過150篇。

BERT的創新點在于它將雙向Transformer用于語言模型,之前的模型是從左向右輸入一個文本序列,或者將left-to-right和right-to-left的訓練結合起來。實驗的結果表明,雙向訓練的語言模型對語境的理解會比單向的語言模型更深刻,BERT使用了一種新技術叫做MaskedLM(MLM),在這個技術出現之前是無法進行雙向語言模型訓練的。

英特爾AVX-512技術加速新浪廣告業務

通過使用英特爾AVX-512實現Super-FusedBert優化方案

一、利用Intel MKL高性能數學庫

MKL是Intel發布的高性能數學庫,適用于科學計算,工程和金融領域。經過多年的打磨,MKL已經是x86平臺上性能最好的數學庫之一。借助MKL可以最大限度的發揮出Xeon處理器的硬件性能,幫助加速Bert模型的推理。

英特爾AVX-512VNNI技術解析

圖 MKL高性能數學庫

深度學習模型中存在大量矩陣乘法(GEMM)這種計算密集操作,可以直接使用MKL的cblas_sgemm接口

此外,MKL還提供了一種新的GEMM接口,叫PackedAPI。這種API可以對輸入的矩陣進行預處理(Pack),進一步提高GEMM的效率。

英特爾AVX-512VNNI技術解析

圖 MKLPacked API性能曲線

對于Bert模型,在其推理時權重是固定的,因此可以對權重進行重排,使用MKL的PackedAPI進行模型推理加速。

二、利用Intel oneDNN開源深度學習加速庫

oneDNN是Intel開源的深度學習加速庫,同樣可以支持不同的計算設備,如CPU,GPU等。oneDNN抽象了以下幾個概念:

Primitive:一種DNN算子的底層原語,支持matmul,convolution等。

Memory:對Primitive使用的內存的抽象,存在多種布局,不同的內存布局也會影響

Primitive:的執行效率。

Engine:底層計算設備抽象,可支持 CPU, GPU。

Stream:Engine中Primitive的隊列。

英特爾AVX-512VNNI技術解析

圖 oneDNN結構

oneDNN中支持了大量常用的深度學習算子。Bert中使用的softmax,layernorm,gelu也都在oneDNN的Primitive中找到相應的實現。

三、使用AVX-512技術進行算子融合

在深度學習框架中,一個模型由多個算子組成,這些算子執行都服從深度學習中調度器的調度。冗余的算子會增加調度開銷,進而影響執行效率。并且算子實現中可能還有很多不必要的訪存和內存分配。因此在針對推理的優化中,減少算子數量非常必要。

英特爾AVX-512VNNI技術解析

圖 算子融合示意圖

除此之外,深度學習模型中,計算密集的算子(matmul,conv)后面會跟一個element-wise的操作(激活函數relu)。這些element-wise的操作可以在計算密集算子計算的過程中完成,而不必等到計算密集算子完全計算完后再進行。這種優化也叫算子融合。

在Bert模型中,matmul,biasadd,gelu的組合可以使用oneDNN的matmulprimitive算子結合追加post_op來完成。

oneDNN的matmulprimitive可以進行多維tensor的乘法操作,并附加融合bias加法。

四、訪存優化

由于CPU架構的特點,越靠近CPU的存儲越快,體積越小。因此高效利用緩存對程序性能非常重要。

英特爾AVX-512VNNI技術解析

圖 CPUcache結構示意圖

這就要求算子在實現的過程中能夠盡可能減少內存占用,進而減少cache的換出,提高cache利用率。

在Bert的self-attention中,對于q、k、v的計算中存在轉置操作。通過下圖可以清楚的看到,每一個q、k、v在經過一個線性層后,都會按照head進行split并轉置。在self-attention最后和v進行點積后,還需要一個轉置來擺放數據。

英特爾AVX-512VNNI技術解析

圖self-attention圖結構

其實通過分析圖結構的計算流程,我們可以將上面的轉置消除。如下圖,原來的數據是按紅色方框的方式存放,但是BatchMatmul需要用到的數據位于綠色方塊中。因此我們可以使用MKL的batch_sgemm接口,將參數stride指定為64*12。這樣就可以避免轉置帶來的內存占用和訪存開銷。

英特爾AVX-512VNNI技術解析

圖消除self-attention轉置

性能優化數據

在Intel第三代Xeon處理器IceLake8358P上,我們對Super-FusedBert進行了性能測試:

Bertbase model 參數:

英特爾AVX-512VNNI技術解析

數據對比:

英特爾AVX-512VNNI技術解析

通過數據對比分析,經過優化后的Bert-base模型在第三代Xeon處理器IceLake8358P比優化前節省了大約四分之三的時長,分別從40ms優化到10.5ms、43ms優化到9.2ms。

這種優化對于滿足實時在線服務推理的延遲要求有著十分顯著的作用,有利于業務部門搭建基于Bert模型的業務,提高了集群中CPU利用率。

*實際性能受使用情況、配置和其他因素的差異影響。更多信息請見www.Intel.com/PerformanceIndex性能測試結果基于配置信息中顯示的日期進行測試,且可能并未反映所有公開可用的更新。

詳情請參閱配置信息披露。沒有任何產品或組件是絕對安全的。

英特爾技術可能需要啟用硬件、軟件或激活服務。

具體成本和結果可能不同。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10007

    瀏覽量

    172220
  • 微處理器
    +關注

    關注

    11

    文章

    2274

    瀏覽量

    82700
  • 指令集
    +關注

    關注

    0

    文章

    227

    瀏覽量

    23426
收藏 人收藏

    評論

    相關推薦

    世紀大并購!傳高通有意整體收購英特爾英特爾最新回應

    電子發燒友網報道(文/吳子鵬)9月21日,《華爾街日報》發布博文稱,高通公司有意整體收購英特爾公司,而不是僅僅收購芯片設計部門。“最近幾天,高通已經接觸了芯片制造商英特爾。”報道稱,這筆交易還遠未
    的頭像 發表于 09-22 05:21 ?3040次閱讀
    世紀大并購!傳高通有意整體收購<b class='flag-5'>英特爾</b>,<b class='flag-5'>英特爾</b>最新回應

    英特爾推出全新英特爾銳炫B系列顯卡

    備受玩家青睞的價格提供卓越的性能與價值1,很好地滿足現代游戲需求,并為AI工作負載提供加速。其配備的英特爾Xe矩陣計算引擎(XMX),為新推出的XeSS 2提供強大支持。XeSS 2的三項核心技術協同工作,共同提高性能表現、增強視覺流暢性并加快響應速度。 “ ? 全新
    的頭像 發表于 12-07 10:16 ?898次閱讀
    <b class='flag-5'>英特爾</b>推出全新<b class='flag-5'>英特爾</b>銳炫B系列顯卡

    英特爾CEO Gelsinger宣布退休

    聯席首席執行官,以確保公司的平穩過渡。目前,英特爾的董事會正在積極尋找合適的人選,以填補這一重要職位的空缺。 Pat Gelsinger在英特爾度過了超過四十年的職業生涯,他的成長歷程堪稱傳奇。從最初的一名普通員工,他憑借出色的才華和不懈的努力,逐步晉升為首席
    的頭像 發表于 12-03 10:55 ?271次閱讀

    英特爾考慮出售Altera股權

    近日,英特爾(Intel)正積極尋求出售其可編程芯片制造子公司Altera的股權,并考慮引入戰略投資或PE投資。據悉,英特爾對Altera的估值約為170億美元,而英特爾于2015年以167億美元的價格收購了這家公司。
    的頭像 發表于 10-21 15:42 ?514次閱讀

    英特爾IT的發展現狀和創新動向

    AI大模型的爆發,客觀上給IT的發展帶來了巨大的機會。作為把IT發展上升為戰略高度的英特爾,自然在推動IT發展中注入了強勁動力。英特爾IT不僅專注于創新、AI和優化,以及英特爾員工、最終用戶和
    的頭像 發表于 08-16 15:22 ?632次閱讀

    英特爾是如何實現玻璃基板的?

    。 雖然玻璃基板對整個半導體行業而言并不陌生,但憑借龐大的制造規模和優秀的技術人才,英特爾將其提升到了一個新的水平。近日,英特爾封裝測試技術開發(Assembly Test Techn
    的頭像 發表于 07-22 16:37 ?390次閱讀

    英特爾攜手日企加碼先進封裝技術

    英特爾公司近日在半導體技術領域再有大動作,加碼先進封裝技術,并與14家日本企業達成深度合作。此次合作中,英特爾創新性地租用夏普閑置的LCD面板廠,將其作為先進半導體
    的頭像 發表于 06-11 09:43 ?433次閱讀

    英特爾CEO:AI時代英特爾動力不減

    英特爾CEO帕特·基辛格堅信,在AI技術的飛速發展之下,英特爾的處理器仍能保持其核心地位。基辛格公開表示,摩爾定律仍然有效,而英特爾在處理器和芯片
    的頭像 發表于 06-06 10:04 ?476次閱讀

    英特爾加大玻璃基板技術布局力度

    近日,全球領先的半導體制造商英特爾宣布,將大幅增加對多家設備和材料供應商的訂單,旨在生產基于玻璃基板技術的下一代先進封裝產品。這一戰略舉措預示著英特爾對于未來封裝技術的深度布局和堅定信
    的頭像 發表于 05-20 11:10 ?552次閱讀

    借助英特爾DLB技術優化網絡性能

    英特爾? DLB技術的出現,無疑為數據處理和網絡傳輸領域帶來了一場革命性的變革。通過其獨特的負載均衡、數據包調度優先排序以及降低網絡流量時延的能力,英特爾? DLB顯著提升了高數據包速率應用的性能,為各行各業注入了新的活力。
    的頭像 發表于 03-11 09:52 ?710次閱讀

    英特爾:2025年全球AIPC將超1億臺占比20%

    英特爾行業資訊
    北京中科同志科技股份有限公司
    發布于 :2024年02月29日 09:15:26

    英特爾1nm投產時間曝光!領先于臺積電

    英特爾行業芯事
    深圳市浮思特科技有限公司
    發布于 :2024年02月28日 16:28:32

    第五代英特爾至強,以卓越性能為多元化工作負載“保駕護航”

    型號上的三級緩存容量增大了三倍 ·?在AI工作負載中具備領先性能 ·?在多線程和輕線程工作負載中均有出色表現 ·?支持英特爾AMX、AVX-512VNNI和BFloat 16 ·?支持CXL Type 3存儲設備
    的頭像 發表于 02-28 09:50 ?516次閱讀

    英特爾首推面向AI時代的系統級代工—英特爾代工

    英特爾首推面向AI時代的系統級代工——英特爾代工(Intel Foundry),在技術、韌性和可持續性方面均處于領先地位。
    的頭像 發表于 02-25 10:38 ?602次閱讀
    <b class='flag-5'>英特爾</b>首推面向AI時代的系統級代工—<b class='flag-5'>英特爾</b>代工

    英特爾登頂2023年全球半導體榜單之首

    英特爾行業芯事
    深圳市浮思特科技有限公司
    發布于 :2024年02月01日 11:55:16
    主站蜘蛛池模板: 国产精品嫩草影院一二三区 | 国产无圣光高清一区二区 | 99精品久久久久久久婷婷 | 国产美女精品视频免费观看 | 一级不卡毛片免费 | h视频免费网站 | 天堂资源在线种子资源 | 午夜网站视频 | 中文字幕一区视频 | 东莞a级毛片 | 午夜影院观看 | www.xxxx欧美| 亚洲成在人天堂一区二区 | 天天天天添天天拍天天谢 | 亚洲一区二区三区电影 | 人人看人人鲁狠狠高清 | 久久久久久国产精品免费免 | 四虎影院视频在线观看 | 久久精品夜夜夜夜夜久久 | 国产日本久久久久久久久婷婷 | 美女拍拍拍爽爽爽爽爽爽 | 你懂的免费在线观看 | 97爱爱爱| 性网站视频 | 成人伊人亚洲人综合网站222 | 亚洲黄色网址 | 国产男人午夜视频在线观看 | 成人精品视频一区二区三区 | 韩国三级hd中文字幕 | 国产午夜视频在线观看 | 免费在线观看一级片 | 久久伊人影视 | 一本到中文字幕高清不卡在线 | 999毛片免费观看 | 夜夜爱夜夜爽夜夜做夜夜欢 | 亚洲无线视频 | 看片久久| 特黄特色大片免费视频播放 | 亚洲欧美日本综合 | 成人综合在线观看 | 2020av在线播放 |