懒人听书,怎么写网络小说,盗墓笔记小说下载

從數據分析、經典機器學習到搜索、推薦，再到語言處理和圖像識別，每個 AI 任務運行的背后都需要海量的數學計算。可以說，AI 真的就是數學，但卻是很多很多的數學。尤其是在 AI 進入大模型時代的當下，模型的大規模訓練和推理更是對計算資源有著巨大的需求。但同時，算力的掣肘正在阻礙著 AI 走向大規模落地。當前 AI 面臨的“數學題”都是何種難度？“算珠”又該如何撥弄得更快才能追得上不斷增長的計算需求呢？讓我們從 CPU 的 AI 算力談起。

大規模推理時代

深度學習加速的天花板在哪？

人工智能迎來第三次浪潮后，以深度學習為代表的AI已經進入應用階段。而深度學習 AI 需要進行大量矩陣乘法以訓練神經網絡模型，并利用推理將這些模型應用于實際任務。

也就是說，深度學習分為訓練和推理兩個階段，而推理則是推動AI大規模走向落地的關鍵。

訓練深度學習模型可能需要數小時或數天的算力。而深度學習推理可能需要幾分之一秒到幾分鐘，具體取決于模型的復雜程度和對結果的準確度的要求。在推理過程中，計算機將輸入數據與模型進行比較，然后推斷數據的含義。

讓人工智能落地更多是推理層面的工作，無論是推薦引擎、圖像識別、媒體分析、語言翻譯、自然語言處理、強化學習等負載中推理性能的大幅提升對落地應用的貢獻都十分重要。

在此背景下，硬件架構將成為AI落地的重中之重。

而做大規模推理，CPU平臺具有較大優勢——用戶學習門檻低、部署速度快等，在類似推薦系統的應用中，CPU也擔當著算力支撐，那么如何提升CPU的AI算力？

CPU的算力取決于 CPU 特定加速指令集或運算單元的持續引入及改進，那么通過強化算力單元和增加算力單元數量并舉，即Scale-Up與Scale-Out相結合，提升CPU的AI算力。

回望英特爾歷代至強可擴展處理器的深度學習加速技術（即DL Boost），已經將這一提升路徑充分實踐并拉高優化天花板：從第一代至強可擴展處理器引入的AVX-512——中低端型號每核心配備1個FMA單元、高端型號每核心配備2個FMA單元，到代號Ice Lake-SP的雙路第三代至強可擴展處理器將此類配置擴展到全系列產品，并將最高核心數從28增加至40個，CPU的向量處理能力得以大幅提升。

指令優化方面，第二代英特爾至強可擴展處理器引入了簡稱VNNI(Vector Neural Network Instruction，矢量神經網絡指令)的擴展，提高了數據格式INT8推理的效率；代號Cooper Lake的第三代英特爾至強可擴展處理器又引入了數據格式bfloat16（BF16）加速功能，可以用于推理和訓練。目前，前三代英特爾至強可擴展處理器的加速路徑，主要依靠現有的計算單元，即AVX-512，配合指令集、算法和數據上的優化，輸出AI算力。但加速的天花板就到此為止了嗎？

還有別的思路——內置硬件加速器，且與本就高性能的CPU內核無縫配合，疊加buff推高天花板。

硬件直接“貼貼”加速

第四代至強內置多種專用加速器

在今年11月，英特爾宣布將在2023年1月11日發布代號為Sapphire Rapids的全新第四代英特爾至強可擴展處理器。

Sapphire Rapids將為廣泛的標量和并行工作負載提供跨越式的性能提升，更重要的是，它的基本架構旨在實現彈性計算模型（如容器化微服務）的突破性性能，以及在所有形式的以數據為中心的計算中快速擴展 AI 的使用。

第四代英特爾至強可擴展處理器的核心數量有顯著增長，并支持DDR5、PCIe 5.0和CXL 1.1等下一代內存和接口標準，在內置硬件加速上，Sapphire Rapids也集成了5項加速器：

用于AI的高級矩陣擴展（Advanced Matrix Extensions），簡稱AMX；

用于數據分析的存內分析加速器（In-Memory Analytics Accelerator），簡稱IAA；

用于5G/網絡的數據流加速器（Data Streaming Accelerator），簡稱DSA；

用于存儲的動態負載均衡器（Dynamic Load Balancer），簡稱DLB；

用于數據壓縮和加解密的QuickAssist技術，英特爾數據保護與壓縮加速技術，簡稱QAT。

首先，內置加速器可以消除在將數據從 CPU 移至協處理器加速器時產生的大部分開銷。

同時，Sapphire Rapids還引入了加速器接口架構 (AIA)，解決了無縫集成加速引擎和高性能核心時面臨的關鍵挑戰——能夠處理 CPU 內核與內置加速器之間的數據高效調度、同步和信令傳遞，而不是高開銷內核模式。

內置的硬件加速器也易獲得更出色的性能，而不必將時間浪費在進行片外傳輸設置上。

AMX與上述其他4個加速器的一大區別，就是它本身就集成在了CPU核心內，與AVX-512一樣，隨核心數同步增長，線性提升處理能力。

開啟全新計算單元

AMX升維加速深度學習工作負載

AMX與AVX-512又有什么區別？

AMX是全新的計算單元，有自己的存儲和操作電路，并行度高，以便為AI工作負載加速Tensor運算，支持bfloat16和INT8兩種數據類型。

Tensor處理是深度學習算法的核心，AMX功能可以實現每個循環2000次int8運算和1000次bfloat16運算。

同時，AMX的寄存器（名為Tile）是二維的，寄存器組是三維的，均比AVX-512高一個維度，寄存器組存儲的數據相當于一個小型矩陣，這樣AMX 能夠在每個時鐘周期執行更多矩陣乘法以每時鐘周期來看。

理論上，AMX的TMUL（矩陣乘法運算）對AVX-512的2個FMA（融合乘加操作）單元，INT8性能高達8倍；處理浮點數據，AMX使用動態范圍與FP32相當的BF16，性能可達AVX-512的16倍。

如此，有全新可擴展二維寄存器文件和全新矩陣乘法指令，可增強各種深度學習工作負載中推理及訓練性能，也就代表著計算能力的大幅提升，這些計算能力可以通過行業標準框架和運行時無縫訪問。

據今年1月數據表明，基于TensorFlow框架，INT8 精度下每秒檢測的圖像的數量增幅以及高達 6 倍多 BF16 精度下進行對象檢測時每秒檢測的圖像的數量增幅明顯增加：

56核的第四代英特爾至強可擴展處理器全新的AMX，對比40核的第三代英特爾至強可擴展處理器，在SSD-ResNet34上進行實時推理時，每秒處理的圖像數量增加高達4.5倍。（注：實際性能受使用情況、配置和其他因素的差異影響，且性能測試結果基于配置信息中顯示的日期進行的測試[1]）

當然AVX-512本身就以FP32、FP64等高精度浮點數據的運算見長，依然可以專注于如數據分析、科學計算、經典機器學習等高精度計算。

如今第三代人工智能浪潮是以深度學習為代表，并非只有深度學習，AI的范圍正在不斷擴大，計算需求也在多元化，當人工智能的工作負載出現混合精度計算需求，AMX和AVX-512就可搭配使用，發展各自長處。

對于數據精度不高但要求高準確度的推理場景，如圖像識別、推薦引擎、媒體分析、語言翻譯、自然語言處理（NLP）、強化學習等典型AI應用場景，AMX其實屬于降維打擊，可發揮空間很大。

根據預告，英特爾第四代至強可擴展處理器是處理AI等更現代化、更新興并行工作負載的基礎設施，在進行整體設計時也考慮到了未來技術發展趨勢——絕大多數新的可擴展服務將采用容器化微服務等彈性計算模型進行開發。

新版Windows、Linux Kernel和虛擬化軟件也確實都具備支持AMX指令集的條件，所謂“引領”就是要更先一步到達未來。

1月11號，讓我們期待至強新品的發布和更多信息吧~可以先點擊閱讀原文，提前了解至強產品組合~

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

cpu

cpu

+關注

關注
68

文章
10882

瀏覽量
212236
人工智能

人工智能

+關注

關注
1792

文章
47442

瀏覽量
239013
算力

算力

+關注

關注
1

文章
995

瀏覽量
14866

原文標題：明年1月，推高CPU人工智能算力天花板

文章出處：【微信號：AI_Architect，微信公眾號：智能計算芯世界】歡迎添加關注！文章轉載請注明出處。

游戲體驗天花板，一加 Ace 5 系列售價 2299 元起

2024年12月26日,一加正式發布游戲體驗天花板一加Ace5系列——一加Ace5及一加Ace5Pro。一加Ace5系列深度聚焦性能和游戲體驗,搭載驍龍8系旗艦平臺和行業首個自研芯片級游戲技術「風馳

發表于 12-27 10:19 ?274次閱讀

游戲體驗<b class='flag-5'>天花板</b>，一加 Ace 5 系列售價 2299 元起

NPU在深度學習中的應用

設計的硬件加速器，它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優化的處理器，它與傳統的CPU和G

發表于 11-14 15:17 ?695次閱讀

使用EMBark進行大規模推薦系統訓練Embedding加速

推薦系統是互聯網行業的核心系統，如何高效訓練推薦系統是各公司關注的核心問題。目前，推薦系統基本上都是基于深度學習的大規模 ID 類模型，模型包含數十億甚至數百億級別的 ID 特征，典型結構如圖 1 所示。

發表于 10-31 14:46 ?218次閱讀

使用EMBark進行<b class='flag-5'>大規模</b>推薦系統訓練Embedding<b class='flag-5'>加速</b>

GPU深度學習應用案例

能力，可以顯著提高圖像識別模型的訓練速度和準確性。例如，在人臉識別、自動駕駛等領域，GPU被廣泛應用于加速深度學習模型的訓練和推理過程。二、自然語言處理自然語言處理（NLP）是

發表于 10-27 11:13 ?417次閱讀

FPGA加速深度學習模型的案例

FPGA（現場可編程門陣列）加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速

發表于 10-25 09:22 ?266次閱讀

深度學習GPU加速效果如何

圖形處理器（GPU）憑借其強大的并行計算能力，成為加速深度學習任務的理想選擇。

發表于 10-17 10:07 ?208次閱讀

使用OpenVINO C++在哪吒開發板上推理Transformer模型

OpenVINO 是一個開源工具套件，用于對深度學習模型進行優化并在云端、邊緣進行部署。它能在諸如生成式人工智能、視頻、音頻以及語言等各類應用場景中加快深度學習

發表于 10-12 09:55 ?367次閱讀

【「大模型時代的基礎架構」閱讀體驗】+ 第一、二章學習感受

如下圖所示。無論是CPU還是GPU，所有運算過程的中間結果都需要被保存到內存中，而TPU根本沒有將中間結果保存到內存中，而是在執行完畢后直接將中間結果傳遞給下一步驟，因此TPU是一種加速大規模矩陣運算

發表于 10-10 10:36

《黑神話：悟空》8月20日發售，海信電視Mini LED電視天花板中板現身！

更是摩拳擦掌、躍躍欲試。作為《黑神話:悟空》官方全球合作伙伴,海信電視在8月開啟“寵粉月”,通過社交媒體、電商平臺等線上渠道,并聯動線下門店和體驗活動,為玩家們解鎖游戲的酣暢體驗與多重心動好禮。 Mini LED電視天花板中板現身,神秘豪禮送不停作

發表于 08-19 17:15 ?444次閱讀

新品速遞 | TOF反射型光電，突破檢測距離天花板

新品速遞 | TOF反射型光電，突破檢測距離天花板

發表于 08-13 08:24 ?382次閱讀

FPGA在人工智能中的應用有哪些？

FPGA（現場可編程門陣列）在人工智能領域的應用非常廣泛，主要體現在以下幾個方面：一、深度學習加速訓練和推理過程加速：FPGA可以用來

發表于 07-29 17:05

深度學習編譯器和推理引擎的區別

深度學習編譯器和推理引擎在人工智能領域中都扮演著至關重要的角色，但它們各自的功能、應用場景以及優化目標等方面存在顯著的差異。以下是對兩者區別的詳細探討。

發表于 07-17 18:12 ?1286次閱讀

深度學習模型量化方法

深度學習模型量化是一種重要的模型輕量化技術，旨在通過減少網絡參數的比特寬度來減小模型大小和加速推理過程，同時盡量保持模型性能。從而達到把模型部署到邊緣或者低算力設備上，實現降本增效的目

發表于 07-15 11:01 ?506次閱讀

深度學習與nlp的區別在哪

深度學習和自然語言處理（NLP）是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系，也有區別。本文將介紹深度學習與NLP的區別。深度

發表于 07-05 09:47 ?981次閱讀

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

，大語言模型還具備出色的關聯和關系理解能力，能夠捕捉數據間的隱含關系和語義聯系，進行高級關聯推理。它還支持多步推理，能在推理過程中進行多個步驟的演繹和分析。最后，通過學習

發表于 05-04 23:55

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

大規模推理時代深度學習加速的天花板在哪？

評論

游戲體驗天花板，一加 Ace 5 系列售價 2299 元起

NPU在深度學習中的應用

使用EMBark進行大規模推薦系統訓練Embedding加速

GPU深度學習應用案例

FPGA加速深度學習模型的案例

深度學習GPU加速效果如何

使用OpenVINO C++在哪吒開發板上推理Transformer模型

【「大模型時代的基礎架構」閱讀體驗】+ 第一、二章學習感受

《黑神話：悟空》8月20日發售，海信電視Mini LED電視天花板中板現身！

新品速遞 | TOF反射型光電，突破檢測距離天花板

FPGA在人工智能中的應用有哪些？

深度學習編譯器和推理引擎的區別

深度學習模型量化方法

深度學習與nlp的區別在哪

【大語言模型：原理與工程實踐】揭開大語言模型的面紗