我欲封天耳根小说,神墓辰东小说,完美的世界 1993 电影

在Arm虎視眈眈，RISC-V新秀崛起的處境下，x86處理器內(nèi)部的競爭也進入了白熱化階段。AMD繼推出Zen CPU架構(gòu)以來，總市場份額上正在一步步迎頭趕上，雖說桌面和移動CPU上英特爾與AMD打得有來有回，但服務(wù)器處理器市場份額上，AMD保持著穩(wěn)步增長的態(tài)勢，越來越多的云服務(wù)商和數(shù)據(jù)中心轉(zhuǎn)投了“AMD Yes”的陣營，更是在今年第三季度打破了市占率記錄，達到了16%。盡管英特爾依然占據(jù)著70%以上的市場，面臨多方壓力下，這種優(yōu)勢似乎難以繼續(xù)維持了。

在今年上半年推出了第三代至強可擴展處理器之后，英特爾于近期透露了下一代服務(wù)器處理器“Sapphire Rapids”的更多情報。鑒于我們已經(jīng)在消費級桌面處理器12代酷睿上看到了Intel 7制程帶來的驚艷改進，那么同用這一制程的下一代Xeon處理器，是否也能在明年發(fā)布之際一鳴驚人呢？

新的I/O與內(nèi)存

考慮到Sapphire Rapids定于明年發(fā)售，AMD的新一代EPYC處理器又發(fā)售在即，英特爾并沒有公布太多通用計算性能上的情報。但從英特爾在Innovation 2021和Linley Fall Processor兩場大會上公布的模組化芯片設(shè)計，也能看出Sapphire Rapids并非什么泛泛之輩。

與剛發(fā)布的12代酷睿一樣，Sapphire Rapids 同樣引入了對PCIe 5.0的支持，也在此之上進一步提升了處理器的DDIO和QoS能力。除此之外，CXL 1.1和全新的UPI 2.0也在支持之列。

在服務(wù)器和數(shù)據(jù)中心應(yīng)用上，內(nèi)存也是最容易出現(xiàn)瓶頸的一大組成要素。我們可以從芯片原理圖中可以看出Sapphire Rapids集成了4個內(nèi)存控制器，以此最高支持8通道DDR5內(nèi)存。針對計算或額外開銷特別大的場景，英特爾也提供了旗下傲騰持久內(nèi)存Optane 300系列的支持，作為內(nèi)存支持的同時也可以作為存儲使用。英特爾還將推出支持HBM的版本，提供遠高于8通道DDR5的內(nèi)存帶寬。該版本將提供兩種HBM模式，一種是HBM Flat模式，支持HBM+DDR5混用或是僅用HBM的模式。另一種是HBM緩存模式，將HBM作為DRAM的備用緩存，類似于一個L4緩存。

通用計算中的AI加速

隨著AI逐漸在服務(wù)器工作流中提高占比，AI計算能力成了每個服務(wù)器處理器都躲不開的參數(shù)，這也成了英特爾在宣傳Sapphire Rapids時不離口的話題。第三代至強可擴展處理器中，英特爾在其中內(nèi)置了深度學(xué)習(xí)加速器和AVX-512向量擴展，為int8和bfloat16數(shù)據(jù)的推理和訓(xùn)練提供了支持。而在Sapphire Rapids中，英特爾又加入了兩大全新加速引擎AMX（先進矩陣擴展）和DSA（數(shù)據(jù)流加速器）。

AMX乃是一種全新的切片式指令集擴展，支持以切片運作的加速器，也是英特爾專為張量運算準(zhǔn)備的指令集擴展。該擴展由兩部分組成，切片和加速器。切片由8個2D寄存器堆組成，支持加載、清除和設(shè)為常量等基礎(chǔ)數(shù)據(jù)運算符。每個寄存器堆大小可達1KB，但設(shè)計者也可以根據(jù)自己的算法來減小其規(guī)模。除此之外，英特爾也已經(jīng)確認(rèn)Linux 5.16版本將正式加入對于AMX的支持。

英特爾目前僅發(fā)布了TMUL加速器（切片矩陣乘法單元），但AMX是一個可以繼續(xù)擴展下去的架構(gòu)，未來還可以加入新的加速器，也可以改進現(xiàn)有的TMUL加速器實現(xiàn)更高的性能，從而在單個指令和單個微操作下表達更多的工作，節(jié)省fetch、decode以及OOO的功耗。在測試中，同一個Sapphire Rapids處理器分別使用AMX指令和AVX-512 VNNI，AMX的運算速度是后者的7.8倍。

過去AVX-512的使用中，經(jīng)常會出現(xiàn)功率上去后頻率也隨之降低的情況，不少人也擔(dān)心全新的AMX是否會有類似的情況。英特爾確認(rèn)在快速自動的得當(dāng)電源控制下，AMX不會出現(xiàn)AVX的頻率抖動現(xiàn)象。

在高性能存儲、連接和密集處理的應(yīng)用中，人們總是想找到解放處理器核心來提升整體性能的方式。英特爾在這個需求上推出了DSA數(shù)據(jù)流加速器，DSA可以轉(zhuǎn)移CPU緩存、DDR內(nèi)存以及其他I/O附加設(shè)備的數(shù)據(jù)，它的目標(biāo)是為數(shù)據(jù)轉(zhuǎn)移和轉(zhuǎn)換運算提供更高的總體系統(tǒng)性能，讓CPU周期解放出來完成其他更高級的功能。根據(jù)英特爾給出的數(shù)據(jù)，在OpenvSwitch的虛擬交換機應(yīng)用中，加入DSA分擔(dān)工作流后，CPU占用率降低了39%，數(shù)據(jù)轉(zhuǎn)移性能提高了2.5倍。

至強可以替代GPU嗎？

我們都知道如今的服務(wù)器市場已經(jīng)不是CPU一家獨大的天下了，無論是語音識別還是圖像處理，GPU帶來的AI計算能力滲透進了每一個場景，任意深度學(xué)習(xí)“煉丹師”最先考慮的硬件設(shè)備也是GPU。在英特爾對Sapphire Rapids的描述中，稱其AI性能相較于上一代Ice Lake芯片有了30倍的提升，如此大幅度的提升能夠替代GPU嗎？

英特爾為Sapphire Rapids給出的對比對象為英偉達的A30 GPU，在ResNet-50 v1.5的圖像分類推理中，單個A30的輸出速度為15411張每秒，而兩個Sapphire Rapids的成績達到了24000張每秒以上。這一數(shù)字對比看起來似乎優(yōu)勢巨大，甚至接近于29855張每秒的A100 GPU，但測試中用到的乃是高端Sapphire Rapids型號（40核以上），無論是功耗和價格都要遠超A30。

因而現(xiàn)階段下，仍在使用大量AI負載的服務(wù)器并不會從現(xiàn)有的GPU或ASIC架構(gòu)遷移。不過Sapphire Rapids本身也并非僅針對AI的特化產(chǎn)品，之所以x86 CPU要費心費力地去提高AI性能，也是面向通用計算與AI結(jié)合這樣越來越普遍的輕度AI場景。

小結(jié)

要想把AMD奪去的市場份額奪回來并不容易，英特爾面臨的已經(jīng)不是本世紀(jì)初的雙雄爭霸局面了。Sapphire Rapids可以說是換帥、換制程和換架構(gòu)后的首個服務(wù)器產(chǎn)品，如果不能一鳴驚人的話，不少客戶可能都會被AMD未來更注重成本效能的Zen 4D與Zen 5奪走。而面對Arm、RISC-V、GPU、ASIC等多方入局AI的挑戰(zhàn)，如果英特爾仍想保持x86的霸主地位，也必須加速開發(fā)自身的Xe服務(wù)器GPU，同時繼續(xù)擴展x86下的AI加速器生態(tài)。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴