回望過去一年,科技處于所有人如何溝通、工作、娛樂和應對新冠肺炎疫情的核心。事實證明,強大的計算能力至關重要。展望未來,我們面臨龐大的算力需求。
在2021年英特爾架構日活動上,英特爾重磅介紹其全新引領行業標準的數據中心架構Sapphire Rapids,搭載了全新的性能核以及多種加速器引擎。同時詳細介紹了英特爾全新的基礎設施處理器(IPU)以及超凡的數據中心GPU架構Ponte Vecchio,其具備英特爾迄今為止最高的計算密度。這些新架構將為即將推出的高性能產品注入動力,并為英特爾的下一個創新時代奠定基礎,以滿足世界對高計算能力日益增長的需求。
下一代英特爾至強可擴展處理器(代號為“Sapphire Rapids”)
Sapphire Rapids代表了業界在數據中心平臺上的一大進步。該處理器可在不斷變化且要求日益增高的數據中心使用中提供可觀的計算性能,并對工作負載進行優化,以在云、微服務和AI等彈性計算模型上提供高性能。
Sapphire Rapids的核心是一個分區塊、模塊化的SoC架構,采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術,在保持單晶片CPU接口優勢的同時,具有顯著的可擴展性。Sapphire Rapids提供了一個單一、平衡的統一內存訪問架構,每個線程均可完全訪問緩存、內存和I/O等所有單元上的全部資源,由此實現整個SoC具有一致的低時延和高橫向帶寬。
Sapphire Rapids基于Intel 7制程工藝技術,采用英特爾全新的性能核微架構,該架構旨在提高速度,突破低時延和單線程應用性能的極限。
Sapphire Rapids提供業界廣泛的數據中心相關加速器,包括新的指令集架構和集成IP,以在各種客戶工作負載和使用中提升性能。新的內置加速器引擎包括:
·英特爾?加速器接口架構指令集(AIA)——支持對加速器和設備的有效調度、同步和信號傳遞
·英特爾?高級矩陣擴展(AMX)——Sapphire Rapids中引入的新加速引擎,可為深度學習算法核心的Tensor處理提供大幅加速。其可以在每個周期內進行2000次INT8運算和1000次BFP16運算,實現計算能力的大幅提升。使用早期的Sapphire Rapids 芯片,與使用英特爾AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾AMX 指令集擴展優化的內部矩陣乘法微基準測試的運行速度提高了7 倍以上,為AI 工作負載中的訓練和推理上提供了顯著的性能提升
·英特爾?數據流加速器(DSA)——旨在卸載最常見的數據移動任務,這些任務會導致數據中心規模部署中的開銷。英特爾DSA改進了對這些開銷任務的處理,以提供更高的整體工作負載性能,并可以在CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據
這些架構上的改進使Sapphire Rapids能夠為云、數據中心、網絡和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。該處理器旨在通過先進的內存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技術,來推動行業技術轉型。
基礎設施處理器(IPU)
IPU是一種可編程的網絡設備,旨在使云和通信服務提供商減少在中央處理器(CPU)方面的開銷,并充分釋放性能價值。
英特爾基于IPU的架構有以下主要優勢:
·基礎設施功能和客戶工作負載的強分離使客戶能夠完全控制CPU
·云運營商可以將基礎設施任務卸載到IPU上,更大化實現CPU利用率和收益
·IPU可以管理存儲流量,減少時延,同時通過無磁盤服務器架構有效利用存儲容量。借助IPU,客戶可以通過一個安全、可編程、穩定的解決方案更好地利用資源,使其能夠平衡處理與存儲
英特爾認識到“單一產品無法滿足所有需求”,因此對其IPU架構進行了更深入的研究,并推出了以下IPU家族的新成員——均為應對多樣化數據中心的復雜性而設計。
Mount Evans是英特爾的首個ASIC IPU。Mount Evans是與一家一流的云服務提供商共同設計和開發的,它融合了多代FPGASmartNIC的經驗。
·超大規模就緒,提供高性能網絡和存儲虛擬化卸載,同時保持高度控制
·提供業界一流的可編程數據包處理引擎,支持防火墻和虛擬路由等用例
·使用硬件加速的NVMe存儲接口,該接口擴展自英特爾傲騰技術,以模擬NVMe設備
·采用英特爾?高性能Quick Assist技術,部署高級加密和壓縮加速
·可使用現有普遍部署的DPDK、SPDK等軟件環境進行編程,并且可以采用英特爾Barefoot Switch部門開創的P4編程語言來配置管線
Oak Springs Canyon是一個IPU參考平臺,基于英特爾?至強D 處理器(Intel? Xeon-D)和擁有業界領先的功率、效率、性能的英特爾? Agilex?FPGA構建:
·卸載Open Virtual Switch(OVS)等網絡虛擬化功能以及NVMe over Fabric和RoCE v2等存儲功能,并提供硬化的加密模塊,提供更安全、高速的2x 100Gb以太網網絡接口
·讓英特爾的合作伙伴和客戶能夠使用英特爾?開放式FPGA開發堆棧(英特爾?OFS)定制其解決方案,這是一款可擴展、開源軟件和硬件基礎設施
·使用現有普遍部署的軟件環境進行編程,包括已在x86上優化的DPDK和SPDK
英特爾N6000加速開發平臺,代號為“Arrow Creek”,是專為搭載至強服務器設計的SmartNIC。其特性包括:
·在功耗、效率和性能方面處于行業領先地位的英特爾Agilex FPGA。用于高性能的100GB網絡加速的英特爾以太網800系列控制器
·支持多種基礎設施工作負載,使通信服務提供商(CoSP)能夠提供靈活的加速工作負載,如Juniper Contrail、OVS和SRv6,它以英特爾PAC-N3000的成功為基礎,該產品已在部分業界一流的CoSP中部署。
XeHPC和Ponte Vecchio
Ponte Vecchio基于XeHPC微架構,提供業界領先的每秒浮點運算次數(FLOPs)和計算密度,以加速AI、HPC和高級分析工作負載。英特爾公布了XeHPC微架構的IP模塊信息;包括每個Xe核的8個矢量和矩陣引擎(稱為XMX XeMatrix eXtensions);切片和堆棧信息;以及包括計算、基礎和XeLink單元的處理節點的單元信息。在架構日上,英特爾表示,早期的Ponte Vecchio 芯片展示了領先的性能,在流行的AI 基準測試中創造了推理和訓練吞吐量的行業記錄。1英特爾A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的內存結構帶寬,以及高于2 TBps的連接帶寬。同時,英特爾分享了一段演示視頻,展示了ResNet推理性能超過43,000張圖像/秒和超過每秒3400張圖像/秒的ResNet訓練,并且這兩項性能都有望實現行業領先。1
Ponte Vecchio由多個復雜的設計組成,這些設計以單元形式呈現,然后通過嵌入式多芯片互連橋接(EMIB)單元進行組裝,實現單元之間的低功耗、高速連接。這些設計均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速MDFI互連允許1到2個堆棧的擴展。
計算單元是一個密集的多個Xe內核,是Ponte Vecchio的核心。
·一塊單元有8個Xe內核,總共有4MB一級緩存,是提供高效計算的關鍵
·基于臺積電先進的N5制程工藝技術
·英特爾已通過設計基礎設施設置和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路
·該單元具有極其緊湊的36微米凸點間距,可與Foveros進行3D堆疊
基礎單元是Ponte Vecchio的連接組織。它是基于Intel 7制程工藝的大型芯片,針對Foveros技術進行了優化。
·基礎單元是所有復雜的I/O 和高帶寬組件與SoC 基礎設施——PCIe Gen5、HBM2e 內存、連接不同單元MDFI鏈路和EMIB橋接
·采用高2D互連的超高帶寬3D連接時延很低,使其成為一臺無限連接的機器
·英特爾技術開發團隊致力于滿足帶寬、凸點間距和信號完整性方面的要求
Xe鏈路單元提供了GPU之間的連接,支持每單元8個鏈路。
·對HPC和AI計算的擴展至關重要
·旨在實現支持高達90G的更高速SerDes
·該單元已被添加到“極光”(Aurora)百億億次級超級計算機的擴展解決方案中
Ponte Vecchio已走下生產線進行上電驗證,并已開始向客戶提供限量樣品。Ponte Vecchio預計將于2022年面向HPC和AI市場發布。
fqj
-
處理器
+關注
關注
68文章
19329瀏覽量
230142 -
英特爾
+關注
關注
61文章
9978瀏覽量
171922 -
數據中心
+關注
關注
16文章
4794瀏覽量
72195
發布評論請先 登錄
相關推薦
評論