第四代英特爾 至強 可擴展處理器內置了強大的加速器,幫助我們將 e4 云服務器的性能提升至新的水平,其不僅能夠滿足大數據、數據庫等場景需求,在 AI 推理、云原生、高性能計算等更多場景下也有著不俗表現。通過 e4 具備的優秀計算性能、彈性伸縮和分布式存儲等特點,企業能夠高效開發和運行高負載的復雜應用以及 AI 服務,加速數字化轉型。
— 沈鷗
青云科技副總裁
"解決方案概述
為了應對數字化轉型帶來的重重挑戰,用戶希望獲得更高的性能、更安全的數字化服務、更穩定的基礎平臺。數據中心與云服務提供商必須更加精準且前瞻性地洞察到當前行業正在發生的改變,并通過基礎設施架構優化、采用新一代硬件平臺、技術與服務創新等方式,提供敏捷、靈活、高性能、高可用的解決方案,為用戶數字化轉型之旅提供基礎能力支撐,幫助用戶在商業競爭中贏得先機。
為幫助企業用戶更好地應對云原生趨勢對 IT 架構帶來的挑戰,青云科技推出了搭載第四代英特爾 至強 可擴展處理器的新一代 e4 云服務器。該服務器利用處理器內置的英特爾 高級矩陣擴展(英特爾 AMX)、英特爾 QuickAssist(英特爾 QAT)等特性,加速 AI、數據分析、數據加解密等場景下的處理能力。同時青云還驗證了第四代英特爾 至強 處理器的 In-Memory Analytics Accelerator(英特爾 IAA)、英特爾 Data Streaming Accelerator(英特爾 DSA)、英特爾 Software GuardExtensions(英特爾 SGX)等高級硬件特性對多種應用場景的提升能力。例如,通過英特爾 Software Guard Extensions(英特爾 SGX)等硬件安全特性,可助力企業提升安全保護能力,幫助企業實現云化,加速數字化轉型。
挑戰
在用戶加速擁抱數字化的背景下,越來越多的數據與應用被遷移到云端環境,云平臺相應地承受著越來越大的壓力,這些壓力包括:
負載日趨復雜化、帶來了多元算力需求在現代化的數據中心,負載正在日趨復雜化,人工智能 (AI)、數據壓縮、數據加解密等負載快速增長,通用計算處理這些負載的執行效率不高,帶來了較高的性能壓力。這意味著數據中心需要提供多元化算力,將負載卸載到特定的加速器上,以支持上層應用使用更優架構完成每項任務。
基礎設施規模越來越大、總體擁有成本 (TCO) 持續攀升用戶在云原生等領域的持續投資意味著基礎設施規模的不斷增長,這帶來了大量的服務器采購、運營等成本,在強調可持續發展、精益運營的今天,只有盡可能地提升基礎設施的性能密度,釋放硬件潛能,才能夠更好地控制 TCO 增長,實現更高的投資收益。
數據安全面臨嚴峻挑戰數字化產品、應用和服務都在源源不斷地產生數據,這些數據是企業的重要競爭力,也是企業創新的重要基礎。但是海量的數據如果沒有安全的保護機制,很可能會造成核心數據丟失或泄露,從而使企業業務遭受巨大的沖擊,甚至會讓企業陷進生死存亡的風險境地。數據的安全性如何有效保護,是企業亟需解決的一大難題。
青云 QingCloud 全棧云
助力企業數字化轉型
青云科技是一家技術領先的企業級云服務商與數字化解決方案提供商。自 2012 年創立以來,堅持核心代碼自研,以頂尖的技術實力見長,構建起端到端的數字化解決方案,持續打造云原生最佳實踐。青云科技最早布局混合云市場,無縫打通公有云和私有云,交付一致功能與體驗的混合云,并于 2021 年 3 月登陸上交所科創板。
青云科技堅持自主創新、中立可靠、靈活開放的理念,立足企業現實需求,圍繞 “私有云、公有云、云原生、信創” 四大核心業務線,幫助企業構筑堅實的數字基石,實現全場景自由計算,為數字化創新添加 “云動力”。
在服務層次上,縱向跨越 IaaS、PaaS 和應用平臺的全棧云架構;在服務交付形態上,以統一架構實現公有云、私有云、混合云和托管云的一致化交付與管理;在服務場景縱深上,集結云、網、邊、端一體化能力,實現全域智能數據互聯。
作為青云全棧云方案的重要基石,青云 QingCloud 新一代 e4云服務器實現了性能的大幅提升。該服務器基于第四代英特爾至強 可擴展處理器,實現 CPU 性能提升 50%,存儲 IOPS 性能提升 35%,網絡延遲降低 30%1,支持 AMX、QAT 等指令集擴展,可廣泛應用于 AI 推理、高性能數據庫、高性能計算、大數據、計算密集型開發測試等業務場景。
圖 1. 青云 QingCloud 的全棧云產品架構
第四代英特爾 至強 可擴展處理器加速多種工作負載性能
為了給用戶提供高性能的基礎算力支撐,青云科技利用第四代英特爾 至強 可擴展處理器內置的多種高級硬件特性,優化應用負載性能,釋放了處理器在性能、穩定性、擴展性、安全性等方面的潛力,鑄就卓越基礎設施平臺。
第四代英特爾 至強 可擴展處理器通過創新架構增加了每個時鐘周期的指令,每個插槽多達 56 個核心,支持 8 通道 DDR5 內存,有效提升了內存帶寬與速度,并通過 PCIe 5.0(80 個通道)實現了更高的 PCIe 帶寬提升。第四代英特爾 至強 可擴展處理器提供了現代性能和安全性,可根據用戶的業務需求進行擴展。借助內置的加速器,用戶可以在 AI、分析、云和微服務、網絡、數據庫、存儲等類型的工作負載中獲得優化的性能。通過與強大的生態系統相結合,第四代英特爾 至強 可擴展處理器能夠幫助用戶構建更加高效、安全的基礎設施。
圖 2. 第四代英特爾 至強 可擴展處理器為數據中心提供多種優勢
第四代英特爾 至強 可擴展處理器內置了多種高級硬件特性,能夠滿足用戶的多樣化算力需求。其中,英特爾 AMX 針對廣泛的硬件和軟件優化,通過提供矩陣類型的運算,顯著增加了人工智能應用程序的每時鐘指令數 (IPC),可為深度學習推理和訓練提供顯著的性能提升;英特爾 QAT 面向高性能安全性、私鑰保護和壓縮/解壓縮等場景,能夠將相關負載從 CPU 卸載到 QAT 中,有效提升應用程序和平臺的性能;英特爾 DSA 優化存儲、網絡和分析中常見的流數據移動和轉換操作;英特爾IAA 可以加速數據庫查詢吞吐量和其他類型的工作負載,減少內存占用;英特爾 SGX 能夠更有效地抵御多種類型的攻擊,顯著加強數據安全,滿足對于機密計算的廣泛需求;英特爾同時首次提供了板載 HBM 內存的英特爾 至強 Max 系列處理器,為更廣闊的市場帶來了高帶寬內存。
青云科技與英特爾重點從以下幾個方面入手,驗證第四代英特爾 至強 可擴展處理器對于常見負載的加速能力:
采用英特爾 AMX 提升 AI 性能
第四代英特爾 至強 可擴展處理器內置英特爾 AMX,無需配置額外的硬件即可加速深度學習推理和訓練。英特爾AMX 針對廣泛的硬件和軟件優化,它進一步增強了前代技術 — 矢量神經網絡指令 (VNNI) 和 BF16,從一維向量發展為二維矩陣,以便最大限度地利用計算資源,提高高速緩存利用率,避免潛在的帶寬瓶頸。
青云科技利用英特爾 AMX 提升基于 CPU 的 AI 性能,其支持中小型深度學習訓練模型,大幅提高深度學習訓練和推理性能,適合自然語言處理、推薦系統和圖形識別等工作負載。數據如圖 3 所示,在采用英特爾 AMX 優化之后,在滿足精度的前提下,AI 推理性能模型,包括 Bert、Resnet等,可以提升 4-5 倍6。
圖 3. 啟用英特爾 AMX 前后的吞吐量比較
青云科技同時測試了在 e4 云主機上,通過使用英特爾AMX,進行大模型 ChatGLM-6B 推理的性能表現。數據如圖 4 所示,英特爾 AMX 能夠為 e4 云主機帶來顯著的性能提升,e4 云主機 FP32(啟用 AMX)相較于 e4 云主機 FP32(未啟用 AMX)推理性能提升了約 6.26 倍,推理時延減少了 84.6%7。此外,e4 云主機使用 BF16+FP16模式配合英特爾 AMX 特性有著更佳表現。e4 云主機BF16+FP16(啟用 AMX)相較于 e4 云主機 FP32(啟用AMX)的推理性能提升了約 1.32 倍,相應的推理時延減少了約 25.6%;e4 云主機 BF16+FP16(啟用 AMX)相較于 e4 云主機 FP32(未啟用 AMX)的推理性能提升了 6.85倍,推理時延減少了 88.6%8。與使用 GPU 運行 ChatGLM6B 推理相比,使用 e4 云主機搭配英特爾 AMX 加速器進行 ChatGLM-6B 推理有更好的總體擁有成本 (TCO)。
圖 4. ChatGLM-6B 啟用英特爾AMX 前后的吞吐量比較
采用英特爾 QAT 優化數據壓縮與加解密性能
在虛擬機實時遷移、分布式存儲、負載均衡等應用負載中,數據壓縮與加解密是非常重要的一個處理流程。例如,為了節省存儲空間,存儲系統開啟壓縮功能可有效地提高存儲資源使用率,同時大幅降低采購成本;在負載均衡業務中,HTTPs 在身份驗證、加密通訊等方面的特性帶來了巨大的加解密計算需求;在虛擬機遷移中,開啟壓縮功能進行實時遷移,會在遷移前對內存中的數據進行壓縮,有助于提升虛擬機遷移效率。但同時,數據壓縮與加解密帶來了巨大的性能消耗,不僅影響應用的效率,而且占用了大量的計算資源。
英特爾 QAT 是英特爾面向高性能安全性、私鑰保護和壓縮/解壓縮等場景推出的一個硬件加速技術,能夠將相關負載從 CPU 卸載到 QAT 中,有效提升應用程序和平臺的性能。英特爾 QAT 能夠以硬件方式支持多種對稱數據加密(如 AES)、非對稱公鑰加密(如 RSA、橢圓曲線加密)和數據壓縮服務,在不額外增加 CPU 負載的前提下,提高數據壓縮與加解密效率。
圖 5. ZFS 存儲系統壓縮性能對比9
青云科技首先驗證了英特爾 QAT 對于 ZFS 存儲系統壓縮的加速效果。在英特爾的協助下,青云科技自主開發了支持 QAT + ACOMP 的 ZFS 壓縮補丁,其利用內核態提供的acomp 接口,并調用 deflate 算法來實現壓縮與解壓縮。測試數據如圖 5 所示,在常規壓力測試下,英特爾 QAT 能夠大幅降低寫吞吐與讀吞吐的 CPU 使用率。
隨后,青云科技測試了負載均衡 HAproxy 的性能表現,使用 ab 工具,不斷加大線程數量,對相同配置的 HAproxy 進行壓測,對比 QAT 啟用前后的性能表現,測試數據顯示,在同樣的壓力測試下,開啟 QAT 之后,CPU 消耗更少,另外在大壓力的情況下,開啟 QAT 之后,系統吞吐量增加了約 15%,時延降低了約 10%10。
在 API 網關 OpenResty 的 HTTPs 服務性能測試中,青云科技測試了 QAT 啟用前后的 OpenResty 的數據吞吐性能,數據如圖 6 所示,OpenResty 使用 QAT 后加解密效率提升明顯,其中 4 核 8 線程時提升率最高,達到未啟用前的6.8 倍11。
圖 6. OpenResty HTTPs 服務性能測試
在虛擬機實時遷移測試中,青云科技利用 QAT 技術將壓縮解壓縮卸載至 QAT,來釋放更多的計算資源,以及提升壓縮速度,從而達到提升實時遷移效率的目的。測試數據如圖 7 所示,在無負載情況下,使用 QAT 壓縮相比原壓縮方式,遷移時間減少約 66%,壓縮率增加約 13 倍,數據壓縮時的 CPU 使用率降低約 81%12。
圖 7. QAT 啟用前后虛擬機實時遷移耗時比較
采用英特爾 IAA 加速數據庫
MongoDB、ClickHouse 是當前常見的數據庫應用,其中,MongoDB 是免費開源的跨平臺 NoSQL 數據庫,ClickHouse 則是一個用于聯機分析處理 (OLAP) 的開源列式數據庫。為了在優化數據庫性能的同時持續提升數據庫壓縮率,青云科技采用了英特爾 IAA 進行優化。
英特爾 IAA 是一款硬件加速器,結合分析原始函數,能夠提供出色的吞吐量壓縮和解壓縮性能。英特爾 IAA 主要針對大數據和內存分析數據庫等應用程序,以及內存頁壓縮等應用程序透明用途,能夠在分析查詢處理期間過濾數據。英特爾 IAA 支持零壓縮等輕量級壓縮方案以及霍夫曼編碼和 Deflate 等較重的壓縮算法。對于 Deflate 格式,它支持對壓縮流進行索引,以實現高效的隨機訪問。
MongoDB 的吞吐量測試數據如圖 8 所示,對比 Zlib 壓縮算法,IAA 將性能提升了 85.63% ~ 548.57%,對比Snappy 算法,其性能最高可提升 49.91%13。此外,IAA 在MongoDB 中相較于上述兩種算法,擁有更大的壓縮比,更低的時延,能夠加速大數據查詢過程。
ClickHouse 的測試數據顯示,與 LZ4 相比,IAA 方案提供了 62% 的壓縮效果和 35% 的 QPS 增強效果。與 ZSTD相比,IAA 方案可提供 50% 的 QPS 提高效果,壓縮率下降 16%14。
圖 8. MongoDB 吞吐量測試(越高越好)
通過英特爾 SGX 構建可信環境
在云生態中,用戶廣泛面臨著病毒、木馬、網絡攻擊、數據竊取等安全威脅,大部分傳統的安全方案主要依賴于特權代碼來實現工作負載的隔離和數據的保護,難以防范利用特權代碼漏洞的攻擊,在安全防護能力方面亟待進一步提升。為了解決此問題,青云驗證了第四代英特爾 至強 可擴展處理器內置的英特爾SGX 的安全功能,打造了可信計算環境的能力。
英特爾 SGX 能夠幫助用戶構建基于硬件的數據中心可信執行環境 (TEE)。通過將特權代碼排除在受信任的范圍之外,英特爾 SGX 能夠更有效地抵御多種類型的攻擊。它可顯著加強數據安全,滿足對于機密計算的廣泛需求。英特爾SGX 提供了一種基于硬件的內存加密機制,將內存中的特定應用代碼和數據隔離開來。英特爾 SGX 允許為用戶級代碼分配專用內存區域—飛地 (Encalve),以免受到擁有更高權限的進程的影響。
青云科技的驗證顯示,在云服務器上,可以啟用英特爾SGX 技術來構建可信的密鑰管理服務,提供密鑰計算、交換等復雜的安全計算環境,保護應用與數據的安全。
圖 9. 英特爾 SGX 可支持構建可信環境
利用 HBM 內存加速應用的內存訪問
英特爾 至強 Max 系列處理器是唯一一款基于 x86 的高帶寬內存處理器,為解鎖和加速受內存限制的 HPC 和人工智能工作負載而設計。英特爾至強 Max 系列處理器通過高帶寬內存 (HBM) 為英特爾 至強 可擴展處理器提供增強功能,旨在釋放建模、人工智能、深度學習、高性能計算(HPC) 和數據分析等數據密集型工作負載的性能并提升發現速度。
青云科技選擇 HPL、VASP、lammps 三個軟件,測試在高性能計算 (HPC) 集群中,HBM 內存相較于 DDR 內存的性能提升。以 VASP 為例,該軟件是電子結構計算和量子力學-分子動力學模擬軟件包,是材料模擬和計算物質科學研究中最流行的商用軟件之一。測試數據如圖 10 所示,隨著核心數的增加,使用 HBM 內存的效果提升很明顯,使用HBM 內存 22 核心的性能基本上和 44 核心的 DDR 內存計算效率持平15。
圖 10. HBM 內存與 DDR 內存性能對比(橫坐標為核心數,縱坐標為時間的倒數)
展望
通過搭載第四代英特爾 至強 可擴展處理器,并利用處理器集成的高級硬件特性,青云 QingCloud 新一代 e4 云服務器實現了巨大的性能飛躍,滿足了企業對即時數據高并發、高吞吐量處理、低延遲等需求,通過提供更高性能、更穩定、更高性價比的基礎支撐,幫助企業實現云化,加速數字化轉型。
未來,青云科技還將與英特爾深化合作,進一步針對云計算、隱私計算、數據庫、大數據、AI 等具體場景推動軟硬件協同優化,釋放第四代英特爾 至強 可擴展處理器的潛能,為各行業的不同應用提供專業穩定的系統支撐。雙方還將在云平臺、云存儲、人工智能、軟硬件等多個領域展開了全面的深度合作,共同發揮所長、為中國云計算產業的創新發展高效賦能。
參考資料:
1.數據援引自青云科技內部測試結果。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
2 數據來源自第四代英特爾 至強 可擴展處理器的最大核數(60 核)與第三代英特爾 至強 可擴展處理器的最大核數(40 核)的比較。
3 詳細配置信息請訪問:intel.com/processorclaims,選擇 “第四代英特爾 至強 可擴展處理器”,查看編號 “G2”。實際性能受使用情況、配置和其他因素的差異影響。
4 數據來源自第四代英特爾 至強 可擴展處理器(80 條 PCIe 5.0 通道)與第三代英特爾 至強可擴展處理器(64 條 PCIe 4.0 通道)的比較。
5 詳細配置信息請訪問:intel.com/processorclaims,選擇 “第四代英特爾 至強可擴展處理器”,查看編號 “G1”。實際性能受使用情況、配置和其他因素的差異影響。
6 截至青云科技 2023 年 2 月的測試數據。測試配置:雙路英特爾 至強 鉑金 8480+ 處理器 @ 2.0 GHz,啟用睿頻加速技術,1024 GB 總內存 (32x32 GB 4800MT/s),Ubuntu 22.04。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
7,8 截至青云科技 2023 年 7 月的測試數據。測試配置:e4 云主機,32 核 64g。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
9 截至青云科技 2023 年 5 月的測試數據。測試配置:雙路英特爾 至強鉑金 8458P 處理器 @ 3.80 GHz,512 GB 總內存 (16x32 GB 4800 MT/s),480 GB SATA,3 TB 硬盤,Ubuntu 22.04。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
10 截至青云科技 2023 年 4 月的測試數據。測試配置:第四代英特爾 至強 可擴展處理器,4 核 8G 計算型 e4,Ubuntu 22.04.1。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
11 截至青云科技 2023 年 5 月的測試數據。測試配置:英特爾 至強 鉑金 8458P 處理器,Ubuntu 22.04.2 LTS。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
12 截至青云科技 2023 年 5 月的測試數據。測試配置:雙路英特爾 至強 鉑金 8458P 處理器 @ 3.80 GHz,512 GB 總內存 (16x32 GB 4800 MT/s),480 GB SATA,3 TB 硬盤,Ubuntu 22.04。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
13 截至青云科技 2023 年 5 月的測試數據。測試配置:英特爾 至強 鉑金 8458P 處理器,Ubuntu 22.04.1 LTS。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
14 截至青云科技 2023 年 5 月的測試數據。測試配置:英特爾 至強 鉑金 8458P 處理器,512 GB 總內存 (16x 32 GB 4800 MT/s),Ubuntu 22.04.1 LTS。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
15 截至青云科技 2023 年 5 月的測試數據。測試配置:英特爾 至強 MAX 9432 處理器,500 GB 總內存 (128 GB HBM + 372 GB DDR5),Ubuntu 22.04,英特爾 OneAPI2023,vasp5.4.4。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
實際性能受使用情況、配置和其他因素的差異影響。更多信息請見 www.Intel.com/PerformanceIndex
性能測試結果基于配置信息中顯示的日期進行測試,且可能并未反映所有公開可用的安全更新。詳情請參閱配置信息披露。沒有任何產品或組件是絕對安全的。
具體成本和結果可能不同。
英特爾技術可能需要啟用硬件、軟件或激活服務。
英特爾未做出任何明示和默示的保證,包括但不限于,關于適銷性、適合特定目的及不侵權的默示保證,以及在履約過程、交易過程或貿易慣例中引起的任何保證。
英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。
-
英特爾
+關注
關注
61文章
9964瀏覽量
171765 -
cpu
+關注
關注
68文章
10863瀏覽量
211747
原文標題:第四代至強? 可擴展處理器助青云 QingCloud 新一代e4云服務器實現性能突破
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論