雖然AMD在去年底就發布了覆蓋16核心到96核心,1P到2P配置的新一代EPYC 9004系列處理器,但由于巨大的計算市場涵蓋了眾多不同的應用需求與場景,比如高性能計算要求的產品往往對單核心性能、并行性能、內存帶寬等要求很高,云計算廠商則更在乎核心數量、數據帶寬等,要求計算環境高效、敏捷、可擴展能力強。所以為滿足云計算市場用戶的需求,AMD在今年6月發布了EPYC 9004系列處理器的新產品:采用Zen 4c核心架構,代號“Bergamo”的三款新處理器:EPYC 9754、EPYC 9754S與EPYC 9734。與之前的產品相比,這三款處理器的核心數量更多,最高可以達到128核心,區別在于它們采用的是Zen 4c核心,相比擁有更大L3緩存容量,采用Zen 4核心設計的其他EPYC 9004系列處理器,它們在多核心計算上是否真的更有優勢呢?
降低三級緩存容量、核心數更多
與EPYC 9654、EPYC 9554等處理器采用的Zen 4處理器架構相比,新的Zen 4c核心在TSMC 5nm工藝下,只有2.48平方毫米的面積,相比之前的Zen 4的3.84平方毫米,縮減了35%,這樣將使得AMD有條件在1個CCD中集成16顆Zen 4c核心,并使用8個CCD完成128核心的配置。AMD的數據顯示,擁有16個Zen 4c核心的CCD面積為72.7平方毫米,而8個Zen 4核心的CCD是66.3平方毫米,AMD使用僅多9.6%的面積空間,使得核心數量翻倍。
Zen 4c的核心面積相比Zen 4更小
同時兩款處理器架構在LDQ、STP、微指令緩存、L1、L2、L2 TLB、L2延遲、L3延遲以及執行端的整數性能、浮點性能、ROB、復雜指令計算延遲(FADD、FUML、FMA)、L1 BTB、L2 BTB等方面,均無差別。唯一的差別在于,Zen 4c的L3緩存每核心配置只有2MB,而不是Zen 4的4MB。對需要極高計算密度的客戶而言,更大的L3緩存雖然可以提升性能,但是顯然沒有更多的核心數量更重要,并且L3緩存是每8個核心一起使用16MB。
Zen 4c的架構變化,僅有L3緩存減半一條,其余維持不變。
Zen 4c處理器架構圖,每個CCD中可集成16顆Zen 4c核心,2×16MB三級緩存,每個核心擁有1MB L2二級緩存。
目前AMD推出了3款采用Zen 4c核心的EPYC 97X4處理器,具體型號包含:EPYC 9754、EPYC 9754S和EPYC 9734。這三款處理器都擁有256MB L3緩存,均支持12個DDR5內存通道,可以提供128條PCIe 5.0通道。
EPYC 97X4系列處理器、規格一覽
不同之處在于,雖然EPYC 9754和EPYC 9754S的核心數量都是128個,默認功耗設置均為360W,基礎頻率均為2.25GHz,加速頻率也都為3.1GHz。但EPYC 9754S不支持SMT同步多線程技術,因此只有128個線程,而EPYC 9754則支持SMT,擁有多達256個線程。
定位最低的EPYC 9734則關閉了一組CCD,有112個核心和224個線程,且基礎頻率與加速頻率分別小幅降低到2.2GHz、3.0GHz,默認功耗設置也降低為340W,相比EPYC 9754的360W更低一些。此外這三款處理器也可以根據用戶需求、散熱條件等進行配置,比如功耗可以配置到320W~400W之間。?
基于Zen 4c核心的AMD EPYC 9754(上圖)依然為SP5 LGA6096封裝,與基于Zen 4核心的EPYC 9654(下圖)相同,采用接近正方形的外觀設計,相比第三代EPYC處理器面積更大。?
根據AMD之前的測試顯示,以至強鉑金8490H和8480+(分別有56個和60個CPU核心)為對比對象,128核心、256線程的EPYC 9754在云計算方面的性能最高可以達到對比處理器的2.65倍,最低也能達到1.49倍之多。
EPYC 9754在云計算方面的性能最高可以達到至強鉑金8490H和8480+處理器的最高2.65倍,Ampere Altra 128核心的最高3.7倍。
如果對比已經上市、針對云計算設計的處理器也就是Ampere Altra 128核心的話(采用ARM Neoverse-N1核心),EPYC 9754的性能勝出幅度就更大了,其性能最高可以達到前者的3.7倍,畢竟Ampere Altra 128甚至都不是英特爾至強鉑金8490系列處理器的對手。
在其他性能方面,比如線程性能,容器能力、每瓦特性能方面,AMD都給出了相關的測試數據,EPYC 9754處理器基本上都是以遙遙領先的態勢出現。
不過與采用Zen 4架構的EPYC處理器相比,基于Zen 4c核心的EPYC 97X4系列處理器是否依然具備優勢呢?為此我們特別采用在之前測試中表現出彩的EPYC 9004系列處理器中的旗艦:96核心、192線程設計的EPYC 9654處理器與EPYC 9754處理器進行了對比,讓我們看看擁有更多核心,但三級緩存容量有所減少的EPYC 9754處理器能否戰勝核心數更少,但擁有更大三級緩存容量的EPYC 9654。
我們如何測試
本次測試統一考察的是雙路系統的性能,因此EPYC 9754、EPYC 9654處理器都統一使用了AMD Titanite SP5 2P2U雙路主板。內存方面,兩款處理器單路支持12條內存通道,雙路系統支持24條內存通道,因此我們也為它們采用了24通道內存配置。本次測試所使用的內存為三星DDR5 4800 64GB,內存總數量為24根,內存總容量為1.5TB,搭配美光9300系列企業級NVMe SSD。
本次測試統一考察的是雙路系統的性能,EPYC 9754、EPYC 9654處理器統一采用了AMD Titanite SP5 2P2U雙路主板,12通道、24條內存配置。
接下來我們在Ubuntu 22.04操作系統下,特別采用考察處理器浮點與整數性能、內存性能,以及光線追蹤、渲染等10個專業軟件、13個子項項目對兩款處理器的性能進行了全面測試。
需要提及的是,為了讓讀者更好地了解這兩款處理器在眾多企業級產品中的性能水準,我們還在部分測試中引入了其他處理器已經測試過的成績。它們是128核心、256線程配置的雙路EPYC 9554系統,64核心、128線程配置的雙路EPYC 9374F系統,以及128核心、256線程配置,使用DDR4 3200內存的雙路EPYC 7763系統。后者隸屬第三代EPYC霄龍處理器,采用Zen 3處理器架構、TSMC 7nm生產工藝。
第四代AMD EPYC處理器雙路系統測試平臺一覽
處理器:EPYC 9754 ×2
EPYC 9654 ×2
內存:? 三星DDR5 4800 64GB×24
主板:? AMD Titanite
硬盤:??美光9300系列企業級NVMe SSD
系統:? Ubuntu 22.04
性能測試:SPECrate 2017
SPECrate 2017測試的是單位時間的吞吐量或工作量,這是服務器采購時的主要性能指標,所以服務器廠商和處理器廠商通常提供的是這一測試成績。在SPECrate 2017中包含SPECrate Integer和SPECrate Floating Point,前者測試的是整型并發性能,后者測試的是浮點并發性能。該軟件的一個重要特性是可以調動處理器內的所有核心、線程數參與計算。
接下來我們重點關注了EPYC 9754與EPYC 9654在雙路配置性能上的對比。測試顯示,盡管雙路EPYC 9654系統三級緩存容量更大,擁有192核心、384線程,并且輕松擊敗了其他核心數更少的產品,但由于核心、線程數不如EPYC 9754,因此最終擁有256核心、512線程的EPYC 9754雙路系統在測試成績上擊敗了EPYC 9654。其整數性能相對于EPYC 9654雙路系統領先了多達12.1%,浮點運算性能領先了5.2%。對提供云服務的廠商而言,這是非常有意義的結果,畢竟任何云業務計算都需要占用大量CPU的運算能力,比如直播業務高峰期云服務器中的CPU占用率經常會達到90%以上,因此只有采用具有更強算力的處理器才能保證業務更流暢地在客戶端運行。
性能測試:Stream-Triad
Stream是業界廣為流行的綜合性內存帶寬實際性能測量工具之一。和硬件廠商提供的理論最大內存帶寬不同,通過fortran、C兩種高級且高效的語言編寫完成的Stream,可以在測試中充分發揮出內存的能力。Stream一共包含Copy、Scale、Add 和Triad 這4種操作,其中Triad組合了前面3種操作,所以其測試成績更具參考價值。
從測試結果可以看到,采用DDR5內存的兩款EPYC雙路系統都擁有很大的優勢,畢竟這些系統每一路采用的都是規格大幅提升的12通道DDR5 4800內存系統,單路理論內存帶寬就可以達到460.8GB/s,因此在內存性能測試上,EPYC 9754、EPYC 9654沒有明顯區別,差別很小。前者的測試成績為743502MB/s,后者為741063MB/s,其雙路內存帶寬都在720GB/s以上,遠遠高于使用DDR4 3200內存的第三代EPYC處理器:雙路EPYC 7763系統。
第三代雙路EPYC系統每一路采用的都是8通道DDR4內存系統,在使用DDR4 3200內存時的帶寬只有363GB/s左右。顯然借助對12通道DDR5 4800內存的支持,采用Zen 4c小核心的EPYC 97X4系列處理器也具備頗為強大的內存性能。
性能測試:NAMD
NAMD是一種并行的分子動力學代碼,由伊利諾伊大學厄巴納- 香檳分校貝克曼高級科學與技術研究所的理論和計算生物物理學小組開發,它主要用于大型生物分子系統的高性能模擬。本次測試中,我們主要通過NAMD來考察參測處理器的浮點性能。
NAMD也是一個依賴處理器核心數量的科學計算,因此測試結果與SPECrate 2017非常類似,憑借更多的處理器核心數量,256核心、512線程配置的EPYC 9754雙路系統比192核心、384線程配置的EPYC 9654雙路系統快了12.5%,領先幅度較大。對于準備提供科研計算云服務的廠商來說,這也是非常值得關注的結果。目前隨著處理器、GPU性能的快速提升,科研計算云服務器也成為一種強大的計算工具,被廣泛應用于數據處理、人工智能、生物醫學。如在生物醫學領域,科學家們也在進行著類似NAMD這樣的生物分子、基因數據運算,而且由于運算量非常大,往往需要借助云服務器來提高工作效率。
性能測試:OpenSSL
OpenSSL廣泛用于保護服務器之間的通信,這是許多服務器堆棧中的重要協議。OpenSSL測試主要包含生成簽名和驗證簽名兩部分,我們在本次此時中主要進行了OpenSSL生成簽名測試。
測試結果顯示,OpenSSL測試同樣是一個依賴處理器多線程運算性能的測試,兩個不同核心數、線程數配置的雙路系統在成績上也有顯著的區別。擁有256核心、512線程的EPYC 9754雙路系統在簽名效率上比192核心、384線程配置的EPYC 9654雙路系統快了12.8%,Zen 4c架構處理器核心數更多的優勢顯而易見。對于云服務器商來說,這是一個很有意義的結果,因為OpenSSL一直是云計算中為應用程序提供信息安全的保障,但在不少服務器中由于硬件設備性能不濟,用戶數量增多等問題,使得運算速度不斷降低。運營商如果采用EPYC 9754雙路系統這樣的高性能處理器,顯然可以很好地解決這些問題,能夠將OpenSSL的計算任務均衡分配給各個核心,達到提高資源利用率,工作效率的目的。
基準性能測試:UnixBench Dhrystone 2和Whetstone
UnixBench來源于BYTE UNIX基準測試套件,該工具的主要目的是提供服務器性能的基本指標。這是一個系統基準測試工具,擁有多個測試子項,而不僅僅是CPU、內存或磁盤基準測試工具。其結果不僅取決于硬件,還取決于操作系統、庫甚至編譯器。在本次測試中我們主要使用了體現整數性能的Dhrystone 2 using register variables和測試雙精度浮點操作速度與效率的Double-Precision Whetstone。此外,在這兩個測試項目均可選用單線程或多線程進行,本次測試我們選用的是多線程。
與SPECrate 2017相比,這兩個測試更能體現處理器核心數量的重要性。首先EPYC 9754雙路系統在雙精度浮點性能運算上領先20%,在體現整數性能的Dhrystone 2 using register variables上更領先EPYC 9654雙路系統高達23.5%,其優勢非常明顯。
性能測試:C-ray 1.1
C-ray是一種常用的光線追蹤基準測試,可以顯示多線程工作負載下處理器的差異,時間越短說明系統性能越強。在本次測試中,我們使用了4K和8K這兩種分辨率進行測試,從而對比參測系統在不同負載下的性能差異。?
從測試結果來看,使用處理器來完成光線追蹤任務不僅需要處理器的計算能力,也比較依賴處理器的三級緩存容量,大容量緩存可以有效提高光線追蹤性能,因為光線追蹤計算過程中需要在內存和緩存中存儲大量的場景幾何信息、紋理和光線追蹤過程中的中間結果等數值,所以緩存容量越大,就能減少處理器訪問內存的時間,提高計算效率,所以最終緩存容量更大的192核心、384線程配置的EPYC 9654雙路系統在這個測試中可以和256核心、512線程的EPYC 9754雙路系統打平,兩個測試系統都取得了完全相同的成績。
性能測試:Sysbench CPU
Sysbench是一款被廣泛使用的Linux基準測試,它可以對CPU進行性能測試,在測試中主要是通過CPU進行質數加法運算,質數極限為10000個。
同樣對于提供云服務的廠商而言,這也是一個值得關注的結果,畢竟Linux是一種在服務器中廣泛應用的操作系統,具有高度的穩定性、安全性、可擴展性、靈活性和定制性,被主要用在Web服務器、數據庫服務器、云計算等領域。測試結果意味著,在Linux系統下進行處理器多核心運算測試的話,擁有256核心、512線程的EPYC 9754雙路系統可以完全發揮出最大性能,每秒能完成922370.2輪運算,比EPYC 9654雙路系統的成績領先了12%。
性能測試:HPL
HPL的英文全稱為“High-Performance Linpack”,Linpack是國際上一款用于測試高性能計算機系統浮點性能的基準測試工具。通過對高性能計算機采用高斯消元法求解一元N次稠密線性代數方程組的測試,考察高性能計算機的浮點性能。值得一提的是,該測試支持AVX-512指令集,在支持AVX-512技術的硬件上,可以使用AVX-512指令集運算來完成該測試。?
結果令人欣喜,擁有更多計算核心的EPYC 9754雙路系統在該測試中輕松戰勝了EPYC 9654雙路系統,領先幅度達到17.7%。由于云計算服務器的一個重要作用是向用戶提供計算力,評價一款服務器總體計算力的方法就是采用統一標準作為評判,而Linpack測試就是其中之一,包括世界最快500臺巨型機系統的排名都采用了這一標準,因此EPYC 9754雙路系統的勝出意味著它的算力的確要更勝一籌。
性能測試:DGEMM
DGEMM是一個基于雙精度矩陣乘法例行程序的快速基準測試,可計算以下乘積:C←αAB+βC。其中A、B和C是包含雙精度浮點值的矩陣,α和β是標量。AMD的開源DGEMM基準使用了AOCL 4.0的AMD BLIS組件,其結果最終會反饋出一個Gflops值,該值將接近于可實現的最大系統吞吐量。同樣這個測試也可以使用AVX-512指令集運算,可以體現處理器在支持AVX-512指令集后的性能優勢。
HPL的Linpack測試類似,DGEMM也是體現處理器總體算力的一個基準測試,因此256核心、512線程配置的EPYC 9754雙路系統并不意外地在這個測試中獲得了領先,其測試成績突破11000Gflops,而EPYC 9654雙路系統盡管明顯領先其他核心數更少的雙路系統,但面對EPYC 9754雙路系統,它那9282.5Gflops的成績還是明顯落后。
性能測試:V-RAY 5.02
VRay是業內非常受歡迎的一款渲染引擎。基于V-Ray內核開發的有VRay for 3ds max、Maya、Sketchup、Rhino等諸多版本,為不同領域的優秀3D建模軟件提供了高質量的圖片和動畫渲染,方便使用者渲染各種圖片。目前通過V-Ray渲染引擎提供云渲染服務的平臺也很多,顯然如果服務器內部的處理器、GPU要進行這類渲染作業,就必須具備很高的性能,因此V-Ray引擎的開發公司Chaos特別推出了V-Ray ?Benchmark。這是一款獨立的渲染速度測試軟件,可以用于測試處理器、GPU的渲染速度。
長久以來,渲染應用對多核心處理器、多線程技術都有很好的支持,畢竟只有高效地將渲染任務分配給多個線程,每個線程都同時處理一部分渲染任務,才能大大提高渲染時的速度和效率。因此256核心、512線程配置的EPYC 9754雙路系統也毫無懸念地戰勝了192核心、384線程配置的EPYC 9654雙路系統,其每分鐘可以渲染217416 vsamples,領先EPYC 9654雙路系統約4.1%。
更多核心帶來更強大的算力
綜合以上測試,可以看到EPYC 9754雙路系統幾乎在所有項目中取得了領先,最大領先幅度可以達到23.5%,這也體現出EPYC 9754處理器的128顆Zen 4c核心的確擁有不凡的算力,能夠在與云計算相關的應用與運算中大顯身手,如科學計算、OpenSSL生成簽名、圖形渲染等應用中EPYC 9754都具備明顯的優勢。
第四代EPYC處理器包含三大不同系列的處理器,分別面向不同的應用領域。
更值得一提的是,EPYC 9754的售價相對于96核心、192線程的EPYC 9654并沒有貴多少,EPYC 9754的官方售價在11900美元左右,而EPYC 9654的官方售價在11805美元左右,以高了不到100美元的差價,就能獲得額外32顆核心,顯然非常超值。相對于競爭對手的同類產品如至強8490H,EPYC 9754更擁有碾壓級的性價比優勢,目前僅采用60核心、120線程設計的至強8490H售價就高達17000美元。不過需要注意的是,EPYC 9754的出現也并不意味著它可以替代EPYC 9654這樣使用Zen 4核心,擁有更大L3緩存容量的第四代EPYC霄龍處理器。畢竟有部分應用如測試中的C-ray光線追蹤也非常依賴處理器的緩存容量,在這些應用中,緩存容量更多的EPYC 9654這類處理器會有更好的表現。
總之,EPYC 9754、EPYC 9754S、EPYC 9734處理器的出現只是AMD進一步細分市場,削減了處理器緩存容量,擁有更多核心數量,專門針對云計算推出的產品,它們將和EPYC 9654、EPYC 9554等處理器,以及最新采用3D緩存技術的EPYC 9084X系列處理器,分別在云計算、數據中心、技術計算領域各顯神通,為不同類型的企業級用戶帶來更高的工作效率,創造更多的價值。
編輯:黃飛
?
評論
查看更多