在一般人的眼中,多核性能肯定比單核強(qiáng),處理器核心越多越好,但果真如此嗎?
許多人認(rèn)為CPU 內(nèi)核越多越好。然而,情況并非總是如此。這就是為什么更多內(nèi)核并非在所有情況下都是好的選擇,這不僅僅是因?yàn)樵?a target="_blank">芯片上放置更多內(nèi)核的問題,還因?yàn)樾阅茉颉?/p>
處理器有多少個(gè)內(nèi)核更好?
許多人的想法是,內(nèi)核越多越好。然而,它并不總是那樣。例如,有些軟件并不足以利用所有內(nèi)核,因此考慮更多內(nèi)核是荒謬的,而且在許多視頻游戲中都會(huì)出現(xiàn)這種情況,其中單核性能優(yōu)于多核。像這樣的情況還有很多。
至于HPC領(lǐng)域,Top500數(shù)據(jù)似乎證明了更多 CPU 核心更好的錯(cuò)誤想法。但是如果你和這個(gè)領(lǐng)域,比如聯(lián)想HPC部門的、歐洲Atos的、HPE的,或者IBM的專家交談你就會(huì)發(fā)現(xiàn),情況并不總是這樣。
事實(shí)上,如果您詢問他們,他們會(huì)告訴您,他們的許多客戶都在尋求更高的帶寬、更快的 I/O 和更高的時(shí)鐘速率。那么為什么像 AMD、Intel、Ampere、Annapurna、IBM、Fujitsu 等公司不斷制造具有越來越多 CPU 內(nèi)核的單元?
這些提供商在尋找 HPC 客戶之前,需要考慮到計(jì)算能力,這越來越需要高性能的 GPGPU,而且他們還考慮到云提供商的業(yè)務(wù),它們是超大規(guī)模企業(yè),需要尋找更多核心。
這些云業(yè)務(wù)尋求更多的核心,因?yàn)檫@意味著每個(gè)節(jié)點(diǎn)有更多的客戶端。在 VPS(虛擬專用服務(wù)器)服務(wù)器的情況下可以很好地看到這一點(diǎn),其中那些物理內(nèi)核變成 vCPU 以交付給平臺客戶端。這就是核心數(shù)量不斷增加的原因。
但是,這并不是說在HPC中內(nèi)核不重要,它們很重要。核心數(shù)越多,超級計(jì)算機(jī)支持的工作量就越大。此外,機(jī)器將具有更高的處理或計(jì)算能力(FLOPS),這意味著更高的性能。然而,對于 HPC,帶寬也很重要。
帶寬的重要性
許多 HPC 客戶更關(guān)心內(nèi)存帶寬而不是 CPU 核心數(shù)量,但這并不意味著他們忽略了其他問題。但是,對于使用這些機(jī)器的任務(wù)或應(yīng)用程序,最好具有良好的帶寬和更高的 I/O 敏捷性。事實(shí)上,EPYC 和 Xeon 等也經(jīng)過優(yōu)化以提供此功能。
例如,我們一直在說DDR4 和 DDR5之間的差異對用戶來說并不重要,沒有那么多的性能提升,而且 DDR5 更貴。然而,對于 HPC,DDR5 提供了一個(gè)很好的機(jī)會(huì),與 DDR4 相比,帶寬增加了大約 50%。
一方面,在為某些軟件或操作系統(tǒng)許可證付費(fèi)時(shí),更多的內(nèi)核可能是一個(gè)劣勢,因?yàn)樗鼈兪歉鶕?jù)內(nèi)核或插槽的數(shù)量收費(fèi)的。當(dāng)我們談?wù)撓?SUSE Linux 或 Red Hat 這樣的操作系統(tǒng)時(shí),也會(huì)發(fā)生類似的情況,因?yàn)槿绻枰夹g(shù)服務(wù),您還必須根據(jù)機(jī)器的內(nèi)核付費(fèi)。換句話說,更多的核心也將意味著更多的軟件方面的支出。
對于 HPC 處理器,許多人選擇使用高帶寬或HBM 內(nèi)存,以及 CPU 內(nèi)核來提高帶寬。比如Intel Xeon Max“Sapphire Rapids”就是這樣,它在CPU周圍有HBM2E內(nèi)存芯片,可以實(shí)現(xiàn)64GB/s的內(nèi)存帶寬。當(dāng)然,必須考慮到數(shù)據(jù)在這個(gè) HBM 和伴隨它的 DDR 之間的移動(dòng),擴(kuò)展 HBM 的容量限制,將在很大程度上取決于芯片的固件和 ISV(Independent軟件供應(yīng)商)。
另一方面,雖然 AMD 也一直在尋求 HBM,但他們選擇在他們的 EPYC(霄龍)中添加更多的內(nèi)存通道以獲得帶寬,盡管這有一些缺點(diǎn),例如需要占用主板空間和稍高的延遲。此外,使用像 Genoa 這樣的 12 通道在帶寬方面不會(huì)接近 Xeon Max,但這是另一種有趣的方法。正是這讓他們可以使用普通的 DDR5,而不依賴于 ISV,這可能是一個(gè)主要障礙。
例如,對于研究天氣、空氣動(dòng)力學(xué)、流體等的流體動(dòng)力學(xué)或 CFD 等工作負(fù)載來說,這是必不可少的,因?yàn)樗鼈兪菐捗舾械膽?yīng)用程序,在處理過程中必須使用內(nèi)存中的大量數(shù)據(jù)。因此,在這些情況下增加帶寬會(huì)帶來顯著的改進(jìn)。
此外,由于 CPU-RAM 帶寬問題,許多客戶選擇使用 GPGPU而不是 CPU 來處理某些工作負(fù)載,但這可能會(huì)隨著 HBM 集成到 CPU 中而改變。
平衡
您肯定聽說過很多有關(guān)服務(wù)器和 HPC 方面的負(fù)載平衡的信息。這意味著以平衡和高效的方式在不同處理器之間分配必須處理的任務(wù)的方式。為此,在平衡處理核心方面,擁有更多帶寬具有優(yōu)勢。因此,我們在行業(yè)中看到更多的 HBM,尤其是在 AI 工作負(fù)載方面,也就不足為奇了。此外,Ampere、Fujitsu A64FX 等一些 CPU 也選擇了 HBM。
此外,AMD在其X系列EPYC中也做了一些有趣的事情。雖然它沒有在單獨(dú)的芯片上使用 HBM,但它在其處理芯片之上使用了高速、高帶寬的 SRAM 內(nèi)存芯片來支持 L3 緩存,也就是3D V-Cache。
這些3D 封裝顯示出巨大的優(yōu)勢,因?yàn)檫@種存儲器的延遲低于 RAM,并且直接通過 TSV 鏈接。因此,它不會(huì)像其他情況那樣依賴于主 RAM 內(nèi)存的延遲和帶寬。
事實(shí)上,AMD 在其Milan-X中證明,由于其卓越的 L3,它可以增加工作負(fù)載,從而提高需要高帶寬的密集型工作負(fù)載的性能。例如,使用 Synopsys VCS 進(jìn)行的測試顯示出 66.4% 的改進(jìn)。然而,這些類型的封裝具有較高的性價(jià)比,因此并非都是優(yōu)勢。
因此,HBM 似乎有望在工作負(fù)載(例如 CFD 等)方面提供更大的靈活性和收益。這意味著也許將來我們會(huì)看到更多帶有 HBM 的單元。盡管我們將看看最終是否可以將這兩種技術(shù)混合起來作為解決方案,即使用 3D 封裝將 HBM堆疊在計(jì)算單元上。
更高的頻率與更多的 CPU 內(nèi)核
正如可以驗(yàn)證的那樣,CPU基本時(shí)鐘頻率在過去十年中一直停滯不前。目前,我們的 CPU 在大多數(shù)情況下的時(shí)鐘頻率在 2 到 3 Ghz 之間,但有一些例外情況可能會(huì)超過這些數(shù)字,而且我們不是在談?wù)?Turbo 模式。
但這不僅與制造技術(shù)有關(guān),還與 CPU 核心數(shù)量的擴(kuò)展有關(guān)。您在單個(gè)硅芯片上封裝的內(nèi)核越多,您可以使用的功率就越少,因此需要管理時(shí)鐘速度。如果找不到解決方案,3D 封裝甚至可能會(huì)惡化這種情況,因?yàn)槲覀円呀?jīng)看到,3D 封裝也需要通過將芯片堆疊在一起來降低功耗。
APU領(lǐng)域
GPU也已成為提高性能的關(guān)鍵部分,因?yàn)檫@些單元可以比 CPU 更快、更高效地處理某些工作負(fù)載,因?yàn)樗鼈兊膬?nèi)核數(shù)量更多。這就是為什么它們近年來被用作某些工作負(fù)載的加速器。
在服務(wù)器和HPC領(lǐng)域,GPU已經(jīng)扮演了非常重要的角色,因此,只需看看幾年前的Top500榜單和現(xiàn)在的榜單。
因此,AMD 想在其 Fusion中看到未來,將 CPU 和 GPU 結(jié)合起來也就不足為奇了。然而,這些 APU 已經(jīng)出現(xiàn)在低功耗臺式機(jī)或筆記本電腦中,但并未在其他領(lǐng)域占據(jù)主導(dǎo)地位,例如 HPC。但這種情況也在改變。
就是這樣,最近AMD展示了其新產(chǎn)品 Instinct MI300。它不是傳統(tǒng)的圖形卡,不像我們過去看到的用于加速 HPC 和 AI 的其他 Instincts。在這種情況下,它是一個(gè)APU(加速處理單元)。這個(gè)單元結(jié)合了 Zen 4 內(nèi)核和 GPU 內(nèi)核。
Instinct MI300 是用于數(shù)據(jù)中心的 CPU+GPU 混合體。它采用 1460 億個(gè)晶體管,采用小芯片設(shè)計(jì)和 3D 封裝。它使用兩種制造工藝,一些是 6nm 芯片,另一些是 5nm,都是使用臺積電的工藝。里面有:
24 個(gè) Zen 4 CPU 核心(它不會(huì)取代 CPU,事實(shí)上,它將與 AMD EPYC 4th Gen Genoa 一起出現(xiàn)在主板上)。
具有 CDNA3 架構(gòu)的 GPU。
HBM3 芯片,內(nèi)存為 128 GB,總線寬度為 8192 位。
與 Instinct MI250 相比,這可以將 AI 工作負(fù)載加速 8 倍,并提供高達(dá) 5 倍的每瓦特 TFLOPS 性能。
就其本身而言,英特爾已經(jīng)對其名為 Falcon Shores 的 CPU-GPU 架構(gòu)做了類似的事情。這將具有 Xe 圖形,這是 Ponte Vecchio GPU 和即將推出的 Rialto Bridge 的核心。此外,它還將包括 CPU 內(nèi)核和 HBM3 內(nèi)存池。而不是像 AMD 那樣的 APU,Intel 一直想稱它為 XPU。
與此同時(shí),英偉達(dá)也做了類似的事情,盡管它看起來更像 AMD Instinct MI300 而不是英特爾的 Falcon Shores。這是 Grace-Hopper,它包括一個(gè)帶有 512 GB LPDDR5X 內(nèi)存的 Grace CPU 裸片(基于 ARM),以及一個(gè)帶有 80 GB HBM 并通過 NVLink 互連的 Hopper GPU 裸片。
然而,這些新型混合動(dòng)力驅(qū)動(dòng)器也對高性能設(shè)備制造商提出了挑戰(zhàn),因?yàn)樗鼈円馕吨鴶?shù)百瓦的非常高的消耗,甚至可能很快達(dá)到1 kW 以上的 TDP。這在家用電腦上是個(gè)問題,但當(dāng)涉及擁有成百上千個(gè)此類驅(qū)動(dòng)器的電腦時(shí),問題就更糟了,因?yàn)樗婕吧岷吞峁┳銐螂娏Φ奶魬?zhàn)。
此外,不僅如此,軟件生態(tài)系統(tǒng)也是一個(gè)問題,必須進(jìn)行調(diào)整才能利用這些新單元。然而,隨著這些問題的解決,HPC、服務(wù)器和數(shù)據(jù)中心中的許多現(xiàn)有瓶頸將得到解決。
編輯:黃飛
?
評論
查看更多