在最近的開放計算項目峰會上出現了準備改變傳統服務器架構的新一代設計,谷歌、Facebook 和微軟在峰會上展示了高性能計算機的新藍圖。
在加利福尼亞州圣克拉拉舉行的貿易展上展示的硬件表明,云提供商繼續降低 CPU 的優先級,同時更多地關注網絡、存儲和加速器,如 GPU 和 AI 芯片。服務器制造商可以復制和改進 OCP 設計。
本次峰會上的焦點之一是 Meta 設計的名為 Grand Teton 的服務器,該公司正在為數據中心部署該服務器以運行人工智能應用程序。Meta 的工程副總裁 Alexis Bjorlin 在一篇博客文章中表示,Meta 的目標是為其大型數據中心帶來更多的 AI 能力,這支撐了其社交媒體平臺上的許多功能,同時也為其 metaverse 的未來做好準備。
半導體研究機構 SemiAnalysis 的創始人 Dylan Patel 表示,OCP 包括服務器世界的名人錄——Meta、Google 和其他公司——在戴爾、HPE 和聯想的標準機架之前,所有很酷的新硬件都在這里出現。
“當我們談論硬件時,它的功率要高得多,但也很高效。它可能是高功率,因為它用于 Facebook 的 AI,或者它可能是高功率,因為它是一個非常密集的服務器,”Patel 說。
Patel 還指出,許多下一代服務器也展示了代號為 Sapphire Rapids 的 Intel 下一代 Xeon 服務器 CPU 和 AMD 即將推出的 Genoa。
Bjorlin 上個月表示,Meta 計劃到2025 年建立擁有超過 4,000 個加速器的大型集群。這些核心將被組織為一個網格,加速器之間的帶寬將達到每秒 1 TB。Bjorlin 上個月在 AI 硬件峰會上的一次演講中詳細介紹了這些計劃,但沒有分享硬件細節。該公司廣泛使用 Nvidia GPU。
Meta 的服務器設計基本方法包括去除不必要的組件,并在系統和芯片級別縮小硬件。系統和芯片尺寸的縮小將有助于創建 AI 訓練集群,這些集群將消耗更多功率,同時也提供顯著更高的每瓦性能。
Bjorlin 在 Grand Teton 的公告中說,深度學習模型正在顯著增長到數十萬億個參數,并且“可能需要 zettaflop 的計算來訓練”。
“人工智能和機器學習模型正變得越來越強大和復雜,需要更多高性能基礎設施來匹配,”Bjorlin 說。
Grand Teton 是 2021 年推出的 Zion-EX 橫向擴展系統的繼任者。Grand Teton 的速度明顯快于其前身,主機到 GPU 帶寬提高了四倍,計算能力和吞吐量提高了兩倍。
“與包含多個獨立子系統的 Zion-EX 相比,Grand Teton 還具有集成底盤,”Bjorlin 說。
微軟展示了一個名為 Mt. Shasta 的模塊化系統,這是一個可以容納人工智能和高性能計算加速器的機箱。該模塊通過 48 伏電源饋入高性能服務器。該模塊可以熱插拔并容納多個加速器。該系統由 Molex 和 Quanta 設計,并與 OCP 的 Open Rack V3 設計兼容,該設計為系統打開了機架級分解。
微軟在一篇博文中表示,Mt. Shasta 模塊解決了在數據中心實施加速器時面臨的常見問題。加速器可以在數據中心的電源、冷卻和連接指南內輕松實施,并自動與基于軟件的管理接口進行硬件控制。節點級掛鉤使模塊可熱插拔,這在 PCI Gen 3.0 接口中也很困難,該接口較舊,但仍在較舊的服務器上使用。
Insight 64 首席分析師 Nathan Brookwood 表示,加速器的多樣化服務器硬件一直是當務之急,但今年圍繞 CXL(Compute Express Link)引起了很多興奮,因為它提供了輕松添加一系列加速器的鉤子。
“很明顯,那些在云中部署的人——你看到的是谷歌、微軟等——他們知道他們需要什么。他們可能會去掉 HPE 和戴爾在通用企業級產品中投入的更多花里胡哨的東西,”Brookwood說。
CXL 是一個關鍵的構建塊,旨在改變服務器的設計、定制和配置方式。CXL 允許更輕松地選擇和組裝服務器的構建塊。該技術提供了計算、內存和存儲系統之間的通信鏈接,并包括跨服務器提供和管理計算的工具。
“CXL 正在迅速被接受,這令人驚訝,因為支持它的通用處理器尚未發布,包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa,”Brookwood 說。
雖然 Facebook 的 Grand Teton 是一個集成服務器,但 Google 專注于未來的“多腦”服務器,它將存儲、加速器、內存和基礎設施處理單元整合到單獨的托盤中。模塊化硬件架構基于包括 CXL 和 NVMe 在內的互連以及 OpenBMC 和 RedFish 等分布式系統管理工具。
Brookwood 說,小型服務器制造商同樣對 CXL 感到興奮。
“隨著這些產品的推出,我認為小型服務器制造商,尤其是云計算領域的制造商,將會關注這一點,”Brookwood說。
IT 基礎設施公司 Wiwynn 是臺灣緯創資通集團的子公司,專注于定制服務器設計的構建模塊。該公司以前專門從事 OCP 的集成服務器設計,但今年的重點是根據特定要求構建的定制設計。
Wiwynn 的構建模塊包括 OCP 認證的冷卻、電源、組件、互連、NIC 和安全模塊。CXL 互連也在設計中,位于中間以促進存儲、內存和處理單元之間的通信。
該設計適用于英特爾和 AMD 的各種 x86 服務器芯片,以及 Ampere 的 CPU 等 Arm 服務器芯片。它還支持英特爾的 Habana Gaudi AI 處理器等加速器。
Wiwynn 銷售支持執行董事 Steven Hwang 在 OCP 峰會前的新聞發布會上表示,客戶對構建塊的關注點發生了變化,因為他們有興趣構建更接近其數據中心要求的服務器。
具體來說,人們對功率轉換組件很感興趣,Hwang 說,并補充說,“許多數據中心正在走向綠色,能源變得非常非常敏感……所以從直流到交流和交流到直流的功率損耗肯定是人們可以立即從中受益的東西。”
在 OCP,谷歌、微軟、Nvidia 和 AMD 還合作創建了一個名為 Caliptra 的規范,允許系統制造商在芯片和系統級別嵌入安全層。該規范在 0.5 版中,側重于在硅中創建信任根。
微軟 Azure 首席技術官 Mark Russinovich 在一篇博客文章中表示:“作為可重用的開源、硅級塊,用于集成到片上系統(例如 CPU、GPU 和加速器)中,Caliptra 提供了可信賴且易于驗證的證明。”
Caliptra 規范包括一系列用于存儲和加密數據的塊,并確保只有授權方才能訪問安全飛地中的數據。它還確保數據的安全性,因此在本地或云中時不會受到 Spectre 和 Meltdown 等基于硬件的黑客攻擊。云提供商對 Caliptra 感興趣,以改進機密計算產品和保護虛擬機。
編輯:黃飛
-
amd
+關注
關注
25文章
5470瀏覽量
134264 -
服務器
+關注
關注
12文章
9218瀏覽量
85586 -
虛擬機
+關注
關注
1文章
918瀏覽量
28257
原文標題:下一代服務器設計藍圖浮現!
文章出處:【微信號:芯長征科技,微信公眾號:芯長征科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論