當今的數據中心正在迅速地發展,這就需要一種被稱為DPU(數據處理器)的新型處理器。新數據中心的一些應用需要的是一種可卸載、加速和隔離的特定類型DPU架構。8月23日,在Hot Chips 33大會上,NVIDIA芯片架構師Idan Burstein探討了數據中心不斷變化的需求,以及這些需求如何推動NVIDIA BlueField DPU系列產品的架構。
為何需要DPU?
以前的數據中心需在專用服務器集群上獨自運行應用,現如今已不同從前。現在,CPU計算、GPU計算和存儲等資源已被解聚,可以根據需求將資源組合(分配和組裝),還可以根據應用和工作負載的變化對資源進行重新組合或重新分配。
GPU加速的AI正在成為主流,其增強了大量的商業應用,而不僅僅是科學應用。以虛擬化為主的服務器,現在很可能是在裸金屬服務器上的容器中運行,盡管這些服務器不再有管理程序或虛擬機,其仍然需要軟件定義的基礎設施。為支持保證信息安全的零信任方法,防火墻代理和反惡意軟件過濾器等網絡安全工具必須在每臺服務器上運行。這些變化對網絡、安全和管理所需的工作方式產生了巨大影響,進而推動了每臺服務器對DPU的需求。
DPU任務的最佳定義:卸載、加速和隔離基礎設施應用。
卸載:從服務器CPU中接管基礎設施任務,這樣就可以讓盡可能多的CPU計算能力來運行應用。
加速:運用DPU芯片硬件中的加速,以比CPU更快的速度運行基礎設施功能。
隔離:將關鍵的數據面和控制面功能轉移到DPU上,這既減輕CPU的工作,同時還可以在CPU或其軟件被破壞時保護這些功能。
一個DPU需要具備完成以上三個任務的能力。
圖1:數據中心已發展成為軟件定義、容器化和可組合的特性。卸載基礎設施任務至DPU可提高服務器性能,效率與安全。
僅移動CPU核是不夠的
一些DPU廠商所嘗試的一種方法是,在DPU上放置大量的CPU核以用于卸載服務器CPU的應用。無論是Arm、RISC、X86還是其他類型的CPU核,這種方法都具有根本缺陷,因為服務器的CPU或GPU對于CPU最優或GPU最優的應用已是高效的。雖然DPU上的Arm(或RISC及其他)核確實可能比一般的服務器CPU更節能,但除非Arm核有一個用于該特定應用的加速器,否則不值得為了節能而增加復雜性。
此外,目前市面上已出現基于Arm CPU的服務器,例如基于Amazon EC2 Graviton的實例、Oracle A1 實例,基于Ampere Computing 的Altra CPU,以及Fujitsu的 A64FX CPU的服務器。在Arm上高效運行的應用,均可部署在Arm服務器上。只有在某些功能必須與服務器 CPU 隔離的情況下,例如控制平面或基礎設施應用程序的一部分,才需要移動到DPU的Arm核上。
無論從技術角度出發,還是從經濟角度出發,將一個標準應用的工作負載從服務器的N個X86核卸載到N個或2N個DPU的Arm 核上都毫無意義。將AI或機器學習應用從服務器GPU卸載到DPU的Arm核上亦是如此。將應用從服務器的CPU和GPU轉移到DPU的CPU上,并且不進行任何類型的加速的舉動,充其量只是虛晃,最壞的情況還會降低服務器的性能和效率。
圖2:將應用從服務器的CPU轉移到無加速DPU的CPU核上,除了滿足將這些應用與CPU服務器域中隔離的需求外,其他場景都毫無益處。
DPU最適合的加速類型
很明顯,一個合適的DPU必須通過硬件加速來增加數據中心的最大效益。它應該加速什么?卸載涉及數據移動和安全性的應用,DPU是最佳選擇。 例如,網絡與遠程直接內存訪問 (RDMA) 都最適合卸載到 DPU 芯片,RDMA常用于加速 AI、HPC、大數據和存儲應用的服務器之間的數據移動。
對比CPU,如果DPU 具有針對特定任務的加速硬件,卸載和運行效率將會提高很多。 若應用滿足于 DPU 的硬件加速能力時,一個設計合理的 DPU 可以執行 30個、100個 甚至 是300 個 CPU 的工作。
DPU 的 CPU 核非常適合運行必須與服務器應用程序,以及操作系統域隔離開的控制平面,或安全應用。 例如,在裸金屬服務器中,租戶不希望在他們的服務器上運行管理程序,或虛擬機來進行遠程管理、遙測或安全,因為這會損害性能,或干擾到應用程序。 然而,云運營商仍然需要能夠監控服務器的性能并檢測、阻止或隔離入侵該服務器的安全威脅。
DPU 可以獨立于應用程序域來運行此軟件,提供安全和控制,同時不干擾服務器的性能或操作。
關于作者
John Kim 是 NVIDIA 網絡事業部的存儲市場總監,致力于幫助客戶和供應商從高性能網絡連接、智能網卡卸載和遠程直接數據存取 (RDMA) 中獲益,尤其是在存儲、大數據和人工智能領域。
審核編輯:郭婷
-
cpu
+關注
關注
68文章
10882瀏覽量
212263 -
NVIDIA
+關注
關注
14文章
5026瀏覽量
103287 -
服務器
+關注
關注
12文章
9239瀏覽量
85683
發布評論請先 登錄
相關推薦
評論