IT 世界正在向云轉移,云是建立在 Kubernetes 管理的容器上的。我們認為,下一個合乎邏輯的步驟是使用數據處理器( DPU )加速這一基礎設施,以提高性能、效率和安全性。
Red Hat 和 NVIDIA 正在構建一個集成的云就緒基礎設施解決方案, Red Hat OpenShift 的管理和自動化,以及 NVIDIA BlueField DPU 。
紅帽 OpenShift 的好處
許多流行的云基礎設施項目使用 Kubernetes 管理的容器。然而,實施 Kubernetes 可能是一項艱巨的任務,尤其是對于那些無法投入專職人員成為 Kubernetes 專家的組織來說。
Red Hat OpenShift 為管理 Kubernetes 容器以及應用程序部署、更新和生命周期管理提供了一套強大的功能。 OpenShift 包括自動化和安全工具,以及受支持的開源模型,以使云基礎設施更經濟、可靠和可擴展。
根據 2021 的數據, 85% 以上的容器編排項目都使用了 Red Hat 調查, Kubernetes ,而 Red Hat OpenShift 是混合和多云 Kubernetes 部署的最流行選擇。 OpenShift 是業界領先的企業 Kubernetes 平臺,財富 500 強中超過 50% 的商業銀行、電信公司和航空公司都使用該平臺。
顯然,大多數企業都想要一個受支持的 Kubernetes 模型, Red Hat OpenShift 是最受歡迎的選擇之一。
DPU 的工作原理
DPU 卸載、加速基礎設施工作負載,并將其與服務器的 CPU 隔離。例如, BlueField DPU 可以從 CPU 上卸載網絡、網絡虛擬化、數據加密和時間同步任務,并在特制的硅上運行。
其他基礎設施軟件,如遠程管理、防火墻代理、網絡控制平面和存儲虛擬化,可以在 BlueField 的 Arm 處理器內核上運行。這樣做可以釋放服務器的 CPU 內核,而這些內核可以運行應用程序和租戶工作負載。
該功能還將基礎設施和安全工作負載隔離在單獨的域中。結果是一組服務器以更快的網絡運行更多的應用程序,提高了數據中心的效率和安全性。
在一個典型的云基礎設施中,網絡流量會穿越物理服務器和在這些服務器上運行的容器。這需要在每臺服務器中都有一個分組交換解決方案,為了獲得最大的效率,應用程序容器需要一種與 DPU 的加速網絡卸載進行通信的方式。
傳統的方法是通過 Kubernetes 和開放虛擬網絡( OVN )訪問開放虛擬交換機(開放虛擬交換機或 OVS )。 OVN 提供網絡抽象,默認部署策略是在主機服務器的 CPU 上同時運行 OVN 和 OVS 。
然而,當網絡速度超過 10 Gbps 時,這種方法會消耗大量 CPU 核。 Kubernetes 需要一個解決方案來在 DPU 上運行 OVN 和 OVS 功能,這樣所有的數據包交換、報頭重寫、封裝/去封裝和數據包過濾都可以在網絡硬件上完成,而不是在 CPU 上的軟件中完成。
增加紅帽和 NVIDIA 之間的網絡集成
紅帽和 NVIDIA 已經合作,將 OpenShift 的管理能力與 DPU 的加速能力相結合。
帶有 Red Hat Enterprise Linux 的 整合的第一階段始于 2018 年 將網絡流量卸載到 NVIDIA ConnectX SmartNIC 。網絡數據平面(使用 OVS 或 DPDK )在 SmartNIC ASIC 上運行,但網絡控制平面仍完全在 X86 CPU 上的軟件中運行。
圖 1 。運行在 Red Hat Enterprise Linux 上的 OpenStack SDN 控制器通過 OVS 將網絡數據平面卸載到 NVIDIA ConnectX SmartNIC ,而控制平面在 X86 CPU 上運行 。
2021 ,兩家公司采取了下一步行動,將 Red Hat OpenShift 與 NVIDIA BlueField DPU 一起部署,并進行了性能基準測試。在 NVIDIA GTC 2021 年,我們 demonstrated 討論了將網絡轉移到 DPU 的優勢,并發表了一篇文章 通過將網絡功能轉移到 NVIDIA BlueField-2 DPU ,優化數據中心的服務器利用率 。
在這個解決方案中,帶有覆蓋卸載( OVS 和 Geneve 卸載)的網絡數據平面和網絡控制平面(在 OVN Kubernetes 吊艙中)在 DPU 上運行,并帶有 Red Hat Enterprise Linux 。 OpenShift 的主要組件,包括 Red Hat Enterprise Linux CoreOS ,仍保留在 x86 CPU 上。
圖 2 。運行在 Red Hat Enterprise Linux CoreOS 上的 Red Hat OpenShift 通過 OVN 和 OVS 將網絡數據平面和控制平面卸載到 BlueField-2 DPU 。 DPU 在其 Arm 內核上運行 Red Hat Enterprise Linux 。
在圖 2 中的部署場景中, BlueField-2 在以下方面起著重要作用:
Geneve (虛擬覆蓋網絡)封裝/去封裝
IPsec 封裝/去封裝
加密/解密路由
網絡地址轉換( NAT )
主機 CPU 和容器只看到簡單的未封裝、未加密的數據包, CPU 不需要執行任何這些任務,因為它們被卸載到 DPU 。這種負載水平將 CPU 利用率降低了 70% ,釋放了每臺服務器上的大量 CPU 電源,以運行額外的業務/租戶工作負載。
在 DPU 上運行 OpenShift
如 2022 年 GTC 所述 , Red Hat 和 NVIDIA 已經邁出了下一步,將 OpenShift (包括 Red Hat Enterprise Linux CoreOS )遷移到 BlueField DPU 的 Arm 內核上運行 Red Hat OpenShift 雙集群設計 這包括獨立的租戶和基礎設施集群。
Red Hat Enterprise Linux CoreOS 是 OpenShift 控制平面或主節點和工作節點支持的操作系統。這是 OpenShift 中執行調度、維護、升級和群集自動化的部分。它包括容器管理工具和安全加固,使其更能抵御黑客攻擊,現在它可以在主機 x86 CPU 和 DPU Arm 內核上運行。
BlueField DPU 在各種主機服務器上運行 OpenShift OVS 和 OVN 容器以及 Red Hat Enterprise Linux CoreOS ,形成了一個基礎架構工作集群。同時,在 x86 CPU 上運行的 OpenShift 管理租戶吊艙和集群。
將 OpenShift 基礎架構群集軟件卸載到 BlueField Arm 內核上而不是主機 x86 內核上運行,可以節省額外的 x86 CPU 開銷、更高的性能和更強的安全隔離。
圖 3 。從 Red Hat OpenShift 4.10 開始,您可以在 x86 CPU 上運行 OpenShift 來管理租戶,也可以在 BlueField DPU Arm 內核上運行 OpenShift 來管理集群基礎架構。
云本機、軟件定義的網絡是 BlueField DPU 用例的一個很好的例子,在 BlueField DPU 環境中,OVN和OVS在 BlueField DPU 上運行并由其卸載。許多其他基礎設施服務,如網絡加密、防火墻代理、虛擬路由器、遙測代理等,也可以在 DPU 上運行,以獲得更大的好處。
OpenShift 在 DPU 上卸載帶來了顯著的成本節約效益
為了了解 DPU 卸載對降低數據中心成本的影響, NVIDIA 和 Red Hat 為一個配備 51K 服務器的中型數據中心構建了一個 TCO 模型。我們認為該數據中心支持 100 萬個應用程序,每個應用程序需要每秒 10 萬個數據包( PPS )的交換性能。
我們考慮了 兩種服務器部署方案 :有無 DPU :
沒有 DPU 完全在軟件中運行虛擬交換的服務器僅實現 350k PPS 。
使用 DPU 將 OVN 和 OVS 卸載到 DPU 的服務器的性能提高了 54 倍,達到每臺服務器 1870 萬個 PPS 。
將虛擬交換機卸載到 DPU 上也為每臺服務器節省了八個 CPU 內核。基于此測試, TCO 模型產生了 6850 萬美元的驚人資本支出節約 。 這些節約是通過減少 10K DPU 增強型服務器而實現的,這是因為每臺服務器具有更高的網絡性能和 CPU 核心節約。
我們看到,由于服務器占地面積較小而節省了電力,這最終導致基于 DPU 的服務器具有更好的 TCO 模型。隨著我們將負載平衡器、防火墻、加密、 web 服務器等附加功能卸載到 DPU ,這些 TCO 節約將變得更好,最終為支持云計算的數據中心實現驚人的效率。
解決方案路線圖和在 BlueField 上部署 OpenShift
在 BlueField 上運行 OpenShift 的雙集群 OpenShift 體系結構現已在 OpenShift 4.10 中作為開發者預覽版或早期試用版提供,預計將于 2022 年正式提供。
但 NVIDIA 和紅帽隊并沒有就此止步。我們計劃測試網絡流量加密/解密的卸載,因為這是一項 CPU 密集型任務。
BlueField-2 DPU 可以以高達 100 Gbps 的速度卸載 IPsec 加密/解密,以高達 200 Gbps 的速度卸載 TLS 加密/解密。
BlueField-3 預計將以更高的速度支持 IPSec 、 TLS 和 MACsec 。
從 OpenShift 到 DPU 的線速加密卸載的實施將提高租戶的數據安全性,并幫助您更接近零信任安全狀態。
與 DPU 的其他潛在集成包括更復雜的軟件定義的網絡卸載、在 BlueField 上運行防火墻代理、精確時間同步、帶數據包速度的視頻流,以及使用 DPU 收集遙測數據。
藍田 -2 DPU 現在可從 NVIDIA 獲得,藍田 -3 DPU 將于 2022 年晚些時候開始采樣。此外, BlueField DPU 不久將在 NVIDIA LaunchPad 云服務中進行測試。
如果您想在運行 NVIDIA BlueField DPU 的 Red Hat OpenShift 上進行測試或開發,請使用 表明你的興趣 。
總結
如果您的公司希望在數據中心采用云原生計算, NVIDIA BlueField DPU 、 Red Hat Enterprise Linux 和 Red Hat OpenShift 的組合將提供一個高效、創新的開放式混合云平臺,具有新的安全功能。這個強大的平臺提供硬件加速功能,以運行關鍵的軟件定義的網絡、存儲和安全功能。
現在,可以分配更多的服務器資源來運行云本地工作負載,以及傳統的業務應用程序。
關于作者
Ash Bhalgat 是 NVIDIA 網絡業務部門的云和電信市場開發高級總監。他領導云和電信解決方案、技術營銷和合作伙伴生態系統業務開發,以推動網絡投資組合收入和市場份額增長。
John Kim 是 NVIDIA 網絡事業部的存儲市場總監,致力于幫助客戶和供應商從高性能網絡連接、智能網卡卸載和遠程直接數據存取 (RDMA) 中獲益,尤其是在存儲、大數據和人工智能領域。John 是非常活躍的博主、會議演講嘉賓和網絡直播節目主持人,也是存儲網絡行業協會網絡存儲論壇 (SNIA NSF) 的主席。John的高科技生涯從 IT 支持人員和網絡管理員開始,先后在NetApp 和 EMC等企業級軟件公司以及存儲供應商從事解決方案市場、產品管理和生態聯盟工作。他于 2013 年加入 Mellanox,之后于 2020 年加入 NVIDIA。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5025瀏覽量
103268 -
數據中心
+關注
關注
16文章
4813瀏覽量
72225 -
大數據
+關注
關注
64文章
8897瀏覽量
137538
發布評論請先 登錄
相關推薦
評論