在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA網絡運營商優化Kubernetes橫向擴展GPU部署和管理

星星科技指導員 ? 來源:NVIDIA ? 作者:Itay Ozery ? 2022-04-14 14:25 ? 次閱讀

GPU 加速計算在云計算、企業計算和邊緣計算領域的日益普及,越來越依賴于強健而強大的網絡基礎設施。 NVIDIA ConnectX SmartNICs 和 NVIDIA BlueField DPU 提供了高吞吐量、低延遲的連接,使 GPU 資源能夠跨節點群擴展。為了滿足對云本地 AI 工作負載的需求, NVIDIA 提供了 GPU 運營商,旨在簡化 Kubernetes 上的橫向擴展 GPU 部署和管理。

今天, NVIDIA 宣布了 NVIDIA 網絡運營商的 1.0 版本。作為 NVIDIA GPU 運算符 的一個模擬,網絡運營商通過自動化網絡部署和配置的各個方面簡化了 Kubernetes 的擴展網絡設計,否則就需要手工操作。它在具有 NVIDIA 網絡接口的任何集群節點上加載所需的驅動程序、庫、設備插件和 CNI 。

與 GPU 運營商配合,網絡運營商啟用了 GPU 直接 RDMA ,這是一項關鍵技術,可將云本地 AI 工作負載加速幾個數量級。該技術在 NVIDIA GPU 之間提供了高效的零拷貝數據傳輸,同時利用了 SmartNICs 和 DPU 中的硬件引擎。圖 1 顯示了兩個 GPU 節點之間的 GPU 直接 RDMA 技術。節點 1 上的 GPU 通過網絡直接與節點 2 上的 GPU 通信,繞過 CPU 設備。

poYBAGJXvmKANta6AABdA5uuq1Q305.png

圖 1 。 GPU 兩個 GPU 節點之間的直接 RDMA 技術

NGC 網絡運營商現在可在 NGC 和 NVIDIA 上使用 Kubernetes 自定義資源 ( CRD )和 操作員框架 來提供實現加速聯網所需的主機軟件。這篇文章討論了網絡運營商內部的內容,包括它的特性和功能。

易于部署和操作的 Kubernetes 網絡

網絡運營商致力于使 Kubernetes 網絡變得簡單和輕松。它是 Apache2 。 0 許可下的一個開源軟件項目。 1.0 版本針對運行在裸機服務器基礎設施和 Linux 虛擬化環境中的 Kubernetes 進行了驗證。以下是 1.0 版的主要功能:

在裸機 Kubernetes 環境中自動部署主機軟件組件,以實現以下功能:

macvlan 輔助網絡

SR-IOV 二次網絡(分配給 pod 的 VF )

主機設備輔助網絡(分配給 pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 運算符)

在嵌套的 Kubernetes 環境(在 Linux VMs 中運行的 Kubernetes Pods )中自動部署主機軟件組件,以創建以下內容:

SR-IOV 二級網絡(分配給 VM 的 VF 的#個,并通過不同的 POD )

主機設備輔助網絡(分配給 Pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 運算符)

平臺支持:

Kubernetes v1 。 17 或更高版本

容器運行時: Containerd

裸機主機操作系統/ Linux 來賓操作系統: Ubuntu 20 。 04

Linux KVM 虛擬化

舵圖安裝

雖然啟用了 GPU 的節點是一個主要用例,但是網絡運營商對于啟用獨立于 NVIDIA GPU 的加速 Kubernetes 網絡環境也很有用。一些示例包括設置 SR-IOV 網絡和 DPDK 以加速電信 NFV 應用程序、建立 RDMA 連接以快速訪問 NVMe 存儲等等。

NVIDIA 網絡運營商內部

網絡運營商被設計成一個 Kubernetes 運營商,它利用多個定制資源為一個節點添加加速的網絡功能。 1 。 0 版本支持多種網絡模型,可適應各種 Kubernetes 網絡環境和不同的應用程序需求。如今,網絡運營商只為二級網絡配置 RoCE 。這意味著主吊艙網絡保持不變。將來的工作可能會允許為主網絡配置 RoCE 。

以下各節介紹網絡運營商打包和使用的不同組件。

節點功能發現

節點功能發現 ( NFD )是一個 Kubernetes 插件,用于檢測硬件特性和系統配置。網絡運營商使用 NFD 來檢測安裝了 NVIDIA SmartNICs 和 GPU 的節點,并將它們標記為這樣的節點。基于這些標簽,網絡運營商安排適當的軟件資源。

CNI 木耳

Multus CNI 是 Kubernetes 的容器網絡接口( CNI )插件,支持將多個網絡接口連接到 pod 。通常在庫伯內特斯,每個吊艙只有一個網絡接口。使用 Multus ,您可以創建具有多個接口的多宿主 Pod 。 Multus 充當一個 meta-plugin ,一個可以調用多個其他 CNI 插件的 CNI 插件。 NVIDIA 網絡運營商安裝 Multus ,將用于高速 GPU – GPU 通信的二級網絡添加到集裝箱吊艙中。

NVIDIA OFED 驅動器

NVIDIA OpenFabrics 企業分銷( OFED ) 網絡庫和驅動程序由 節點標簽 網絡團隊打包和測試。 NVIDIA OFED 通過 Infiniband 和以太網互連支持 遠程直接內存訪問 ( RDMA )。網絡運營商使用 NVIDIA 將預編譯的 NVIDIA OFED 驅動程序容器部署到每個 Kubernetes 主機上。容器在啟動或停止時加載和卸載 NVIDIA OFED 驅動程序。

NVIDIA 對等內存驅動程序

NVIDIA 對等內存驅動程序 是一個客戶端,它與網絡驅動程序交互,以在 GPU 和主機內存之間提供 RDMA 。網絡運營商在同時具有 ConnectX 適配器和 NVIDIA GPU 的節點上安裝 NVIDIA 對等內存驅動程序。當容器啟動和停止時,此驅動程序也會自動加載和卸載。

RDMA 共享設備插件

Kubernetes 設備插件框架 向 Kubernetes 節點上運行的 Kubelet 代理播發系統硬件資源。網絡運營商部署 RDMA 共享設備插件 向 Kubelet 播發 RDMA 資源,并向節點上運行的 pod 公開 RDMA 設備。它允許吊艙執行 RDMA 操作。節點上運行的所有 pod 共享對相同 RDMA 設備文件的訪問。

容器網絡 CNI 插件

Macvlan CNI 公司 和 主機設備 CNI 是在 CNI 項目下托管的通用容器網絡插件。 macvlan CNI 創建一個新的 MAC 地址,并將所有通信轉發到容器。主機設備 CNI 將已經存在的設備移動到容器中。網絡運營商使用這些 CNI 插件創建 macvlan 網絡,并將 NIC 物理功能分別分配給容器或虛擬機。

SR-IOV 設備插件和 CNI

SR-IOV 是一種在虛擬機或容器吊艙與 NIC 硬件之間提供直接接口的技術。它繞過了主機 CPU 和操作系統,從 I / O 任務中釋放出昂貴的 CPU 資源,并大大加快了連接速度。 SR-IOV 設備插件 和 CNI 插件 啟用 Kubernetes 節點上可用的 SR-IOV 虛擬功能( VF )。這兩者都是網絡運營商創建 SR-IOV VF 并將其分配給處理 GPU -to- GPU 通信的二級網絡所必需的。

SR-IOV 操作員

SR-IOV 操作符旨在幫助用戶在集群中提供和配置 SR-IOV 設備插件和 SR-IOV CNI 插件。網絡運營商使用 SR-IOV 操作員 在 Kubernetes 集群中部署和管理 SR-IOV 。

Whereabouts CNI

Whereabouts CNI 是一個 IP 地址管理( IPAM ) CNI 插件,可以在 Kubernetes 集群中分配 IP 地址。網絡運營商使用此 CNI 為承載 GPU -to- GPU 通信的二級網絡分配 IP 地址。

更好的結合: NVIDIA 加速計算和網絡

圖 2 顯示了網絡運營商如何與 GPU 運營商協同工作來部署和管理主機網絡軟件。

pYYBAGJXvmuAFa1cAALBlwdJFKQ894.png

圖 2 。網絡運營商與 NVIDIA GPU 運營商一起安裝,以在 EGX 堆棧上自動化 GPU 直接 RDMA 配置

以下部分描述了支持的網絡模型和相應的主機軟件組件。

RoCE 共享模式

共享模式意味著在節點上的多個容器 pod 之間共享單個 IB 設備的方法。此網絡模型針對需要高性能網絡的企業和邊緣環境進行了優化,無需多租戶。網絡運營商安裝以下軟件組件:

Multus CNI

RoCE 共享模式設備插件

Macvlan CNI

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

SR-IOV 、 RoCE 和 DPDK 網絡

如前所述, SR-IOV 是一種提供對 NIC 硬件的直接訪問的加速技術。此網絡模型針對運行在裸機上的多租戶 Kubernetes 環境進行了優化。網絡運營商安裝以下軟件組件:

Multus CNI

SR-IOV 設備插件

SR-IOV CN

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

NIC PF 直通

這種網絡模式適合要求極高的應用。網絡運營商可以將 NIC 物理功能分配給 Pod ,以便 Pod 充分利用它。網絡運營商安裝以下主機軟件組件:

Multus CNI

SR-IOV 設備插件

主機開發 CNI

Whereabouts IPAM CNI

網絡運營商還在 GPU 節點上安裝 NVIDIA OFED 驅動程序和 NVIDIA 對等內存。

為橫向擴展 GPU 集群優化 Kubernetes 網絡

NVIDIA GPU 和網絡運營商都是 NVIDIA EGX 企業平臺的一部分,該平臺允許 GPU 加速計算與傳統企業應用程序在同一 IT 基礎設施上協同工作。總而言之,運營商使 NVIDIA GPU 成為庫伯內特斯的一等公民。現在發布用于生產環境,網絡運營商簡化了 Kubernetes 網絡,帶來了必要的簡單性和可擴展性級別,以便在企業中實現擴展培訓和邊緣推斷。

關于作者

Itay Ozery 是 NVIDIA 網絡產品營銷總監。他為 Mellanox 的云網絡解決方案推動戰略性產品營銷和產品管理計劃。 Itay 在網絡安全領域領導了大規模的業務和項目,并與數據中心和電信服務提供商在 IT 系統和網絡工程領域擔任過多個職位。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 運營商
    +關注

    關注

    4

    文章

    2398

    瀏覽量

    44489
  • NVIDIA
    +關注

    關注

    14

    文章

    4996

    瀏覽量

    103223
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4744

    瀏覽量

    129018
收藏 人收藏

    評論

    相關推薦

    運營商如何實現差異化連接

    如今,運營商正置身于一場關于如何極致釋放5G投資的高難度挑戰。本期《信觀察》將聚焦于如何通過“差異化連接”推動基于性能的服務,進而實現可擴展、可持續的解決方案,助力運營商將5G投資的價值“最大化”。
    的頭像 發表于 11-18 14:38 ?245次閱讀

    如何構建及優化GPU網絡

    并從計算節點成本優化、集群網絡與拓撲的選擇等方面論述如何構建及優化GPU網絡
    的頭像 發表于 11-06 16:03 ?394次閱讀
    如何構建及<b class='flag-5'>優化</b><b class='flag-5'>GPU</b>云<b class='flag-5'>網絡</b>

    docker和k8s部署在云平臺性能要求盤點

    Docker和Kubernetes在云平臺部署時有各自的性能要求。Docker需要足夠的CPU、內存和存儲資源,以及快速的網絡帶寬和優化的鏡像大小。而
    的頭像 發表于 11-05 10:47 ?214次閱讀

    k8s可以部署私有云嗎?私有云部署全攻略

    Kubernetes(簡稱K8S)可以部署私有云。Kubernetes是一個開源的容器編排引擎,能夠自動化容器的部署擴展
    的頭像 發表于 10-25 09:32 ?182次閱讀

    NVIDIA NIM助力企業高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等廠商的開源 Kubernetes 平臺集成了 NVIDIA NIM,將允許用戶通過 API 調用來大規模地部署大語言模型。
    的頭像 發表于 10-10 09:49 ?403次閱讀

    北美運營商PTCRB認證的優勢主要體現在哪些方面?

    地進入北美市場,包括美國、加拿大和墨西哥等國家。運營商支持:PTCRB由北美主要運營商(如AT&T、Verizon、T-Mobile等)組成,認證的設備在運營商網絡
    的頭像 發表于 08-23 17:19 ?397次閱讀
    北美<b class='flag-5'>運營商</b>PTCRB認證的優勢主要體現在哪些方面?

    走進北美運營商認證:解讀PTCRB與北美三大運營商的關系

    、PTCRB機構概述PTCRB成立于1997年,是由北美移動通信運營商共同組成的聯盟。該機構的主要任務是通過對無線設備進行測試和審核,確保其符合北美CDMA和LTE網絡的要求,
    的頭像 發表于 08-08 17:41 ?709次閱讀
    走進北美<b class='flag-5'>運營商</b>認證:解讀PTCRB與北美三大<b class='flag-5'>運營商</b>的關系

    如何使用Kubeadm命令在PetaExpress Ubuntu系統上安裝Kubernetes集群

    Kubernetes,通常縮寫為K8s,是一個開源的容器編排平臺,旨在自動化容器化應用的部署擴展管理。有了Kubernetes,您可以輕
    的頭像 發表于 07-15 13:31 ?878次閱讀
    如何使用Kubeadm命令在PetaExpress Ubuntu系統上安裝<b class='flag-5'>Kubernetes</b>集群

    運營商可以成為供電

    “廣泛分布的基站可以組成一個大型虛擬電廠,讓運營商搖身一變成為供電。”近日,芬蘭運營商Elisa發布白皮書表示,通過引入智能化能源管理系統在無線接入網內構建虛擬電廠,不僅能降低自身的
    的頭像 發表于 06-14 08:04 ?293次閱讀
    <b class='flag-5'>運營商</b>可以成為供電<b class='flag-5'>商</b>

    運營商的本分,就是專業做好管道

    的基礎。也就是說,運營商作為“管道工”,手里攥著的卻是APP的命門,憑什么就不能從管道服務中多掙錢呢?運營商部署5G進行了巨額的投資,個人用戶的套餐資費又難以大幅
    的頭像 發表于 04-24 08:04 ?442次閱讀
    <b class='flag-5'>運營商</b>的本分,就是專業做好管道

    美國主流運營商指南:美國運營商認證如何選擇?

    不管在中國還是在美國,無線通信市場的競爭都相當激烈。中國主流主要是電信、移動、聯通三大運營商,而在美國市場也由幾家知名的主要運營商主導。如果您的產品有出口美國市場銷售的需求,且產品本身帶有通信功能
    的頭像 發表于 04-23 17:07 ?900次閱讀
    美國主流<b class='flag-5'>運營商</b>指南:美國<b class='flag-5'>運營商</b>認證如何選擇?

    網絡自動化助力運營商實現成本削減高達81%

    部署網絡自動化后,運營商預計能夠節省高達81%的成本。這一顯著降低成本主要得益于自動化在多個領域的優勢,包括網絡和服務生命周期管理
    發表于 02-20 15:10 ?396次閱讀

    第四大運營商,攻擊前三大運營商

    1&1稱其委托Aetha Consulting開展的研究發現德國前三大移動運營商相比歐洲其他有四家移動運營商的國家的排名前三的運營商的頻譜持有量,平均多出38 MHz的低頻段頻率,總計多出了幾乎120 MHz。
    的頭像 發表于 01-30 16:00 ?912次閱讀

    最受網絡運營商歡迎的設備:愛立信第一 三星第二

    元月23日消息,據Recon Analytics的調研,在最受網絡運營商歡迎的設備方面,諾基亞被三星替代,諾基亞排名第三,而三星排名第二。
    的頭像 發表于 01-29 15:05 ?737次閱讀

    瑞士第一大移動網絡運營商Sunrise將裁員6.14%

    瑞士第一大移動網絡運營商Sunrise將裁員6.14% 瑞士第一大移動網絡運營商Sunrise目前全職員工總數有2703名;Sunrise計劃2024年3月底裁員166 人;約占6.1
    發表于 01-17 18:51 ?1021次閱讀
    主站蜘蛛池模板: 一级a级国产不卡毛片| 国产操女| 深夜动态福利gif动态进| 67194最新网址| 1024手机看片国产旧版你懂的| 国产精品偷伦费观看| 91学院派女神| 亚洲一一在线| 2021天天躁狠狠燥| 亚洲色网址| 91在线免费观看网站| 亚洲区| 欧美乱淫| 中文字幕av一区二区三区| 亚洲免费视频网址| 中文字幕一区精品欧美| 亚洲 欧美 另类 综合 日韩| 特级一级毛片视频免费观看| 欧美一级特黄aa大片| 久久精品国产亚洲综合色| 色视频免费观看| 免费一级视频在线播放| 国产色视频网站| 天天操夜夜操天天操| 午夜视频福利| 一本大道香蕉大vr在线吗视频| 天天弄| 日日操夜夜爱| 国产99久9在线视频| 人人爽人人澡| 四虎最新紧急入口| 精品一区二区三区自拍图片区| 18岁禁黄色| 国产精品久久久久久影院| 亚洲韩国欧美一区二区三区| 亚洲三级黄色| 一级毛片免费在线观看网站| 四虎日韩| 不卡中文字幕在线| 亚洲欧美圣爱天天综合| 妇乱子伦激情|