生成式 AI 和 AI 智能體推理將推動 AI 計算基礎設施從邊緣云向中心云分布的需求。IDC 預測“到 2030 年,商業 AI(不包括消費者)將為全球經濟貢獻 19.9 萬億美元,并且占到 GDP 的 3.5%。”
5G 網絡也必須不斷發展,才能滿足這些新的 AI 流量的需求。與此同時,電信公司將有機會成為托管企業 AI 工作負載的本地 AI 計算基礎設施,這種基礎設施不依賴網絡連接,同時滿足了數據隱私和主權要求。加速計算基礎設施由于能夠同時加速無線電信號處理和 AI 工作負載,因此能夠在這個領域大放異彩。最重要的是,可以使用同一個計算基礎設施處理 AI 和無線接入網絡(RAN)服務。這一組合被電信行業稱為 AI-RAN。
NVIDIA 推出了全球首個 AI-RAN 部署平臺Aerial RAN Computer-1,該平臺可在通用加速基礎設施上同時服務于 AI 和 RAN 工作負載。
繼 T-Mobile 推出 AI-RAN 創新中心之后,Aerial RAN Computer-1 將 AI-RAN 變成了現實,為電信公司提供了一個可在全球使用的可部署平臺。它可以用于各種大、中、小型配置,部署在基站、分布式站點或集中式站點,有效地將網絡轉變為服務于語音、視頻、數據和 AI 流量的多用途基礎設施。
這項變革性的解決方案用 AI 重構了面向 AI 的無線網絡。它給電信公司帶來了一個推動 AI 飛輪的絕佳機遇,使電信公司能夠充分利用其分布式網絡基礎設施、低延遲、有保證的服務質量、巨大的規模以及保護數據隱私、安全和本地化的能力,而這些都是實現 AI 推理和代理式 AI 應用的關鍵前提。
AI-RAN、AI Aerial 和Aerial RAN Computer-1
AI-RAN 是構建 AI 原生多用途網絡的技術框架。通過采用 AI-RAN 并從用途單一的傳統 ASIC RAN 計算網絡過渡到同時服務于 RAN 和 AI 的新型多用途加速計算網絡,電信運營商現在可以參與新的 AI 經濟,并利用 AI 提高網絡效率。
NVIDIA AI Aerial包含三個計算機系統,可用于設計、仿真、訓練和部署基于 AI-RAN 的 5G 和 6G 無線網絡。Aerial RAN Computer-1 是 NVIDIA AI Aerial 的基礎,并提供了適用于 AI-RAN 的商用級部署平臺。
Aerial RAN Computer-1(圖 1)提供了一個通用可擴展硬件基礎,可運行各種 RAN 和 AI 工作負載,包括軟件定義 5G、NVIDIA 或其他 RAN 軟件提供商的 5G 專網 RAN、容器化網絡功能、NVIDIA 或合作伙伴的 AI 微服務等。它還可托管內部和第三方生成式 AI 應用。Aerial RAN Computer-1 采用模塊化設計,因此能夠從 D-RAN 擴展到 C-RAN 架構,覆蓋從農村到高密度的城市用例。
NVIDIA CUDA-X庫是加速計算的核心。除提高效率外,該庫還提供了速度、準確性和可靠性。這意味著在相同的功率范圍內可以完成更多的工作。最重要的是,包括電信專用適配庫在內的特定領域庫是使 Aerial RAN Computer-1 適用于電信部署的關鍵。
NVIDIA DOCA提供了一整套工具和庫,能夠顯著提升電信工作負載的性能,包括 RDMA、PTP/ 定時同步和基于以太網的前端線路(eCPRI)以及對現代網絡基礎設施至關重要的 AI 工作負載。
總之,該全棧支持可擴展硬件、通用軟件和開放式架構,使用戶能夠與生態合作伙伴一起提供高性能 AI-RAN。
圖 1. 作為 NVIDIA AI Aerial 平臺一部分提供的NVIDIA Aerial RAN Computer-1
Aerial RAN Computer-1 的優勢
借助 Aerial RAN Computer-1,無線網絡可以變成一個由 AI 和 RAN 數據中心組成的大規模分布式網格,在為電信公司開辟新收入渠道的同時,通過軟件升級為 6G 鋪平道路。
Aerial RAN Computer-1 為電信運營商帶來的優勢如下:
通過 AI 和生成式 AI 應用、邊緣 AI 推理或 GPU 即服務來獲得收入。
將基礎設施的利用率提高至單一用途基站的 2-3 倍,后者目前的利用率通常只有 30%。使用同一基礎設施來托管內部生成式 AI 工作負載和其他容器化網絡功能,例如 UPF 和 RIC 等。
通過針對特定站點的 AI 學習來提高無線網絡性能,頻譜效率最多可提高 2 倍,直接節省每 Mhz 獲取頻譜的成本。
為下一代應用提供高性能 RAN 和 AI 體驗,將 AI 融入到每一次交互中。Aerial RAN Computer-1 在純 RAN 模式下最多可提供 170 Gb/s 的吞吐量,在純 AI 模式下最多可提供每秒 25,000 個 token 的吞吐量,即便在兩種模式混合的情況下,也具有遠超傳統網絡的性能。
Aerial RAN Computer-1 的組成
Aerial RAN Computer-1 的主要硬件組件如下:
NVIDIA GB200 NVL2
NVIDIA Blackwell GPU
NVIDIA Grace CPU
NVLink2 C2C
第五代 NVIDIA NVLink
鍵值緩存
MGX 參考架構
實時主流 LLM 推理
NVIDIA GB200 NVL2
Aerial RAN Computer-1 使用的NVIDIA GB200 NVL2平臺(圖 2)給數據中心和邊緣計算帶來了變革,為主流大語言模型(LLM)、vRAN、矢量數據庫搜索和數據處理提供了空前的性能。
這一橫向擴展型單節點架構搭載兩個 NVIDIA Blackwell GPU 和兩個 NVIDIA Grace CPU,可將加速計算無縫集成到現有基礎設施中。
該多功能架構支持多種系統設計和網絡選項,使 GB200 NVL2 平臺成為了數據中心、邊緣和蜂窩基站的理想選擇,這些地點想要利用 AI 的強大性能以及無線 5G 連接。
例如在單個蜂窩基站中,GB200 服務器的一半可分配給 RAN 任務,另一半可通過多實例 GPU(MIG)技術用于 AI 處理。在聚合站點中,可以為 RAN 和 AI 各分配一整臺專用的 GB200 服務器。在集中部署的情況下,RAN 和 AI 工作負載之間可共享 GB200 服務器集群。
NVIDIA Blackwell GPU
NVIDIA Blackwell 是一個變革性的架構,它能夠提高性能、效率和規模。NVIDIA Blackwell GPU包含 2080 億個晶體管,并采用專門定制的 TSMC 4NP 節點制造而成。所有 NVIDIA Blackwell 產品均搭載兩個接近光罩極限的裸片,并通過 10-TB/s 片間互聯技術連接成一個統一的 GPU。
NVIDIA Grace CPU
NVIDIA Grace CPU是一款突破性的處理器,它專為運行 AI、vRAN、云計算和高性能計算(HPC)應用的現代數據中心設計。該處理器具有出色的性能和內存帶寬,能耗卻只有當今領先服務器處理器的一半。
NVLink2 C2C
GB200 NVL2 平臺使用NVLink-C2C為每個 NVIDIA Grace CPU 和 NVIDIA Blackwell GPU 之間提供突破性的 900 GB/s 互聯速度。結合第五代 NVLink,該平臺提供了 1.4TB 的超大連貫內存模型,推動了加速 AI 和 vRAN 性能的提升。
第五代 NVIDIA NVLink
為了充分發揮超大規模計算和萬億參數 AI 模型的強大性能,服務器集群中的每個 GPU 都必須進行無縫而快速的通信。
第五代NVLink是一種高性能互聯技術,能夠提高 GB200 NVL2 平臺的性能。
鍵值緩存
鍵值(KV)緩存通過存儲對話上下文和歷史記錄來提高 LLM 的響應速度。
GB200 NVL2 通過其完全連貫的 NVIDIA GraceGPU 和 NVIDIA Blackwell GPU 內存來優化鍵值緩存,該內存通過 NVLink-C2C 連接,NVLink-C2C 的速度是 PCIe 的 7 倍。
這使得 LLM 預測單詞的速度比基于 x86 的 GPU 更快。
MGX 參考架構
MGX GB200 NVL2 是一種將 CPU C-Link 和 GPU NVLink 相連的 2:2 配置。
HPM 包含以下組件:
NVIDIA Grace CPU(2 個)
用于 GPU puck 和 I/O 卡的連接器
安裝在 2U AC 服務器中的 GPU 模塊(2 個)
每個可插拔 GPU 模塊包含 GPU、B2B 連接和 NVLink 連接器。
圖 2. NVIDIA GB200 NVL2 平臺布局
表 1. GB200 NVL2 平臺特性
實時主流 LLM 推理
GB200 NVL2 平臺引入了高達 1.3TB 的超大連貫內存,該內存由兩個 NVIDIA Grace CPU 和兩個 NVIDIA Blackwell GPU 共享。結合第五代 NVIDIA NVLink 和高速片間(C2C)連接技術,該共享內存將主流語言模型(如 Llama3-70B)的實時 LLM 推理性能提高了 5 倍。
在輸入序列長度為 256、輸出序列長度為 8,000、精度為 FP4 的情況下,GB200 NVL2 平臺的推理速度最高可達每秒 25,000 個 token,折合每天 21.6 億個 token。
圖 3 顯示了 GB200 NVL2 在支持 AI 和 RAN 工作負載時的表現。
圖 3. GB200 NVL2 中 RAN 和 AI 的計算利用率
以下是 GB200 NVL2 平臺上 RAN 和 AI 的平臺租用情況:
100% 利用率下的工作負載
RAN:約 36 個 100 MHz 64T64R
*token:25,000 token/秒
AI:約 10 美元/時,折合約 90,000 美元/年
50:50 利用率平分情況下的工作負載
RAN:約 18 個 100 MHz 64T64R
*token:12,500 token/秒
AI:約 5 美元/時,折合 45,000 美元/年
*token AI 工作負載:Llama-3-70B FP4 | 序列長度輸入 256 /輸出 8K
Aerial RAN Computer-1 的配套硬件
Aerial RAN Computer-1 的配套硬件是NVIDIA BlueField-3和NVIDIA Spectrum-X。
NVIDIA BlueField-3
NVIDIA BlueField-3 DPU 支持實時數據傳輸,提供前傳 eCPRI 流量所需的精確 5G 時序。
NVIDIA 提供完整的 IEEE 1588v2 精確時間協議(PTP)軟件解決方案。NVIDIA PTP軟件解決方案專為滿足最苛刻的 PTP 配置文件設計。NVIDIA BlueField-3 包含 1 個集成式 PTP 硬件時鐘(PHC),使設備精度突破了 20 納秒,同時還提供了計時相關功能,包括時間觸發調度和基于時間的軟件定義網絡(SDN)加速等。
該技術還使軟件應用能夠以高帶寬傳輸前傳、兼容 RAN 數據。
NVIDIA Spectrum-X
邊緣和數據中心網絡在推動 AI 和無線技術進步及性能方面發揮著至關重要的作用,它們是支撐分布式 AI 模型推理、生成式 AI 和世界領先 vRAN 性能的支柱。
NVIDIA BlueField-3 DPU 支持成百上千個 NVIDIA Blackwell GPU 的高效伸縮,為應用提供了最佳的性能。
NVIDIA Spectrum-X 以太網平臺專為提高基于以太網的 AI 云的性能和效率設計,并且包含了 5G 定時同步所需的所有功能。其 AI 網絡性能較傳統以太網提高了 1.6 倍,同時還能在多租戶環境中保證性能的一致性和可預測性。
當在機架配置中部署 Aerial RAN Computer-1 時,Spectrum-X 以太網交換機可用作一種兩用架構。它既可處理計算架構上的前傳和 AI(東西向)流量,也可傳輸融合架構上的回傳或中傳以及 AI(南北向)流量。遠程無線電設備按照 eCPRI 協議將該交換機作為終端。
Aerial RAN Computer-1
上的軟件堆棧
Aerial RAN Computer-1 上的關鍵軟件堆棧包括:
NVIDIA Aerial CUDA 加速 RAN
NVIDIA AI Enterprise 和 NVIDIA NIM
NVIDIA 云功能
NVIDIA Aerial CUDA 加速 RAN
NVIDIA Aerial CUDA 加速 RAN是 NVIDIA 構建的主要 RAN 軟件,該軟件適用于在 Aerial RAN Computer-1 上運行的 5G 和 5G 專網。
它包含了由 NVIDIA GPU 加速的互通 PHY 和 MAC 層庫,這些庫可以通過 AI 組件輕松修改和無縫擴展。其他軟件提供商、電信公司、云服務提供商(CSP)和企業也可以使用這些經過強化的 RAN 軟件庫,構建定制化商業級軟件定義 5G RAN 和未來的 6G RAN。
Aerial CUDA 加速 RAN 與 NVIDIA Aerial AI 無線電框架集成,該框架提供了一套 AI 增強功能,支持在 RAN 中使用框架工具 pyAerial、NVIDIA Aerial 數據湖和NVIDIA Sionna進行訓練和推理。
與其形成互補的是NVIDIA Aerial Omniverse數字孿生。NVIDIA Aerial Omniverse 數字孿生一個系統級網絡數字孿生開發平臺,它實現了對無線系統的物理級精度模擬。
NVIDIA AI Enterprise
和 NVIDIA NIM
NVIDIA AI Enterprise是一個企業級生成式 AI 軟件平臺。NVIDIA NIM是一個微服務集,可簡化生成式 AI 應用基礎模型的部署。
兩者共同提供了易于使用的微服務和藍圖。這些微服務和藍圖加快了數據科學流程的速度,并且簡化了企業生產級co-pilot和其他生成式 AI 應用的開發與部署。
企業和電信公司既可以訂閱NVIDIA Elastic NIM托管服務,也可以自行部署和管理 NIM。Aerial RAN Computer-1 可以托管 NVIDIA AI Enterprise 和基于 NIM 的 AI 與生成式 AI 工作負載。
NVIDIA 云功能
NVIDIA 云功能為 GPU 加速的 AI 工作負載提供了一個無服務器平臺,確保了安全性、可擴展性與可靠性。它支持多種通信協議,包括:
HTTP 輪詢
流式傳輸
gRPC
NVIDIA 云功能主要適用于運行時間較短的搶占式工作負載,例如推理和微調等。由于 RAN 工作負載的資源利用率會隨時間變化,因此該功能非常適合 Aerial RAN Computer-1 平臺。
短暫的搶占式 AI 工作負載通常可以填滿一天中利用率較低的時段,從而保持 Aerial RAN Computer-1 平臺的高利用率。
部署選項和性能
Aerial RAN Computer-1 提供多種部署選項,包含了無線接入網絡中的所有點:
無線基站蜂窩站點
接入點位置
移動交換中心
基帶中心
如果用于 5G 專網,Aerial RAN Computer-1 可以位于企業經營場所內。
Aerial RAN Computer-1 可支持各種配置和位置,包括私有云、公有云或混合云環境,而且無論位置或接口標準如何,均可使用相同的軟件。與傳統的單一用途 RAN 計算機相比,該能力帶來了空前的靈活性。
該解決方案還支持各種網絡技術,包括:
開放式無線接入網絡(Open-RAN)架構
AI-RAN
3GPP 標準
其他業界領先的規范
與早期的 NVIDIAGPU 相比,基于 GB200 的 Aerial RAN Computer-1 進一步提升了 RAN 和 AI 處理性能及能效(圖 4)。
GB200 NVL2 平臺為現有基礎設施提供了易于部署和擴展的一站式 MGX 服務器。您可以通過先進的 RAN 計算技術獲得主流 LLM 推理和數據處理功能。
圖 4. GB200 NVL2 與前幾代產品的性能比較
總結
AI-RAN 將給電信行業帶來變革,使電信公司能夠通過生成式 AI、機器人和自主技術來開辟新的收入來源,并提供更好的體驗。NVIDIA AI Aerial 平臺實現了 AI-RAN 的落地,使其與 NVIDIA 實現 AI 原生無線網絡的廣闊愿景相吻合。
借助 Aerial RAN Computer-1,電信公司現在可以在通用基礎設施上部署 AI-RAN。您可以通過同時運行 RAN 和 AI 工作負載,最大程度地提高利用率,并利用 AI 算法提高 RAN 性能。
最重要的是,借助這臺通用計算機,您可以把握新的機遇,成為需要本地計算和數據主權的企業首選的 AI 架構。您可以從以 AI 為中心的方法開始,然后采用 RAN 并進行軟件升級,從第一天起就獲得最大化投資回報。
T-Mobile 和軟銀已宣布,將與領先的 RAN 軟件提供商一起使用 NVIDIA AI Aerial 的軟硬件組件,實現 AI-RAN 的商業化落地。
在世界移動通信大會上,Vapor IO 和拉斯維加斯市共同宣布使用 NVIDIA AI Aerial 部署全球首個 5G 專網 AI-RAN。
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103047 -
電信
+關注
關注
2文章
730瀏覽量
61931 -
AI
+關注
關注
87文章
30887瀏覽量
269068 -
5G
+關注
關注
1354文章
48454瀏覽量
564219
原文標題:將 AI-RAN 引入您身邊的電信公司
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論