電子發燒友網報道(文/吳子鵬)日前,英特爾、谷歌、微軟、Meta以及其他科技巨頭宣布成立一個新的行業組織——“Ultra Accelerator Link (UALink) 推廣組”。目前,UALink推廣組正在抓緊制定一項新的行業標準,用于推進數據中心內連接的大規模AI系統的高速和低延遲通信,擺脫英偉達NVLink在AI加速器連接方面的統治。
對于這項新的行業標準,AMD數據中心解決方案總經理Forrest Norrod表示,“行業需要一個可以快速推進的開放標準,這種標準允許多家公司為整個生態系統增加價值。”
英偉達統治AI加速器市場
有分析觀點認為,英偉達在AI加速器方面的統治力,已經超過了當年英特爾對于PC處理器的統治,這讓英偉達享受到了AI時代巨大的產業紅利。根據英偉達2025財年第一財季財報,該公司營收達到260億美元,同比增長262%;凈利潤高達148.1億美元,同比上升628%。
那么,英偉達為什么能夠在AI加速器領域體現出如此強悍的統治力呢?筆者認為主要源于三點:核心芯片、軟件生態和連接技術。
在核心芯片方面,時間回溯到2020年,在GTC 2020上,英偉達推出了基于Ampere架構的新一代GPU——NVIDIA A100,這顆芯片作為通用型工作負載加速器,成為國內外AI科技巨頭爭搶購買的芯片,此后甚至被禁止出口到中國市場。NVIDIA A100展現了AI加速器發展的“暴力美學”,以英偉達的數據來說,NVIDIA A100相較于前一代性能暴漲了20倍。在GTC 2024上,英偉達又推出了B100芯片,架構代號為Blackwell,顯存達192GB。在AI加速器芯片方面,英偉達并不是單單某一顆產品強,而是擁有一個強大的產品矩陣。在架構方面,英偉達陸續推出了Volta架構、Turing架構、Ampere架構、Hopper架構和Blackwell架構,提供B100、H200、L40S、A100、A800、H100、H800、V100等眾多的芯片產品組合。
同時,針對這些產品,英偉達提供強大的軟件支持。就以英偉達的CUDA生態來說,無論是通用加速,還是計算加速,CUDA生態都能夠提供充足的支持。英偉達自2006年推出CUDA以來,CUDA和GPU的并行計算能力使英偉達收獲了龐大的用戶群。CUDA 平臺包括硬件架構和編程模型,為開發人員提供了更直接、高效地利用 GPU 進行并行計算的方式。在COMPUTEX 2023 大會期間,英偉達方面透露的數據顯示,目前CUDA擁有超過400萬開發人員,超過 3000個應用程序,歷史上CUDA下載量達到驚人的4000萬。更讓當前階段CUDA顯得炙手可熱的是,僅僅是在2022年,CUDA下載量就有驚人的2500萬,目前依然在高速增長的狀態。
英偉達在AI加速器方面,第三個顯著的優勢就是連接技術。AI算力集群是人工智能發展的重要基礎設施,就以當前最火熱的AI大模型來說,單卡是無法支撐的,需要一個強大的AI算力集群。如果是基于英偉達算力卡的集群,那么主要的連接技術是NVLink和InfiniBand技術,分別負責近距離并行計算和擴大集群規模。NVLink可以直接完成GPU之間內存的互相訪問,無需CPU的干預。目前英偉達NVLink已經更新到了第五代,第五代NVLink大幅提高了大型多GPU系統的可擴展性。單個NVIDIA Blackwell Tensor Core GPU支持多達18個NVLink 100 GB/s連接,總帶寬可達1.8 TB/s,比上一代產品提高了兩倍,是PCIe 5.0帶寬的14倍之多。72-GB200 GPU NVLink域(NVL72)等服務器平臺利用該技術為當今異常復雜的大型模型提供更高的可擴展性。
同時,英偉達還有NVSwitch。NVSwitch芯片是一種類似交換機ASIC的物理芯片,通過NVLink接口可以將多個GPU高速互聯到一起,從而提升服務器內部多個GPU之間的通訊效率和帶寬。比如,NVIDIA A100 Tensor Core GPU引入了第三代 NVLink和第二代 NVSwitch,使每CPU帶寬和減少帶寬都增加了一倍。如果是通過第四代 NVLink和第三代NVSwitch,可以連接八個NVIDIA H100 Tensor Core GPU的系統,具有3.6 TB / s的二等分帶寬和450 GB / s的縮減操作帶寬,與上一代相比,這兩個數字分別增加了1.5倍和3倍。
綜上所述,英偉達在AI加速器方面擁有非常全面的布局,且這種系統性方案是目前最好的AI加速方式,沒有之一。統計數據顯示,目前英偉達在AI加速器芯片市場的占比超過了九成,被稱為人工智能領域“無可爭議的領導者”。當然,這也就意味著,除英偉達AI加速器芯片外,其他廠商的芯片很難捕捉到市場機會,即便是國際大廠推出的相關芯片。一個重要的原因在于,英偉達這套圍繞AI加速器布局的系統,不僅強大而且封閉,對非英偉達芯片的兼容性很差,這也被稱為AI芯片發展的“英偉達路徑”。讓廠商很絕望的是,如果選擇順從這條路徑,其產品也無法對英偉達芯片造成很大的沖擊,除非是面向某些特殊的用途。
因此,英特爾、谷歌等科技巨頭現在希望從連接入手,在英偉達AI加速器生態圈上撕開一個口子,以獲取更多的市場份額。
UALink野心勃勃但也有隱憂
除了英特爾、谷歌、微軟、Meta這四家,UALink聯盟成員還包括AMD、惠普企業、博通和思科等,不過作為主要的核心供應商,Arm公司尚未參加。UALink聯盟的主要職責是監督UALink規范未來的發展。
UALink聯盟認為,UALink和行業規范對于標準化下一代AI數據中心和實現的 AI 和機器學習、HPC 和云應用程序接口至關重要,該小組將制定一項規范,定義AI計算艙中加速器和交換機之間擴展通信的高速、低延遲互連。
目前,UALink聯盟提議的第一個版本UALink 1.0連接多達1024個AI加速器,UALink 1.0基于包括AMD的Infinity Fabric在內的開放標準。AMD的Infinity Fabric采用了一種分布式架構,其中包含多個獨立的通道,每個通道都可以進行雙向數據傳輸。這種設計使得不同核心之間可以直接進行快速而低延遲的通信,從而提高了整體性能。Infinity Fabric分為SCF和SDF。SDF負責數據傳輸,而SCF則負責控制傳輸命令。
從技術演進來看,如果Infinity Fabric技術成為UALink規范的主要組成部分,那么用戶可能會擔心UALink 1.0最終的連接效率問題。據悉,Infinity Fabric中的SDF部分基本是HT總線衍生的產物,這個總線原本是用于CPU的串聯,而UALink 1.0的使用場景是GPGPU,兩者之間在并行數據量要求方面差異巨大。因此,有業者認為,UALink 1.0規范預計不會規模性進入市場,只是奠定UALink規范的基礎框架,但很難對NVLink+NVSwitch這套體系造成很大的挑戰。
當然,博通和思科會積極地完善UALink 1.0以及后續的標準,博通可能會在800Gbps的 Thor產品中推出一款早期的Ultra Ethernet NIC,思科則預計將研發對標NVSwitch的相關產品。另外,目前已經加入的各家巨頭,也都是各自有自己的小算盤:谷歌擁有用于訓練和運行 AI 模型的定制芯片、TPU和Axion;微軟Maia 100新芯片已經在Bing和Office AI產品上測試,急于進入市場;Meta此前公布了自主研發芯片MTIA的最新版本,這是專門為AI訓練和推理工作設計的定制芯片系列。因此,有觀點認為,一旦UALink成事,那么這些擁有自研芯片的公司將成為最大的受益者。但是,由于各自研芯片公司在芯片、架構、集群層面的理解不一,這也可能拖累UALink的發展,使得UALink雖然看上去有大批的創新力量,但是創新效率卻不足。
結語
據悉,UALink 1.0將在同一時間向加入該聯盟的公司提供,另外帶寬更高的更新規范UALink 1.1將于2024年第四季度推出。由于英偉達不在這個聯盟,也不必參加這個聯盟,預計UALink 1.1推出時可能會選擇直接對標某一代的NVLink。不過,在UALink能夠全面對抗NVLink之前,包括微軟和Meta在內的公司依然是大規模哄搶英偉達的AI加速器芯片。
-
英特爾
+關注
關注
61文章
9964瀏覽量
171765 -
谷歌
+關注
關注
27文章
6168瀏覽量
105372 -
英偉達
+關注
關注
22文章
3776瀏覽量
91081
發布評論請先 登錄
相關推薦
評論