電子發燒友網報道(文/周凱揚)近日Linux基金會再度牽手主要云服務廠商、半導體廠商以及系統方案供應商,成立了超以太網聯盟(UEC)。聯盟成員包括AMD、微軟、博通、思科、HPE以及Meta等廠商,幾乎可以說是HPC與AI領域的半壁江山了,而該聯盟的存在,很可能會為未來的以太網發展帶來新的契機。
AI與HPC廠商重新定義以太網下一代標準
那么為何以太網需要UEC這樣一個組織呢?這就不得不提到現在盛行的大規模AI計算了。隨著訓練AI模型對效率和成本的追求,無論是GPT、PALM這樣的大語言模型,還是DLRM這樣的推介系統,都需要在成千上萬塊GPU上進行訓練,其中網絡的重要性愈發顯著。
UEC聯盟LOGO / UEC
傳統的以太網在這樣的負載上有諸多優勢,比如通用、多供應商的生態系統,包括以太網網關、NIC、線纜、光模塊、管理工具和軟件等等。其次,對于運營以太網而言,已經有了一套成熟的試驗、測量和部署流程,也可以擴展到機架級、機房級或數據中心級。
但UEC認為,未來面對AI和HPC的以太網絡還需要一些改進,比如逐包負載均衡、靈活的交付順序、更現代化的擁塞控制機制和端到端遙測等。UEC目前有四個工作組,分別為物理層、鏈路層、傳輸層和軟件層。
其中物理層工作組和鏈路層工作組負責開發提高以太網性能、延遲和管理的規范,傳輸層工作組開發專用于AI/HPC的大吞吐量、低延遲和高擴展性規范,軟件層工作組則負責開發不同AI/HPC應用的軟件、API或開源代碼。像博通之類的芯片模組廠商,也都會在未來推出符合UEC規范的以太網交換機、NIC等。
直接對標英偉達InfiniBand
從聯盟成員以及該技術的定位我們還能看出一些端倪,比如英偉達、谷歌和亞馬遜這樣的廠商并沒有加入。這是因為這三家更愿意發展自己的專有優勢技術,而非加入聯盟去做通用標準。比如英偉達的Infiniband在HPC與AI領域已經站穩了腳跟,而谷歌的TPUv4則引入了內部自研的光電交換技術OCS,亞馬遜則更傾向于使用自己的Nitro系統來為HPC與ML應用提供支持。
這些自研方案固然可以用于極大提升競爭力,但對于部分大規模云服務廠商來說,他們很討厭這種綁定單一供應商的做法,而且其協議也不是最通用的以太網,所以他們這才開始聯手對以太網進行AI與HPC時代下的改造,以求打破Infiniband可能存在的壟斷優勢。
除了亞馬遜和谷歌這些選擇的云服務廠商以外,其他幾家廠商的最大競爭對手自然而然地變成了英偉達,他們在這之前或多或少也有參與過互聯方案的開發。比如HPE,他們的CraySlingshot也是HPC系統中常見的互聯技術之一,同時也是以太網技術的超集變體之一,當下TOP500的不少超級計算機中用的仍是這一系統。而HPE則表示,他們支持UEC的目的是保證CraySlingshot能夠在一個開放的生態系統中運行,同時符合UEC標準的NIC也能夠享受到Slingshot的部分性能和擴展性優勢。
寫在最后
考慮到UEC才成立沒多久,所以相關的標準和技術都處于早期開發階段,第一版草案很可能會要到明年才能面世,至于第一批符合標準的產品,也需要等待立項開發以及后續的市場驗證。不過這也恰好展現AI計算與HPC市場的一個縮影,那就是有的廠商在不斷推進專有化,而有的廠商則一直追求開放標準。
-
以太網
+關注
關注
40文章
5427瀏覽量
171810
發布評論請先 登錄
相關推薦
評論