NVIDIA 研究人員創建了可以疏通計算機網絡擁堵的 AI 模型,該模型很快就會出現在大眾附近的數據中心。
Gal Dalal 希望為居家辦公或在辦公室工作的人緩解網絡壓力。
這位 NVIDIA 高級研究科學家是以色列一所 10 人實驗室的成員,他正在使用 AI 減少計算機網絡的擁堵。
對于筆記本電腦用戶來說,如果看到屏幕上出現不停轉動的圈圈,甚至無法移動光標,那就像在高速路上遇到一片紅海那樣糟糕。如同在交通高峰期,大批旅客想要快速到達某地,他們在途中互相擁擠,有時還會發生碰撞。
站在交叉路口的 AI
網絡使用擁塞控制來管理數字通信業務量。擁塞控制本質上是嵌入到網絡適配器和交換機中的規則,但隨著網絡上用戶數量的增加,用戶之間的沖突可能變得過于復雜而難以預測。
AI 可以發現模式的發展過程并作出響應,因此有望成為更好的“交警”。這就是為什么 Dalal 與世界各地的許多研究人員一起尋找通過強化學習使網絡變得更加智能的方法。強化學習是當模型找到好的解決方案時,會對它們進行獎勵的 AI。
但直到現在,出于種種原因,還沒有人能夠想出實用的方法。
與時間賽跑
網絡需要既高效又公平,這樣才不會有忽略任何請求。這種平衡很難達成,因為在數字“道路”上,沒有任何“司機”可以看到其他“司機”不斷變化的軌跡和預定目的地。
這也是與時間賽跑的比賽。為了發揮作用,網絡需要在大約一微秒(即百萬分之一秒)的時間內對情況做出反應。
為了使網絡交通變得順暢,NVIDIA 團隊受到先進計算機游戲 AI 的啟發,創造了新的強化學習技術并將其應用于網絡問題。
NVIDIA 在 2021 年的論文中描述了他們的突破性進展,包括提出使用算法和相應的獎勵函數來創造平衡的網絡,單個網絡流可用的本地信息是此網絡的唯一基礎。憑借該算法,團隊在其 NVIDIA DGX 系統上創建、訓練并運行了 AI 模型。
效果驚人
Dalal 回憶道,在那次會議上,來自 NVIDIA 的 Chen Tessler 用圖表展示了該模型在模擬的 InfiniBand 數據中心網絡上的運行結果。
Dalal 表示:“我們當時覺得效果十分顯著。”他曾在以色列著名的技術大學,以色列理工學院(Technion)寫過關于強化學習的博士論文。
他還認為:“特別驚喜的在于我們只在 32 個網絡流上訓練模型,它很好地概括了所學,以管理 8000 多個包含各種復雜情況的網絡流,因此這個機器比預先制定的規則更有效。”
在 NVIDIA 的測試中,強化學習(紫色)的表現優于所有基于規則的擁塞控制算法
事實上,與最好的基于規則的技術相比,該算法的吞吐量至少提高了 1.5 倍,延遲降低了 4 倍。
自該論文發布以來,這項工作由于展現了強化學習在現實世界中的應用潛力而贏得了贊譽。
在網絡中處理 AI
下一個重要的步驟仍然是正在進行中的工作——設計 AI 模型版本,它可以使用網絡中有限的算力和內存資源以微秒級速度運行。Dalal 描繪了兩個前進方向。
Dalal 的團隊正在與設計 NVIDIA BlueField DPU 的工程師一起優化用于未來硬件的 AI 模型。BlueField DPU 的目標是在網絡內運行不斷擴展的通信作業,從負擔過重的 CPU 上卸載任務。
另外, Dalal 的團隊正在將 AI 模型的精髓提煉成名為提升樹的機器學習技術。提升樹由一系列“是”與“否”的決策組成,它同樣十分智能,但運行起來更簡單。該團隊的目標是在今年晚些時候以能夠立即用來緩解網絡流量的形式展示其工作。
及時的“交通”解決方案
目前,Dalal 已經將強化學習應用于從自動駕駛汽車到數據中心冷卻和芯片設計等各個領域。當 NVIDIA 于 2020 年 4 月 NVIDIA 收購 Mellanox 時,這位 NVIDIA 以色列研究員開始與附近網絡組的新同事進行合作。
Dalal 表示:“將 AI 算法應用于 NVIDIA 擁堵控制團隊的工作十分有意義。兩年后的今天,這項研究變得更加成熟了。”
而時機也已經成熟。最近的報道顯示,從疫情爆發前到現在,以色列路上的汽車數量出現了兩位數增長,這可能會鼓勵更多的人在家辦公,網絡會變得更加擁堵。
幸運的是,AI “交警”正在趕赴崗位。
原文標題:數據中心里的交警: AI 疏通數字流量擁堵
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
5065瀏覽量
103452 -
數據中心
+關注
關注
16文章
4840瀏覽量
72273 -
AI
+關注
關注
87文章
31359瀏覽量
269762
原文標題:數據中心里的交警: AI 疏通數字流量擁堵
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論