Meta的AI超級計算機是迄今為止最大的NVIDIA DGX A100客戶系統。該系統將為Meta的AI研究人員提供5百億億次級AI計算性能,采用了最先進的NVIDIA系統、InfiniBand網絡和軟件,實現了數千個GPU集群的系統優化。
Meta Platforms非常認可NVIDIA,為其有望成為有史以來最強大的研究系統選擇了NVIDIA的先進技術。
于今日發布的AI研究超級集群(AI Research SuperCluster,縮寫RSC)已在訓練新模型以推動AI發展。
全面部署后,Meta的RSC預計將成為最大的NVIDIA DGX A100客戶系統。
Meta在一篇博客文章中表示:“我們希望RSC幫助我們建立全新的AI系統,例如可以為多個不同語言的團隊提供實時語音翻譯,使他們可以在研究項目上無縫協作,甚至一起玩AR游戲。”
訓練最大的AI模型
當RSC在今年晚些時候完全建成時,Meta將用它來訓練具有超過1萬億個參數的AI模型。這將推動自然語言處理等領域的發展,比如實時識別不法內容等工作。
除了實現規模性能之外,Meta還將超高的可靠性、安全性、隱私性以及處理“各類AI模型”的靈活性作為RSC的關鍵指標。
Meta的AI研究超級集群擁有數百個NVIDIA DGX系統并通過NVIDIA Quantum InfiniBand網絡相連接,助力Meta AI研究團隊提高工作速率。
性能大揭秘
目前,此全新AI超級計算機已經部署了760個NVIDIA DGX A100系統作為其計算節點。共有6080個NVIDIA A100 GPU,通過NVIDIA Quantum 200Gb/s InfiniBand網絡連接,可提供1895(千萬億次)TF32計算性能。
盡管受到新冠疫情的影響,這樣一臺可運行的AI超級計算機從想法到實現,RSC僅用了18個月!“功臣”之一便是采用NVIDIA DGX A100技術作為基石。
Penguin Computing是NVIDIA合作伙伴網絡中負責RSC交付的合作伙伴。除了760個DGX A100系統和InfiniBand網絡之外,Penguin還為Meta提供管理服務和AI基礎架構優化,包括一個46PB高速緩存的Altus系統。
性能提升20倍
這是Meta第二次選擇NVIDIA技術作為其研究平臺的基礎。2017年,Meta打造了第一代AI研究基礎架構,配備了22000個NVIDIA V100 Tensor Core GPU,每日可處理35000項AI訓練工作。
Meta的早期基準測試顯示,RSC訓練大型NLP模型的速度比之前的系統快3倍,運行計算機視覺工作的速度比之前的系統快20倍。
在今年晚些時候的第二階段,RSC將擴展至16000個GPU。Meta認為屆時RSC將提供高達5百億億次級混合精度AI計算性能,并且Meta希望通過擴展RSC的存儲系統,以每秒16TB的速度提供高達1EB的數據。
可擴展架構
NVIDIA AI技術適用于任何規模的企業應用。
NVIDIA DGX包含一個完整的NVIDIA AI軟件棧,可以輕松地從單個系統擴展至完整的DGX SuperPOD,可以在本地或主機托管商處運行。客戶亦可以通過NVIDIA DGX Foundry租用DGX系統。
原文標題:Meta與NVIDIA聯合打造大型AI研究超級計算機
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103067 -
計算機
+關注
關注
19文章
7494瀏覽量
87962 -
AI
+關注
關注
87文章
30896瀏覽量
269108
原文標題:Meta與NVIDIA聯合打造大型AI研究超級計算機
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論