11月9日,黃仁勛在NVIDIA GTC上發表主題演講,發布了一系列新品,包括ReOpt、cuQuantum、cuNumeric,以及Quantum-2平臺、Modulus、Omniverse、Maxine、Clara Holoscan等等。
ReOpt
ReOpt,一款針對運籌優化問題(比如車輛路線安排和倉庫揀選與包裝)的加速求解器,配送14個披薩的路徑有870億種,因此對于達美樂來說,要在30分鐘內將披薩送達并非易事,運籌優化對于最后一公里配送來說是必需的,對于倉儲及制造物流而言也是如此。
路線規劃是一個極其棘手的物流問題,應用到行業里,即使是小規模的路線優化也能節省數十億美元,示例,使用NVIDIA Omniverse中的虛擬倉庫,來展示優化路線在自動訂單揀選場景中帶來的影響,優化后的規劃能夠使訂單揀選節省一半的時間和路程,當前路線優化求解器在收到新的訂單后,需要數小時來重新運行和響應,NVIDIA ReOpt能夠持續運行并實時動態地進行重新優化。
cuQuantum
量子計算依靠的是,疊加和糾纏的自然量子物理現象,因此有潛力解決伴隨組合復雜性增加而出現的問題,在世界各地的大學、科學實驗室、企業和初創公司中,有近100個團隊正在致力于量子處理器、系統、模擬器和算法的研究,但預計還需要十到二十年才能制造出一臺實用的量子計算機。同時,該行業還需要一個超高速的量子模擬器來驗證其研究。
NVIDIA創建了cuQuantum DGX設備,該設備配備有針對量子計算工作流的加速庫,可以使用態矢量和張量網絡的方法,來加速量子電路模擬。曾經需要耗費幾個月時間的模擬現在只需要幾天就可以完成,,NVIDIA將在第1季度推出cuQuantum DGX設備。
通過DGX上的cuQuantum,量子計算機和算法研究人員可以使用當今速度最快的計算機來發明未來的計算機,NVIDIA將在第1季度推出cuQuantum DGX設備。
cuNumeric
Python是科學家、機器學習與AI研究人員使用的編程語言,Python擁有豐富的庫生態系統,包括用于DataFrame進行數據分析的Pandas,用于n維數組與矩陣運算的NumPy,用于機器學習的Scikit-Learn,用于科學計算的SciPy,用于深度學習的PyTorch。Python擁有近2000萬名用戶。
在會上還宣布推出NumPy的插入式加速庫cuNumeric,cuNumeric加速了NumPy從單一GPU擴展到多GPU,擴展到多節點集群,進而擴展到世界上最大的超級計算機,其并行性以隱含的方式自動完成。
cuNumeric具有很好的可擴展性,在著名的CFD Python教學代碼中,cuNumeric能夠擴展至1000個GPU,而擴展效率僅比線性擴展效率損失了20%。
黃仁勛表示,ReOpt、cuQuantum、cuNumeric,三個極佳的新庫。
Quantum-2平臺
在分布式計算中,網絡是計算機的重要中樞神經系統,網絡將數以千計的GPU連接成一個巨型的超級計算機,是其擴展能力和最終性能的決定因素。
Quantum-2是一個400Gbps的InfiniBand平臺,由Quantum-2交換機,ConnectX-7網卡、BlueField-3 DPU以及一整套面向這種新架構的軟件組成,Quantum-2是首個集超級計算機的性能和云計算的多租戶共享能力于一身的網絡平臺。
黃仁勛表示,在Quantum-2之前,我們只能在裸機的高性能或安全的多租戶之間選其一,無法兩者兼得,Quantum-2平臺的出現,使超級計算機擁有了原生云的能力,并得到更好的優化。如果NVIDIA 的Selene DGX超級計算機,如今也配備Quantum-2,則總帶寬將達到每秒224000GB/s,大約是互聯網總流量的1.5倍。
Quantum-2平臺的InfiniBand交換機芯片,共計570億個晶體管,采用臺積電7nm制程,和NVIDIA的A100 GPU相近,支持64個400Gbps端口或128個200Gbps端口,一個基于Quantum-2的系統可連接多達2048個端口,相較于800個端口的Quantum-1的交換容量多了5倍。
采用Dragonfly拓撲,基于Quantum-2的網絡可以僅用3個hop就擴展到100萬個節點,這比當前一代增加了6.5倍,這種網絡速度、交換容量和可擴展性對于需要構建的巨型HPC系統來說來得正是時候,目前Quantum-2交換機正處于樣機階段。
Quantum-2平臺在主機端提供兩個選項:ConnectX-7和BlueFied-3。黃仁勛稱,ConnectX-7將是速度最快的網卡,包含80億個晶體管,采用臺積電7nm制程,是目前世界上速度最快的網絡芯片,比上一代ConnectX-6快兩倍。ConnectX-7樣品將于明年1月問世。
Quantum-2平臺還提供BlueFied-3 InfiniBand系列方案,通過16個64位Arm CPU來卸載和隔離數據中心基礎設施棧操作,BlueFied-3采用臺積電7nm制程,包含220億個晶體管,BlueFied-3樣品將于明年5月問世。
黃仁勛說:“Quantum-2是迄今為止構建的非常先進的網絡平臺,將由頂級計算機制造商提供,這將大大推動高性能計算。”
Modulus
NVIDIA Modulus是一種開發Physics-ML模型的框架,它使用物理原理以及源自原理型模型和觀測結構的數據訓練Physics-ML模型,Modulus已經過優化,可以在多個GPU和多個節點上進行訓練,由此生成的模型,其物理仿真的速度比模擬快1000到10萬倍。
借助Modulus,科學家能夠創建數字孿生模型,以前所未有的方式更好地理解大型系統,Modulus可以用來解決的一個重要問題,即是氣候科學。黃仁勛介紹:“我們可以創造地球的數字孿生模型,它可以持續運行以預測未來,用觀測到的數據進行校準并改進預測,然后再預測。”
研究人員利用歐洲中期天氣預報中心的ERA5大氣數據訓練Physics-ML模型,該模型在128個A100 GPU上訓練需要4個小時,訓練后的模型能以30公里的空間分辨率,預測颶風的嚴重程度和路徑,原本需要7天才能完成的預測,如今在一個GPU上只需四分之一秒。
虛擬世界模擬引擎Omniverse
Omniverse面向數據中心規模設計,Omniverse的門戶是USD(通用場景描述),本質上是一個數字蟲洞,將人和計算機鏈接到Omniverse,并將一個Omniverse世界鏈接到另一個世界,公司可以在Omniverse中建立虛擬工廠,并使用虛擬機器人進行運營。虛擬工廠和機器人是其物理復制品的數字孿生。
自去年年底推出以來,Omniverse已被500家公司的設計師下載了70000次,社區、公司和工具供應商與NVIDIA一起構建Omniverse連接器,14個已經投入運行,還有15個即將推出,Bentley宣布帶有Omniverse的iTwin現在正處于搶先體驗階段,另外還有寶馬和愛立信。
Clara Holoscan
NVIDIA Clara Holoscan,一款軟件定義的可編程影響平臺,以及全新的高速傳感器處理機器人芯片Orin。
基礎Holoscan平臺由Orin和ConnectX-7組成,Orin可以在單個芯片中處理整個機器人流水線,即傳感器、物理、AI、成像和圖形,12個Arm CPU,5.2TFLOPS(FP32),用于AI的250TOPS,740Gbps高速IO用于連接傳感器,使用者可以選擇添加A6000 Ampere GPU獲得另外39TFLOPS(FP32)和超過500TOPS的AI推理性能。
Holoscan平臺是開放的,第三方可以在Holoscan的界面和API的基礎上進行構建,研究人員可以從事重要的新科學研究、儀器制造商可以將Holoscan集成到他們的解決方案中,Holoscan應用程序可以完整部署在設備內、醫院的數據中心或者兩者結合,這使得公司可以開放比設備本身需要更多算力的應用程序,或者升級部署多年的已安裝基礎設備。
黃仁勛在演講的最后表示還有一項公告要發布,“我們將構建一個數字孿生模型來模擬和預測氣候變化,上一臺超級計算機名為Cambridge 1,即C-1,這臺新的超級計算機將名為E-2。Earth Two ,地球的數字孿生,能夠在Omniverse中以Million-X百萬倍的速度運行,目前發明的所有技術,均是實現Earth Two必不可少的,我想象不出比這更宏偉、更重要的用途。”
責任編輯:haq
-
芯片
+關注
關注
456文章
50924瀏覽量
424594 -
NVIDIA
+關注
關注
14文章
5010瀏覽量
103238 -
AI
+關注
關注
87文章
31075瀏覽量
269410
原文標題:黃教主“真身”引爆黑科技,超強GPU、DPU、最快網卡芯片,打造未來“虛擬世界”
文章出處:【微信號:elecfans,微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論