來源: NVIDIA
在此次大會期間舉行的四場演講中,NVIDIA 工程師詳細介紹了 NVIDIA Blackwell 平臺、新的液冷研究成果以及支持芯片設計的 AI 代理。
作為面向產業界和學術界、在處理器及系統架構師領域的深度技術盛會,Hot Chips 已經成為價值萬億美元的數據中心計算市場的一個重要論壇。
在本周舉行的 Hot Chips 2024 上,NVIDIA 的高級工程師們展示了為 NVIDIA Blackwell 平臺提供動力的最新技術進展,以及新的數據中心液冷研究成果和用于芯片設計的 AI 代理。
他們圍繞如下內容展開了介紹:
NVIDIA Blackwell 集合了多種芯片、系統和 NVIDIA CUDA 軟件,為跨應用場景、行業和國家的新一代 AI 提供動力。
NVIDIA GB200 NVL72——一個多節點、液冷、機架級擴展解決方案,可連接72個Blackwell GPU 和36個 Grace CPU——提升了AI系統設計的標準。
NVLink 互連技術提供多對多 GPU 間的通信,為生成式 AI 實現創紀錄的高吞吐量和低延遲推理。
NVIDIA Quasar 量化系統突破物理極限,加速 AI 計算。
NVIDIA 研究人員正在構建 AI 模型,此模型將協助打造用于 AI 的處理器。
在一場關于 NVIDIA Blackwell 的演講中,重點介紹了新架構的細節以及在 Blackwell 芯片上運行的生成式 AI 模型的示例。
另外的三場講座,內容涵蓋混合液冷解決方案如何幫助數據中心過渡到能效更高的基礎設施,以及包括大語言模型驅動的 AI 代理在內的模型如何幫助工程師設計下一代處理器。
這些演講共同展示了 NVIDIA 工程師們在數據中心計算和設計的每一個領域都在進行創新,以提供前所未有的性能、能效和優化。
為 Blackwell 做好準備
NVIDIA Blackwell 是全棧計算的極限挑戰。它由多個 NVIDIA 芯片組成,包括 Blackwell GPU、Grace CPU、BlueField 數據處理器、ConnectX 智能網卡、NVLink Switch、Spectrum 以太網交換機和 Quantum InfiniBand 交換機。
NVIDIA 架構總監 Ajay Tirumala 和 Raymond Wong 現場首次展示了該平臺,并解釋了這些技術是如何協同配合,在提高能效的同時為 AI 和加速計算的性能確立新的標準。
多節點 NVIDIA GB200 NVL72 解決方案正是一個恰如其分的例子。LLM 推理需要低延遲、高吞吐量的 token 生成。GB200 NVL72 作為一個統一的系統,為 LLM 工作負載提供最多至 30 倍的推理速度提升,使得實時運行萬億參數模型成為可能。
Tirumala 和 Wong 還探討了 NVIDIA Quasar 量化系統如何在低精度模型上實現高準確度,并重點介紹了使用 LLM 和視覺生成式 AI 的例子。NVIDIA Quasar 量化系統結合了算法創新、NVIDIA 軟件庫和工具以及 Blackwell 的第二代 Transformer 引擎。
讓數據中心保持“涼爽”
通過風冷和液冷結合的混合冷卻,研究人員開發出了更高效和可持續的解決方案,有望讓傳統風冷數據中心的嗡嗡作響成為歷史。
與風冷技術相比,液冷技術能夠更高效地為系統散熱,從而使計算系統即使在處理大型工作負載時也更容易保持低溫狀態。液冷設備也比風冷系統占用更少的空間,耗電量更低,從而使數據中心可以在其設施中添加更多服務器機架,以增加更多算力。
NVIDIA 數據中心冷卻和基礎設施總監 Ali Heydari 介紹了幾種混合冷卻數據中心的設計方案。
有些設計方案利用液冷單元改造現有的風冷數據中心,為現有機架增加液冷功能提供了一種快速、便捷的解決方案。其它設計方案則需要使用冷卻液分配單元,安裝管道以直接對芯片進行液體冷卻,或者將服務器完全浸入到冷卻水箱中。盡管這些設計需要較大的前期投資,但卻能夠大幅降低能耗和運營成本。
Heydari 還介紹了其團隊在 COOLERCHIPS 項目中的工作,這個項目旨在開發先進的數據中心冷卻技術。作為該項目的一部分,Heydari 的團隊正在使用 NVIDIA Omniverse 平臺來創建基于物理的數字孿生,這將幫助他們對能耗和冷卻效率進行建模,以優化數據中心設計。
AI 代理助力處理器設計
半導體設計在微觀尺度上是一個巨大的挑戰。開發尖端處理器的工程師們努力在一個幾英寸大的芯片上裝進盡可能多的算力,測試物理上可以實現的極限。
通過提高設計質量和生產力、提高人工流程的效率以及自動化處理一些耗時的任務,AI 模型正在為工程師們的工作提供支持。這些模型包括幫助工程師快速分析和改進設計的預測和優化工具,以及可以幫助解答工程師的問題、生成代碼、調試設計問題等的 LLM。
NVIDIA 設計自動化研究總監 Mark Ren 在一場講座中對上述這些模型及其應用進行了總體介紹。在另一場會議中,他還重點介紹了用于芯片設計的基于 AI 代理的系統。
由 LLM 驅動的 AI 代理可以被引導自主完成任務,從而在各行各業解鎖廣泛的應用。在微處理器設計方面,NVIDIA 研究人員正在開發基于代理的系統,這種系統可以使用定制的電路設計工具進行推理和采取行動,與經驗豐富的設計師互動,并從人類和代理積累的經驗的數據庫中學習。
NVIDIA 專家們不僅正在打造這項技術,也在使用它。Mark Ren 分享了幾個例子,包括工程師如何將 AI 代理用于時序報告分析、單元集群優化流程和代碼生成。在第一屆 IEEE 大語言模型輔助設計國際研討會(LAD'24)上,這項單元集群優化工作榮膺最佳論文。
【近期會議】
10月30-31日,由寬禁帶半導體國家工程研究中心主辦的“化合物半導體先進技術及應用大會”將首次與大家在江蘇·常州相見,邀您齊聚常州新城希爾頓酒店,解耦產業鏈市場布局!https://w.lwc.cn/s/uueAru
11月28-29日,“第二屆半導體先進封測產業技術創新大會”將再次與各位相見于廈門,秉承“延續去年,創新今年”的思想,仍將由云天半導體與廈門大學聯合主辦,雅時國際商訊承辦,邀您齊聚廈門·海滄融信華邑酒店共探行業發展!誠邀您報名參會:https://w.lwc.cn/s/n6FFne
聲明:本網站部分文章轉載自網絡,轉發僅為更大范圍傳播。 轉載文章版權歸原作者所有,如有異議,請聯系我們修改或刪除。聯系郵箱:viviz@actintl.com.hk, 電話:0755-25988573
審核編輯 黃宇
-
NVIDIA
+關注
關注
14文章
4986瀏覽量
103066 -
數據中心
+關注
關注
16文章
4778瀏覽量
72129
發布評論請先 登錄
相關推薦
評論