電子發燒友網報道(文/周凱揚)近日 AMD 舉辦了Advancing AI大會,除了發布全新的銳龍 8040系列 AI PC 芯片以外,也終于宣布了 MI300X GPU以及 MI300A APU這兩大 AI 計算重磅新品的出貨。
頂級 AI 計算 GPU MI300X
作為全新 CDNA3架構打造的 AI 加速器,MI300X 的配置可謂豪華,8 組 XCD 共 304 個 CDNA 單元,加上帶寬高達 5.3TB/s 的 192GB顯存。相對上一代 MI250X 而言,計算單元多了接近 40%,內存容量增至 1.5 倍,理論帶寬更是提升至 1.7 倍,同時引入了對 FP8和稀疏計算的支持。
AMD 也在實際用例上與英偉達的 H100 進行了對比,在運行 1760億參數的 BLOOM 大語言模型推理時,其吞吐量可達后者的 1.6 倍。且單塊 MI300X就能運行像 Llama2 這樣 700 億參數的大模型,簡化了企業級 LLM 部署的同時,提供了極致的 TCO 性價比。
首個數據中心 APU 出爐
隨著英偉達開始針對數據中心推出 Grace Hopper Superchip 這樣的 CPU+GPU 打包方案,AMD 這個早在消費級產品上這么干的公司自然也察覺到了個中機遇。于是在本次大會上,AMD 終于宣布首個數據中心 APU,MI300A開始出貨。
在 3D 封裝技術和 AMD Infinity 架構的支持下,MI300A將 CDNA 3架構的 GPU 核心、Zen 4 架構的 CPU 核心以及 128GB 的 HBM3 內存集成在一起。同樣是與 MI250X相比,其在HPC和 AI 負載的 FP32計算上,能耗比近乎翻倍。
得益于統一的內存和緩存,CPU、GPU 與 HBM 之間的數據傳輸延遲大大降低,且均可享受超大的帶寬,無論是在極限性能還是在功耗分配上,都能提供好于獨立方案的表現。
軟件同樣迎來大幅升級
而此次 Advancing AI大會上,AMD不僅對硬件進行了更新,也對其軟件進行了更新,RoCm 這一并行計算框架迎來了第六版,這一版本主要對 AMD 的 Instinct 系列 GPU在生成式 AI 的大語言模型上進行了優化。
作為 AMD 對英偉達的 CUDA 做出的對策方案,ROCm這幾年來已經逐步完善,甚至可以說在開發支持程度上毫不遜色于 CUDA。此次更新不僅增加對新數據類型的支持,還引入了高級圖形和內核優化、庫優化以及最先進的注意力機制算法。以文本生成這一任務為例,與在 MI250 上運行的 ROCm 5 相比,性能提升顯著,總體延遲改善了 8 倍左右。
更重要的是,這次 OpenAI 也來摻了一腳,OpenAI 宣布他們會在 Triton 3.0 上加入對 AMD Instinct 的支持。Triton是一個類Python 的開源編程語言,允許開發者在沒有 CUDA 開發經驗的情況下也能寫出高效的 GPU 代碼,可以視為 CUDA 的精簡版。而在最新的Triton 3.0,可以說 AMD 的Instinct硬件平臺獲得了開箱即用的支持。
其實這次合作早有預示,幾個月前Triton就開始合并 ROCm 的代碼,此前也宣布過增加AMD Instinct以及英特爾XPU 的支持。不過目前 Instinct平臺的ROCm 還是以 Linux 開發為重點,Radeon 平臺的ROCm 則主要集中在對 Windows 的支持上。
寫在最后
這次Advancing AI大會象征了 AMD 對 明年 AI 市場的野心,也難怪 AMD 會將今年數據中心 AI 芯片的市場規模從 6 月份的 300 億美元提高至 450 億美元。未來的MI300X很有可能成為英偉達 H100 最強勁的對手,也有可能成為云服務廠商競相追逐的新計算卡。
-
amd
+關注
關注
25文章
5468瀏覽量
134169 -
AI
+關注
關注
87文章
30896瀏覽量
269111
發布評論請先 登錄
相關推薦
評論