盗墓笔记小说全集,穿越小说排行榜,盗墓笔记txt全集下载

專為生成式AI設計的GPU：HBM密度是英偉達H100的2.4倍，帶寬是英偉達H100的1.6倍。

英偉達的頭號勁敵AMD，終于放出了令人期待已久的AI大招。

2014年，蘇姿豐成為AMD CEO時，這家芯片企業正瀕臨生存危機，裁員約1/4，股價徘徊在2美元。隨后在蘇姿豐的掌舵之下，AMD完成了漂亮的轉身，9年來股價飆升近30倍，對英偉達和英特爾兩家頂級芯片巨頭形成了制衡。隨著生成式AI颶風席卷全球，英偉達GPU被各家大廠爭相搶購，焦點很快轉移到AMD身上——AMD能否生產出足夠強大的AI芯片來打破英偉達近乎壟斷的市場地位，抓住新一波AI浪潮？ 今日，AMD交出階段性答卷。

在展示下一代AI芯片MI300X加速器時，蘇姿豐滿面笑容地說：“我愛這顆芯片”。 MI300X是一個純GPU版本，采用AMD CDNA 3技術，使用多達192 GB的HBM3高帶寬內存來加速大型語言模型和生成式AI計算。 AMD主要客戶將在第三季度開始試用MI300X，第四季度開始全面生產。另一種型號Instinct MI300A現在正在向客戶發售。蘇姿豐說，人工智能是AMD“最大、最具戰略意義的長期增長機會”。現場，AMD與明星AI獨角獸企業Hugging Face宣布了一項新的合作伙伴關系，為AMD的CPU、GPU和其他AI硬件優化他們的模型。

除了AI芯片外，AMD還推出專為云計算和超大規模用戶設計的全新EPYC服務器處理器，代號為Bergamo，每個插槽最多包含128個內核，并針對各種容器化工作負載進行了優化。亞馬遜旗下云計算部門AWS、甲骨文云、Meta、微軟Azure的高管均來到現場，分享在其數據中心使用AMD芯片及軟件的感受。

01. 加速生成式AI： 192GB HBM3，單個GPU跑大模型

此前，AMD Instinct GPU已經被許多世界上最快的超級計算機采用。

MI300X加速器是AMD Instinct MI300系列的新成員，提供一個僅有GPU配置的芯片版本。

MI300X及其CDNA架構專為大型語言模型和其他先進AI模型而設計，將12個5nm chiplets封裝在一起，共有1530億顆晶體管。

這款全新AI芯片舍棄了APU的24個Zen內核和I/O芯片，轉而采用更多的CDNA 3 GPU和更大的192GB HBM3，提供5.2 TB/s的內存帶寬和896GB/s的無限帶寬。

MI300X的HBM密度是英偉達H100的2.4倍，帶寬是英偉達H100的1.6倍，這意味著AMD可以運行比英偉達芯片更大的模型。

AMD演示了在單個MI300X GPU上運行擁有400億個參數的Falcon-40B大型語言模型，讓它寫了一首關于舊金山的詩。

“模型尺寸變得越來越大，你需要多個GPU來運行最新的大型語言模型，”蘇姿豐說，隨著AMD芯片上內存增加，開發者將不需要那么多GPU。

另一款MI300A被蘇姿豐稱作“面向AI和高性能計算的全球首款APU加速器”，將多個CPU、GPU和高帶寬內存封在一起，在13個chiplets上擁有1460億顆晶體管。

MI300A采用5nm和6nm制程、CDNA 3 GPU架構，搭配24個Zen 4核心、128GB HBM3，相比MI250提供了8倍以上的性能和5倍以上的效率。 AMD還公布了一種AMD Infinity架構。該架構將8個 MI300X加速器連接在一個考慮了AI推理和訓練的標準系統中，提供共1.5TB HBM3內存。

據臺媒報道，AMD的Instinct MI300系列以及英偉達的H100/H800系列GPU都在采用臺積電先進的后端3D封裝方法CoWoS，導致臺積電CoWoS產能短缺將持續存在。臺積電目前有能力每月處理大約8000片CoWoS晶圓，其中英偉達和AMD合計占了大約70%到80%。

此外，英偉達近年備受開發者偏愛的一大關鍵護城河是CUDA軟件。AMD 總裁Victor Peng也展示了AMD在開發軟件生態方面所做的努力。 AMD計劃在AI軟件生態系統開發中采用“開放（Open）、成熟（Proven）、就緒（Ready）”的理念。

AMD的ROCm是一套完整的庫和工具，用于優化AI軟件棧。不同于CUDA，這是一個開放的平臺。

AMD還分享了PyTorch與ROCm的合作。新的PyTorch 2.0的速度幾乎是之前版本的兩倍。AMD是PyTorch基金會的創始成員之一。

AMD正在不斷優化ROCm。Victor Peng說：“雖然這是一段旅程，但我們在構建可與模型、庫、框架和工具的開放生態系統協同工作的強大軟件棧方面取得了真正的巨大進步。”

02. 云原生處理器Bergamo： 128核，256個線程，最高vCPU密度

再來看下AMD的數據中心CPU。蘇姿豐首先分享了AMD EPYC處理器的進展，特別是在全球范圍內可用的云計算實例方面。

她強調說，AMD第四代EPYC Genoa處理器在云計算工作負載方面的性能是英特爾競品的1.8倍，在企業工作負載方面的性能提高到1.9倍。

絕大多數AI都在CPU上運行，AMD稱，與英特爾至強8490H相比，第四代EPYC在性能上遙遙領先，性能優勢高出1.9倍。

蘇姿豐說，云原生處理器以吞吐量為導向，需要最高的性能、可擴展性、計算密度和能效。

新發布的Bergamo，便是云原生處理器市場的入口。

該芯片有820億顆晶體管，提供了最高的vCPU密度。

在大散熱器下，有一個表面看起來非常像以前的EPYC的芯片，跟與Rome或Milan一樣有中央I/O芯片和8個核心復合芯片（CCD）。

Bergamo的每個插槽有多達128個核心、256個線程，分布在8個CCD上，每個CCD的核心數量是Genoa 16個核心的兩倍，采用比標準Zen 4內核提供更高密度的全新Zen 4c核心設計，并支持一致的x86 ISA。

“Zen 4c針對性能和功耗的最佳平衡點進行了優化，這為我們提供了更好的密度和能效，”蘇姿豐在演講中談道，“結果設計面積縮小了35%，每瓦性能顯著提高。”

Bergamo現在正在向AMD的云客戶發貨。AMD還分享了第四代EPYC 9754與英特爾至強8490H的性能、密度和能效和對比：

除了Bergamo的新核心和Chiplet架構之外，該處理器與Genoa有很多共同之處，包括支持12通道DDR5內存、最新PCIe 5.0、單插槽或雙插槽配置等等。不過，多核心不再只是AMD處理器獨有的特色。

不久之前，數據中心處理器新起之秀Ampere Computing剛推出擁有多達192個單線程Ampere核心的Ampere One系列處理器。

英特爾也計劃在2024年初推出內核優化的至強處理器Sierra Forest，將內置144個高效能核心。 AMD還展示了其最新的緩存堆疊X芯片，代號為Genoa-X，現已上市。

該芯片針對高性能計算工作負載，包括計算流體動力學、電子設計自動化、有限元分析、地震層析成像及其他帶寬敏感型工作負載，這些工作負載受益于大量共享緩存。

Genoa-X CPU基于AMD的標準Genoa平臺，采用AMD 3D V-Cache技術，通過在每個CCD上垂直堆疊SRAM模塊來提高可用的L3緩存。

該芯片可提供多達96個內核和總計1.1GB的L3高速緩存，每個CCD上堆疊了一個64MB SRAM塊。據AMD披露的數據，在各種計算流體動力學和有限元分析工作負載方面，與英特爾最高規格的60核Sapphire Rapids至強相比，Genoa-X緩存提升的性能提高到2.2倍到2.9倍。

03. 即將推出全新DPU

最后，AMD簡要介紹了其網絡基礎設施。去年AMD以19億美元收購Pensando，進入DPU賽道。AMD解釋了如何使用其DPU來減少數據中心的網絡開銷。

AMD將其P4 DPU架構稱作“世界上最智能的DPU”，并稱其Pensando SmartNIC是新數據中心架構不可或缺的一部分。

AMD還在現場展示了與Aruba Networks共同開發的智能交換機。AMD計劃將P4 DPU卸載集成到網絡交換機本身，從而提供機架級服務。

AMD最新的DPU旨在從CPU卸載網絡、安全和虛擬化任務，與當前一代P4 DPU相比將提供更高的性能和能效。其DPU已得到微軟、IBM云、甲骨文云等許多主要云提供商以及VMware虛擬機管理程序等軟件套件的支持。 AMD打算在今年晚些時候推出Giglio DPU之前擴大兼容軟件列表，推出“芯片軟件開發工具包”，以便用戶更輕松地在其DPU上部署工作負載。

04. 結語：到2027年，數據中心AI加速器 市場規模將超過1500億美元

全球數據中心GPU和CPU的頭部企業英偉達和英特爾均在強調其加速AI的實力。作為這兩條賽道“萬年老二”的AMD，也在競相滿足對AI計算日益增長的需求，并通過推出適應最新需求的數據中心GPU來挑戰英偉達在新興市場的主導地位。

生成式AI和大型語言模型的應用熱潮正在將數據中心推向極限。截至目前，英偉達在提供處理這些工作負載所需的技術方面具有優勢。根據市場調研機構New Street Research的數據，英偉達占據了可用于機器學習的GPU市場的95%。 “我們仍處于AI生命周期的非常、非常早的階段，”蘇姿豐預測，到2027年，數據中心AI加速器總潛在市場規模將增長5倍，從今年的300億美元左右以超過50%的復合年增長率增長到2027年的1500億美元以上。

AMD并未透露兩款MI300新芯片的價格，但這可能會給英偉達帶來一定價格壓力，之前H100價格據傳高達30000美元乃至更多。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

amd

amd

+關注

關注
25

文章
5485

瀏覽量
134430
加速器

加速器

+關注

關注
2

文章
805

瀏覽量
37997
晶體管

晶體管

+關注

關注
77

文章
9734

瀏覽量
138669
英偉達

英偉達

+關注

關注
22

文章
3829

瀏覽量
91634
AI芯片

AI芯片

+關注

關注
17

文章
1901

瀏覽量
35143

原文標題：1530億顆晶體管！AMD甩出最強AI芯片，單個GPU跑大模型

文章出處：【微信號：IC修真院，微信公眾號：IC修真院】歡迎添加關注！文章轉載請注明出處。

AMD最強AI芯片，性能強過英偉達H200，但市場仍不買賬，生態是最大短板？

。 ? 其中，全新旗艦AI芯片的型號為AMD Instinct MI325X GPU，雖然仍然是采用CDNA 3架構，但是相較于AMD In

發表于 10-14 01:32 ?3521次閱讀

<b class='flag-5'>AMD</b><b class='flag-5'>最強</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>，性能強過英偉達H200，但市場仍不買賬，生態是最大短板？

小米加速布局AI大模型，搭建GPU萬卡集群

近日，有消息稱小米正在緊鑼密鼓地搭建自己的GPU萬卡集群，旨在加大對AI大模型的投入力度。據悉，小米的大模型團隊在成立之初就已經擁有了6500張GP

發表于 12-28 14:25 ?232次閱讀

GPU是如何訓練AI大模型的

在AI模型的訓練過程中，大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來，AI部落小編帶您了解GPU

發表于 12-19 17:54 ?193次閱讀

《CST Studio Suite 2024 GPU加速計算指南》

的GPU不能在單個主機系統中組合使用。 - AMD GPU：目前只有時域求解器（FIT）支持AMD G

發表于 12-16 14:25

訓練AI大模型需要什么樣的gpu

訓練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時，需要根據具體需求進行權衡和選擇。

發表于 12-03 10:10 ?171次閱讀

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

CPU、GPU的演進歷程,AI專用芯片或將引領未來計算平臺的新方向。正如愛因斯坦所說：\"想象力比知識更重要\" —— 在芯片設計領域,創新思維帶來的突破往往令人驚嘆。

發表于 11-24 17:12

AMD發布10億參數開源AI模型OLMo

AMD公司近日宣布了一項重大進展，推出了首個完全開放的10億參數語言模型系列——AMD OLMo。這一舉措為開發者和研究人員提供了強大的AI研究工具，有助于推動

發表于 11-12 18:08 ?477次閱讀

為什么ai模型訓練要用gpu

GPU憑借其強大的并行處理能力和高效的內存系統，已成為AI模型訓練不可或缺的重要工具。

發表于 10-24 09:39 ?372次閱讀

AMD發布新一代AI芯片MI325X

在舊金山舉辦的Advancing AI 2024大會上，AMD正式推出了其新一代AI芯片——GPU AM

發表于 10-11 15:55 ?453次閱讀

英偉達發布AI模型 Llama-3.1-Nemotron-51B AI模型

模型在單個H100 GPU上的表現非常優秀，在推理過程中可以在單個 GPU 上運行 4 倍以上的工作負載。這使得單片H100

發表于 09-26 17:30 ?640次閱讀

AI初出企業Cerebras已申請IPO！稱發布的AI芯片比GPU更適合大模型訓練

美國加州，專注于研發比GPU更適用于訓練AI模型的晶圓級芯片，為復雜的AI應用構建計算機系統，并與阿布扎比科技集團G42等機構合作構建超級計

發表于 06-26 00:09 ?2957次閱讀

為什么跑AI往往用GPU而不是CPU？

GPU的能力，并且支持的GPU數量越多，就代表其AI性能越強大。那么問題來了，為什么是GPU而不是CPU？GPU難道不是我們日常使用的電腦里

發表于 04-24 08:27 ?2001次閱讀

國產GPU在AI大模型領域的應用案例一覽

電子發燒友網報道（文/李彎彎）近一年多時間，隨著大模型的發展，GPU在AI領域的重要性再次凸顯。雖然相比英偉達等國際大廠，國產GPU起步較晚、聲勢較小。不過近幾年，國內不少

發表于 04-01 09:28 ?3974次閱讀

FPGA在深度學習應用中或將取代GPU

現場可編程門陣列 (FPGA) 解決了 GPU 在運行深度學習模型時面臨的許多問題在過去的十年里，人工智能的再一次興起使顯卡行業受益匪淺。英偉達 (Nvidia) 和 AMD 等公司的股價也大幅

發表于 03-21 15:19

海信發布電視行業最強中文大模型，開啟電視AI新時代

3月15日，“海信視像 AI美好生活”全場景顯示新品發布會上，海信正式發布了自研星海大模型，這也是目前電視行業最強中文大模型。

發表于 03-18 14:24 ?389次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

AMD甩出最強AI芯片單個GPU跑大模型

評論

AMD最強AI芯片，性能強過英偉達H200，但市場仍不買賬，生態是最大短板？

小米加速布局AI大模型，搭建GPU萬卡集群

GPU是如何訓練AI大模型的

《CST Studio Suite 2024 GPU加速計算指南》

訓練AI大模型需要什么樣的gpu

《算力芯片高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

AMD發布10億參數開源AI模型OLMo

為什么ai模型訓練要用gpu

AMD發布新一代AI芯片MI325X

英偉達發布AI模型 Llama-3.1-Nemotron-51B AI模型

AI初出企業Cerebras已申請IPO！稱發布的AI芯片比GPU更適合大模型訓練

為什么跑AI往往用GPU而不是CPU？

國產GPU在AI大模型領域的應用案例一覽

FPGA在深度學習應用中或將取代GPU

海信發布電視行業最強中文大模型，開啟電視AI新時代

搜索歷史

AMD甩出最強AI芯片 單個GPU跑大模型

評論

AMD甩出最強AI芯片單個GPU跑大模型