梦入神机,完美的世界 1993 电影,《完美世界》txt全集

懷疑論者對當前人工智能技術的批評之一是內存瓶頸——由于無法加速處理器和內存之間的數據移動——阻礙了有用的現實世界應用程序。

用于在數據中心訓練 AI 模型的 AI 加速器需要可用的最高內存帶寬。在理想情況下，整個模型可以存儲在處理器中，這種方法可以消除等式中的片外存儲器。這是不可能的，因為最大的模型可以測量數十億或數萬億個參數。

過去的系統內存受限，而今天的數據中心架構使用各種技術來克服內存瓶頸。

高帶寬內存

一種流行的解決方案是使用高帶寬內存 (HBM)，它涉及通過硅中介層將 4、8 或 12 個 DRAM 裸片的 3D 堆棧連接到處理器。該技術的最新版本 HBM2E 具有比其前身更快的每針信號速率，每針高達 3.6 Gb/s，從而提高了帶寬。三星和 SK 海力士各自提供 8 個芯片 HBM2E 堆棧，總容量為 16 GB，提供 460 GB/s 帶寬（相比之下，DDR5 為 2.4 GB/s，GDDR6 為 64 GB/s，SK Hynix 表示）。HBM3 旨在將速度和容量推得更高。

英偉達的 A100 數據中心 GPU，帶有六層 HBM2E 內存（出于良率原因，僅使用了五層）（來源：英偉達）

最新版本的 Nvidia 旗艦數據中心 GPU A100提供 80 GB 的 HBM2E 性能和 2 TB/s 的內存帶寬。A100 包含五個 16-GB DRAM 堆棧，加入一個使用 HBM2 的 40-GB 版本，總帶寬為 1.6 TB/s。兩者之間的差異使深度學習推薦模型的 AI 模型訓練速度提高了三倍，這是一種已知的內存消耗。

同時，數據中心 CPU 正在利用 HBM 帶寬。Intel 的下一代 Xeon 數據中心 CPU Sapphire Rapids 將 HBM 引入 Xeon 系列。它們是英特爾首款使用專為 AI 等矩陣乘法工作負載設計的新 AMX 指令擴展的數據中心 CPU。他們還可以使用片外 DDR5 DRAM 或 DRAM 加 HBM。

“通常，CPU 針對容量進行了優化，而加速器和 GPU 針對帶寬進行了優化，”英特爾高級首席工程師 Arijit Biswas 在最近的 Hot Chips 演示中說。“然而，隨著模型大小呈指數級增長，我們看到對容量和帶寬的持續需求沒有權衡取舍。Sapphire Rapids 通過原生支持這兩者來做到這一點。” 通過內存分層進一步增強了該方法，“其中包括對軟件可見的 HBM 和 DDR 的支持，以及使用 HBM 作為 DDR 支持的緩存的軟件透明緩存，”Biswas 補充道。

Sapphire Rapids 的首席工程師 Nevine Nassif 告訴EE Times，HBM 版本是以犧牲芯片面積為代價的。

“[HBM 兼容] 模具略有不同，”Nassif 指出。“還有一個不同于 DDR5 控制器的 HBM 控制器。在沒有 HBM 的 Sapphire Rapids 版本中，我們在芯片的一個區域添加了用于加密、壓縮等的加速器。所有這些都消失了——除了數據流加速器——而 HBM 控制器取而代之。最重要的是，我們必須對網格進行一些更改，以支持 HBM 的帶寬要求，”她補充道。

除了 CPU 和 GPU，HBM 在數據中心 FPGA 中也很受歡迎。例如，英特爾的 Stratix 和賽靈思 Versal FPGA 都有 HBM 版本，一些 AI ASIC 也使用它。騰訊支持的數據中心 AI ASIC 開發商 Enflame 將 HBM 用于其 DTU 1.0 設備，該設備針對云 AI 訓練進行了優化。80 Tflops (FP16/BF16) 芯片使用兩個 HBM2 堆棧，通過片上網絡提供 512 GB/s 帶寬。

燧發DTU 1.0數據中心AI加速芯片有兩層HBM2內存（來源：燧發）

每美元的性能

雖然 HBM 為數據中心 AI 加速器所需的片外內存提供了極高的帶寬，但仍然存在一些值得注意的問題。

Graphcore 就是其中之一。在他的 Hot Chips 演示中，Graphcore 首席技術官 Simon Knowles 指出，在大型 AI 模型中更快的計算需要內存容量和內存帶寬。雖然其他人使用 HBM 來提高容量和帶寬，但權衡包括 HBM 的成本、功耗和熱限制。

Graphcore 對不同內存技術的容量和帶寬的比較。當其他人嘗試使用 HBM2E 解決這兩個問題時，Graphcore 在其 Colossus Mk2 AI 加速器芯片上使用了主機 DDR 內存和片上 SRAM 的組合（來源：Graphcore）

Graphcore 的第二代智能處理單元 (IPU)改為使用其大型片上 896 MiB SRAM 來支持為其 1,472 個處理器內核提供所需的內存帶寬。Knowles 說，這足以避免卸載 DRAM 所需的更高帶寬。為了支持內存容量，太大而無法在芯片上安裝的 AI 模型使用服務器級 DDR 形式的低帶寬遠程 DRAM。該配置連接到主機處理器，允許中型模型分布在 IPU 集群中的 SRAM 上。

鑒于該公司以每美元性能為基礎推廣其 IPU ，Graphcore 拒絕 HBM 的主要原因似乎是成本。

“與 AI 處理器集成的 HBM 的凈成本是每字節服務器級 DDR 成本的 10 倍以上，”他說。“即使容量適中，HBM 也主導著處理器模塊的成本。如果 AI 計算機可以使用 DDR，它可以部署更多 AI 處理器，但總擁有成本相同。”

Graphcore 對 HBM2 與 DDR4 內存的成本分析顯示，前者的成本是后者的 10 倍。（來源：Graphcore）

據 Knowles 稱，40 GB 的 HBM 有效地將封裝的標線大小處理器的成本提高了三倍。Graphcore 的 8 GB HBM2 與 8 GB DDR4 的成本細分估計 HBM 芯片的尺寸是 DDR4 芯片的兩倍（將 20-nm HBM 與 Knowles 認為是同時代的 18-nm DDR4 進行比較），從而增加了制造成本. 然后是 TSV 蝕刻、堆疊、組裝和封裝的成本，以及內存和處理器制造商的利潤率。

“DDR DIMM 不會發生這種邊距堆疊，因為用戶可以直接從內存制造商處采購，”Knowles 說。“事實上，可插拔的計算機組件生態系統出現的一個主要原因是為了避免保證金堆積。”

走得更遠

從 Hot Chips 的隱形模式中脫穎而出，Esperanto 提供了另一種解決內存瓶頸問題的方法。該公司的 1000 核 RISC-V AI 加速器針對的是超大規模推薦模型推理，而不是上面提到的 AI 訓練工作負載。

世界語的創始人兼執行主席戴夫·迪策爾指出，數據中心推理不需要巨大的片上內存。“我們的客戶不想要 250 MB 的芯片，”Ditzel 說。“他們想要 100 MB——他們想用推理做的所有事情都適合 100 MB。任何比這更大的東西都需要更多。”

Ditzel 補充說，客戶更喜歡將大量 DRAM 與處理器放在同一張卡上，而不是在芯片上。“他們建議我們：'只需將所有內容都放到卡上，然后使用您的快速接口。然后，只要您能夠比通過 PCIe 總線更快地獲得 100 GB 的內存，這就是勝利。”

將 Esperanto 的方法與其他數據中心推理加速器進行比較，Ditzel 說其他人專注于消耗整個功率預算的單個巨型處理器。這家初創公司堅持認為，世界語的方法——安裝在雙 M.2 加速卡上的多個低功耗處理器——可以更好地使用片外內存。單芯片競爭對手“引腳數量非常有限，因此他們必須采用 HBM 之類的產品才能在少量引腳上獲得非常高的帶寬，但 HBM 確實很昂貴，而且很難獲得，而且功率很高，”他說。

Esperanto 聲稱通過使用六個較小的芯片而不是單個大芯片解決了內存瓶頸，留下可用于連接 LPDDR4x 芯片的引腳（來源：Esperanto）

Esperanto 的多芯片方法使更多引腳可用于與片外 DRAM 通信。除了六個處理器芯片外，該公司還使用了 24 個專為手機設計的廉價 LPDDR4x DRAM 芯片，在低電壓下運行，“每比特能量與 HBM 大致相同”，Ditzel 說。

“因為 [LPDDR4x] 的帶寬 [比 HBM] 低，我們通過更寬獲得更多帶寬，”他補充道。“我們在加速器卡上的內存系統上使用 1,500 位寬 [而單芯片競爭對手] 負擔不起 1,500 位寬的內存系統，因為對于每個數據引腳，你必須有幾個電源和幾個接地針，針太多了。

“我們之前處理過這個問題，我們說，讓我們分開吧。”

通過 822 GB/s 的內存帶寬訪問 192 GB 的總內存容量。所有 64 位 DRAM 芯片的總和計算出 1536 位寬的內存系統，分成 96 個 16 位通道以更好地處理內存延遲。這一切都符合 120 W 的功率預算。

流水線權重

晶圓級 AI 加速器公司 Cerebras 設計了一個規模遠端的內存瓶頸解決方案。在 Hot Chips 上，該公司發布了 MemoryX，這是一款用于其 CS-2 AI 加速器系統的內存擴展系統，旨在實現高性能計算和科學工作負載。MemoryX 尋求能夠訓練具有萬億或參數的巨大 AI 模型。

Cerebras 的 MemoryX 系統是其 CS-2 晶圓級引擎系統的片外內存擴展，其行為就像在片上一樣（來源：Cerebras）

MemoryX 是 DRAM 和閃存的組合，其行為就像在芯片上一樣。該架構被提升為彈性，旨在容納 4 TB 到 2.4 PB（2000 億到 120 萬億個參數），足以容納世界上最大的 AI 模型。

Cerebras 的聯合創始人兼首席硬件架構師 Sean Lie 表示，為了使其片外內存表現得像片上一樣，Cerebras 優化了 MemoryX，以消除延遲影響的方式將參數和權重數據流式傳輸到處理器。

“我們將內存與計算分開，從根本上分解它們，”他說。“通過這樣做，我們使溝通變得優雅而直接。我們可以這樣做的原因是神經網絡對模型的不同組件使用不同的內存。因此，我們可以為每種類型的內存和每種類型的計算設計一個專門構建的解決方案……”

結果，這些組件被解開，從而“簡化了縮放問題，”Lie 說。

Cerebras 使用流水線在 AI 訓練期間消除對延遲敏感的通信。（來源：大腦）

在訓練期間，必須立即訪問對延遲敏感的激活記憶。因此，Cerebras 將激活保留在芯片上。

Cerebras 將權重存儲在 MemoryX 上，然后根據需要將它們流式傳輸到芯片上。Lie 說，在沒有背靠背依賴性的情況下，權重記憶的使用相對較少。這可以用來避免延遲和性能瓶頸。粗粒度流水線還避免了層之間的依賴關系；層的權重在前一層完成之前開始流式傳輸。

同時，細粒度流水線避免了訓練迭代之間的依賴關系；后向傳播中的權重更新與同一層的后續前向傳播重疊。

“通過使用這些流水線技術，權重流執行模型可以隱藏外部權重的額外延遲，如果權重在晶圓上本地 [訪問]，我們可以達到相同的性能，”Lie 說。

審核編輯黃昊宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

內存

內存

+關注

關注
8

文章
3030

瀏覽量
74104
AI

AI

+關注

關注
87

文章
30998

瀏覽量
269304

拋棄8GB內存，端側AI大模型加速內存升級

電子發燒友網報道（文/黃晶晶）端側AI大模型的到來在存儲市場產生了最直接的反應。年初在我們對旗艦智能手機的存儲容量統計中，16GB內存+512GB存儲成為幾乎所有旗艦機型都提供的選擇。畢竟AI大模型

發表于 11-03 00:02 ?4392次閱讀

拋棄8GB<b class='flag-5'>內存</b>，端側<b class='flag-5'>AI</b>大模型加速<b class='flag-5'>內存</b>升級

內存擴展CXL加速發展，繁榮AI存儲

和IO墻的瓶頸。它通過PCI Express的物理層，提供低延遲和高帶寬的連接，旨在支持下一代數據中心的高性能計算和內存密集型工作負載。 ? CXL主要有CXL.io、CXL.cache

發表于 08-18 00:02 ?4899次閱讀

<b class='flag-5'>內存</b>擴展CXL加速發展，繁榮<b class='flag-5'>AI</b>存儲

Cadence如何應對AI芯片設計挑戰

生成式 AI 引領智能革命成為產業升級的核心動力并點燃了“百模大戰”。多樣化的大模型應用激增對高性能AI 芯片的需求，促使行業在摩爾定律放緩的背景下，加速推進 2.5D、3D 及 3.5D 異構集成技術。與此同時，AI 的驅動作

發表于 12-14 15:27 ?691次閱讀

英偉達加速認證三星AI內存芯片

近日，英偉達公司正在積極推進對三星AI內存芯片的認證工作。據英偉達CEO透露，他們正在不遺余力地加速這一進程，旨在盡快將三星的內存解決方案融入其產品中。此次認證工作的焦點在于三星的HBM3E

發表于 11-25 14:34 ?257次閱讀

AI如何對產品設計帶來更多的可能性？

AI(人工智能)對產品設計帶來了廣泛而深遠的可能性，這些可能性主要體現在以下幾個方面 1.創新設計的激發創意生成:AI能夠學習和模仿人類設計師的創作過程，通過深度學習等技術生成全新的、獨特

發表于 10-15 11:29 ?259次閱讀

AI訓練狂飆，DDR5集成PMIC護航，內存技術持續助力

電子發燒友網報道（文/黃晶晶）AI訓練數據集正高速增長，與之相適應的不僅是HBM的迭代升級，還有用于處理這些海量數據的服務器內存技術的不斷發展。 ? 以經過簡化的AI訓練管道流程來看，在數據采集進來

發表于 07-04 09:09 ?3672次閱讀

用AI解鎖創意設計新思路

? 在數字化浪潮的推動下，創意設計領域正經歷一場由人工智能（AI）引領的深刻變革。AI技術的崛起不僅顯著提升了設計工作的效率，還為設計師們開辟了前所未有的創新空間。隨著AI技術的持續

發表于 06-26 10:44 ?317次閱讀

AIGC遇上ChatGPT，互聯網公司的創意設計師，還能做什么？

隨著科技的日新月異，AIGC（人工智能生成內容）和ChatGPT等AI技術的涌現，為互聯網公司的創意設計師們描繪了一幅充滿挑戰與機遇的新圖景。在這個數字化、智能化的新時代，創意設計師們不僅要保持敏銳

發表于 06-25 13:32 ?308次閱讀

美光內存助力未來AI技術更強大、更智能

近日，美光團隊在 NVIDIA GTC 大會上展示了業界前沿的 AI 內存和存儲產品組合。這些產品引起了參展商和與會者的極大興趣和廣泛關注，本博客介紹了其中的一些細節。美光內存正在推動和引領面向未來的

發表于 06-18 14:29 ?619次閱讀

蘋果Apple Intelligence功能受限:端側AI發展的存儲瓶頸凸顯

Intelligence功能，因受到存儲限制的影響，無法在其所有設備上全面使用，這一狀況無疑揭示了蘋果在端側AI發展上的存儲瓶頸。

發表于 06-14 14:15 ?671次閱讀

蘋果資深設計師離職

近日，蘋果公司內部傳出一則消息，擁有25年經驗的資深設計師鄧肯·科爾已決定離開這個他傾注了無數心血的公司。這一決定意味著艾維時期的關鍵設計人物已幾乎全部離職，為蘋果的設計團隊帶來了不小的震動。

發表于 05-10 10:03 ?352次閱讀

聯想小新Pro 2024 AI銳龍版支持7500MHz內存與核顯性能提升

近日，聯想旗下的小新 Pro 2024 AI 銳龍版迎來了新的 OTA 升級，并支持高達 7500MHz 的內存頻率（實測為 7467 MT/s）。

發表于 04-30 15:17 ?1195次閱讀

帶你做PCB設計師中最靚的崽

咱就是說，作為一名合格的PCB設計師，怎么可能只是簡單地畫畫電路板就行？那不得同時具備超凡耐心和堅韌毅力，不然如何在反復迭代與精細調整中確保設計的準確無誤；而且還得擁有廣博的知識儲備，不然如何輕松

發表于 04-23 15:44 ?1041次閱讀

學起來！做PCB設計師中最靚的崽

咱就是說，作為一名合格的PCB設計師，怎么可能只是簡單地畫畫電路板就行？那不得同時具備超凡耐心和堅韌毅力，不然如何在反復迭代與精細調整中確保設計的準確無誤；而且還得擁有廣博的知識儲備，不然

發表于 04-10 17:36

新型內存技術助力存儲網絡變革，將替代DRAM

　值得注意的是，持久內存是一種內存與外部存儲器的結合體，具備迅速持久化特性，對于硬盤讀寫次數頻繁引發性能瓶頸問題，存在突破解決之道。

發表于 02-22 15:03 ?622次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

設計師如何應對 AI 的內存瓶頸

評論

拋棄8GB內存，端側AI大模型加速內存升級

內存擴展CXL加速發展，繁榮AI存儲

Cadence如何應對AI芯片設計挑戰

英偉達加速認證三星AI內存芯片

AI如何對產品設計帶來更多的可能性？

AI訓練狂飆，DDR5集成PMIC護航，內存技術持續助力

用AI解鎖創意設計新思路

AIGC遇上ChatGPT，互聯網公司的創意設計師，還能做什么？

美光內存助力未來AI技術更強大、更智能

蘋果Apple Intelligence功能受限:端側AI發展的存儲瓶頸凸顯

蘋果資深設計師離職

聯想小新Pro 2024 AI銳龍版支持7500MHz內存與核顯性能提升

帶你做PCB設計師中最靚的崽

學起來！做PCB設計師中最靚的崽

新型內存技術助力存儲網絡變革，將替代DRAM