武道至尊帝临小说,千年殇,盗墓笔记

在目前廣泛應用于AI的內存方案中，包括片上存儲、HBM和GDDR。

作者 | 吳優

人工智能經過幾十年的發展，在數據爆炸時代正處于良性循環，大量的數據用于制造和訓練神經網絡，而后利用神經網絡篩選并理解這些數據。

不過，我們仍然對于更好的人工智能有巨大需求，據Open AI的一份報告顯示，從2012到2019年，人工智能訓練集增長將近30萬倍，每3.43個月翻一番，比摩爾定律快25000倍，在摩爾定律將近失效的今天，那么怎么樣才能讓人工智能提供更好的性能？

內存帶寬限制人工智能模型本身

早在兩年前，業內就有人提出，在計算能力和數據量足夠的年代里，內存帶寬才是人工智能發展的瓶頸。

德克薩斯高級計算中心（TACC）研究科學家曾在其2016年的報告《HPC系統中的內存帶寬和系統平衡》中比較過去25年某些HPC服務器的浮點計算情況，結果顯示內存、網絡延遲和帶寬大幅度落后于處理器性能，其中內存帶寬大約每十年落后浮點計算4.5倍。

“一個非常有趣的現象是，內存對人工智能的限制一部分體現在人工智能模型本身，以及用來訓練這些模型的數據量規模急劇增長。”Rambus 大中華區總經理蘇雷在Rambus 2020中國設計峰會上說到。

根據蘇雷的介紹，這種限制在人工智能傳統訓練模型和并行訓練模型上均有體現。

傳統神經網絡訓練通常只使用一個AI/ML引擎，即將神經網絡模型和訓練數據全都嵌入一顆芯片中，訓練的數據在芯片中迭代循環，通過不斷更新模型實現對數據的分類、識別和處理，這一場景下其性能直接取決于計算引擎和緩存速度、內存帶寬。

為提高數據訓練時間，具體多個AI/ML引擎的神經網絡得以出現，這種方法是神經網絡模型的完整副本同時嵌入多個芯片中，神經網絡模型所需的訓練工作量被均分到每一顆芯片中，多個芯片引擎并行處理訓練集，進而提高訓練時間。

并行方案的每一個訓練步驟可分為兩個階段，每個階段受到的帶寬限制不盡相同。

在第一階段，每個訓練的并行引擎將通過它們的訓練結果更新其模型副本，因此并行訓練的每個芯片在運行完每一次訓練迭代后，都會有不同的訓練更新，因此這一階段數據傳輸到芯片的速度直接取決于內存帶寬的大小。

在第二階段，即規約階段（Reduction），需要每個引擎與所有其它引擎交互更新信息，讓芯片彼此了解其它芯片的更新并接受來著其他芯片的更新，得以更新自己的模型，恢復模型間的同步，再次擁有相同的模型副本。顯然，這一階段的性能主要取決于芯片間鏈路帶寬的限制。

HBM 2和GDDR 6，更多的內存選擇

“為縮小內存帶寬和高性能浮點計算之間的差距等問題，我們有新的系統架構和面向特定領域的硅，或者將更多的數據直接放在芯片上，以獲得更高的帶寬，更好的功率和更低的延遲，但是數據總是越來越大，需要更多的內存，所以依然需要在片外存儲器和鏈路性能上取得突破。”Raymond Su表示。

在目前廣泛應用于AI的內存方案中，片上存儲（On-Chip Memory）就是Raymond Su所言的擁有最高帶寬和功率效率但容量有限的方案，其他兩種方案分別是HBM和GDDR，即DRAM解決方案。

HBM是一種基于3D堆棧工藝的高性能DRAM。第一代HBM誕生于2013年，最新一代HBM標準已經演進到HBM2E，能夠支持12個DRAM的堆棧，內存容量高達每堆棧24GB，當傳輸速率達到每管腳3.6Gbps時，HBM2E可以實現每堆棧461GB/s的內存帶寬。

由于HBM2E堆棧需要通過高達1700多條數據“線”的接口連接到相關處理器，遠遠超過標準PCB能夠支持的范圍，因此使用硅中介層作為連接內存堆棧和處理器的中介，在硅中介層中完成精細的數據走線，獲得HBM接口所需數量的數據線數。

HBM2E通過堆疊技術實現高帶寬和高容量，但由于硅中介層的使用，成本偏高。

GDDR是雙倍數據傳輸率存儲器，采用傳統的方法將標準PCB和測試的DRAMs與SoC連接在一起，具有較高的帶寬和較好的能耗效率，其缺點在于更難保證信號完整性和電源完整性。

比較256GB/s下HBM2和GDDR6，HBM2E的接口寬而慢，GDDR6的接口窄而快。HBM2占有面積優勢和能耗優勢，但GDDR6具有成本和方案工程上的實現優勢。

HBM2與GDDR6內存解決方案的高帶寬已經顯而易見，不過想要真正落實到實現高性能人工智能的應用上，還需要IP供應商的支持，在HBM2和GDDR6內存解決方案的IP供應中，Rambus就扮演重要角色。

根據Rambus資深應用工程師曹汪洋在Rambus 2020中國設計峰會上的介紹，Rambus的HMB2E接口解決方案（PHY和控制器）專為AI/ML、HPC的高性能和低延遲而設計。Rambus HBM Gen2 PHY 完全符合JEDEC HBM2E標準，支持每個數據引腳高達3.6Gbps 的數據速率，總帶寬因此達到461 GB/s。該接口具有8個獨立信道，每個信道包含128位，總數據寬度為 1024 位，支持2、4、8 或 12個DRAM的堆棧高度。

Rambus GDDR6 PHY每個引腳的速度高達16 Gbps，可用于TSMC 7nm工藝，GDDR6接口支持2個信道，每個信道有16位，總數據寬度為32位。另外，Rambus GDDR6 PHY 每個引腳的速度高達16 Gbps，最高可提供 64 GB/s 的帶寬。

在Rambus 2020中國設計峰會的交流環節，蘇雷向雷鋒網表示： “Rambus 是全球HBM IP技術的引領者，且在市場份額上排名第一，全球范圍內擁有50多個成功案例，Rambus最新的Rambus HBM2E的方案可以實現全球最高的4Gpbs速率，GDDR6方案可以實現18Gbps速率，位于業界頂尖水平，這能夠幫助客戶的方案設計提供足夠裕量空間，保證整個系統的穩定性，目前燧原已將選擇了Rambus作為其下一代AI訓練芯片的合作伙伴。”

高帶寬之后，信號完整性也是挑戰

在上述文章中提到，HBM和GDDR是可以為AI/ML提供高帶寬，其中速率更高的GDDR6面臨著信號完整性和電源完整性的挑戰。

據雷鋒網了解，信道中不同類型的損耗是影響信號完整性的主要因素，具體又可以分為插入損耗、反射和串擾，插入損耗產于介電損耗或金屬電阻表面粗糙程度，主要通過較好的PCB和封裝設計來控制。信號反射源于阻抗，最終會導致眼圖閉合和信號丟失。串擾由于兩個信號之間的電容和電感耦合引起的，由于從信號中消除串擾的電路很復雜，因此串擾是GDDR6 DRAM信號完整性最具挑戰性的問題。

針對信號完整性問題，蘇雷表示：“ 要確保信號的完整性，就需要從發送端到接收端進行的完整系統建模，需要采用協同設計的方案。Rambus 的GDDR6 PHY解決方案可以穩定在18Gbps并確保傳輸眼圖清晰，走在業界最前列。在高速的傳輸下，還需要對電路板上的封裝設計進行建模，使用比如DFE和反轉等技術，可以提高性能讓眼圖更好的打開。”

當然除了信號完整性和電源完成性，DRAM數據速率的增長還導致更多其他的問題，“我們需要做的還是兼顧能耗的制約，不斷找尋和提升內存帶寬的方法，為AI/ML更高的性能。”蘇雷說道。

責任編輯：PSY

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

帶寬

帶寬

+關注

關注
3

文章
941

瀏覽量
40990
AI

AI

+關注

關注
87

文章
31262

瀏覽量
269617
人工智能

人工智能

+關注

關注
1792

文章
47497

瀏覽量
239189

嵌入式和人工智能究竟是什么關系?

領域，如工業控制、智能家居、醫療設備等。 人工智能是計算機科學的一個分支，它研究如何使計算機具備像人類一樣思考、學習、推理和決策的能力。人工智能的發展歷程可以追溯到上世紀50年代，經

發表于 11-14 16:39

RISC-V在AI領域的發展前景怎么樣？

隨著人工智能的不斷發展，現在的視覺機器人，無人駕駛等智能產品的不斷更新迭代，發現ARM占用很大的市場份額，推出的ARM Cortex M85性能也是杠杠的，不知道RISC-V在AI領域

發表于 10-25 19:13

《AI for Science：人工智能驅動科學創新》第6章人AI與能源科學讀后感

不僅提高了能源的生產效率和管理水平，還為未來的可持續發展提供了有力保障。隨著技術的不斷進步和應用場景的不斷拓展，人工智能將在能源科學領域發揮更加重要的作用。總結《AI for Science：

發表于 10-14 09:27

AI for Science：人工智能驅動科學創新》第4章-AI與生命科學讀后感

很幸運社區給我一個閱讀此書的機會，感謝平臺。《AI for Science：人工智能驅動科學創新》第4章關于AI與生命科學的部分，為我們揭示了人工智能技術在生命科學領域中的廣泛應用和

發表于 10-14 09:21

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

非常高興本周末收到一本新書，也非常感謝平臺提供閱讀機會。這是一本挺好的書，包裝精美，內容詳實，干活滿滿。關于《AI for Science：人工智能驅動科學創新》第二章“AI

發表于 10-14 09:16

《AI for Science：人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

周末收到一本新書，非常高興，也非常感謝平臺提供閱讀機會。這是一本挺好的書，包裝精美，內容詳實，干活滿滿。《AI for Science：人工智能驅動科學創新》這本書的第一章，作為整個著作的開篇

發表于 10-14 09:12

risc-v在人工智能圖像處理應用前景分析

、RISC-V在人工智能圖像處理中的應用案例目前，已有多個案例展示了RISC-V在人工智能圖像處理中的應用潛力。例如： Esperanto技術公司：該公司制造的首款高性能RISC-V AI

發表于 09-28 11:00

人工智能ai 數電模電模擬集成電路原理電路分析

人工智能ai 數電模電模擬集成電路原理電路分析想問下哪些比較容易學不過好像都是要學的

發表于 09-26 15:24

人工智能ai4s試讀申請

目前人工智能在繪畫對話等大模型領域應用廣闊，ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題，本書對ai4s基本原理和原則，方法進行描訴，有利于總結經驗，擬

發表于 09-09 15:36

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅動科學創新

！《AI for Science：人工智能驅動科學創新》這本書便將為讀者徐徐展開AI for Science的美麗圖景，與大家一起去了解： 人工智能究竟幫科學家做了什么？

發表于 09-09 13:54

如何設計具有放大器帶寬限制的MFB濾波器

電子發燒友網站提供《如何設計具有放大器帶寬限制的MFB濾波器.pdf》資料免費下載

發表于 08-28 11:09 ?0次下載

報名開啟！深圳（國際）通用人工智能大會將啟幕，國內外大咖齊聚話AI

8月28日至30日，2024深圳（國際）通用人工智能大會暨深圳（國際）通用人工智能產業博覽會將在深圳國際會展中心（寶安）舉辦。大會以“魅力AI·無限未來”為主題，致力于打造全球通用人工智能

發表于 08-22 15:00

FPGA在人工智能中的應用有哪些？

定制化的硬件設計，提高了硬件的靈活性和適應性。綜上所述，FPGA在人工智能領域的應用前景廣闊，不僅可以用于深度學習的加速和云計算的加速，還可以針對特定應用場景進行定制化計算，為人工智能技術的發展提供有力支持。

發表于 07-29 17:05

示波器帶寬限制怎么設置

示波器作為電子工程師和科學領域專業人士的重要工具，主要用于捕獲和顯示電信號波形。在示波器的設置中，帶寬限制是一個關鍵參數，它決定了示波器能夠準確響應和顯示的信號頻率范圍。正確設置帶寬限制對于確保測量結果的準確性至關重要。本文將詳細介紹示波器

發表于 05-17 17:04 ?4140次閱讀

嵌入式人工智能的就業方向有哪些?

。國內外科技巨頭紛紛爭先入局，在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時，國內的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業的方向有哪些呢？嵌入式

發表于 02-26 10:17

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

被帶寬限制的AI性能，怎么樣才能讓人工智能提供更好的性能？

評論

嵌入式和人工智能究竟是什么關系?

RISC-V在AI領域的發展前景怎么樣？

《AI for Science：人工智能驅動科學創新》第6章人AI與能源科學讀后感

AI for Science：人工智能驅動科學創新》第4章-AI與生命科學讀后感

《AI for Science：人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

《AI for Science：人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

risc-v在人工智能圖像處理應用前景分析

人工智能ai 數電模電模擬集成電路原理電路分析

人工智能ai4s試讀申請

名單公布！【書籍評測活動NO.44】AI for Science：人工智能驅動科學創新

如何設計具有放大器帶寬限制的MFB濾波器

報名開啟！深圳（國際）通用人工智能大會將啟幕，國內外大咖齊聚話AI

FPGA在人工智能中的應用有哪些？

示波器帶寬限制怎么設置

嵌入式人工智能的就業方向有哪些?