大主宰之灵路天蚕土豆,完结小说,我欲封天txt下载

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）在諸多云服務(wù)廠商或互聯(lián)網(wǎng)廠商一頭扎進(jìn)GPU的瘋搶潮后，不少公司也發(fā)現(xiàn)了限制AI大模型性能或是成本消耗的除了GPU以外，還有內(nèi)存。內(nèi)存墻作為橫亙?cè)贏I計(jì)算和HPC更進(jìn)一步的阻礙之一，在計(jì)算量井噴的今天，已經(jīng)變得愈發(fā)難以忽視。所以，在今年的HotChips大會(huì)上，內(nèi)存廠商們也競(jìng)相展示自己的內(nèi)存技術(shù)在AI計(jì)算上的優(yōu)勢(shì)。

三星

三星作為最早一批開(kāi)始跟進(jìn)存內(nèi)計(jì)算的公司，早在兩年前的HotChips33上，就展示了HBM2-PIM的技術(shù)Aquabolt-XL。三星在去年底展示了用PIM內(nèi)存和96個(gè)AMD Instinct MI100 GPU組建的大規(guī)模計(jì)算系統(tǒng)，并宣稱這一配置將AI訓(xùn)練的速度提高了近2.5倍。

而今年的HotChips上，三星也著重點(diǎn)明了PIM和PNM技術(shù)在生成式AI這類熱門應(yīng)用上的優(yōu)勢(shì)。三星認(rèn)為在ChatGPT、GPT-3之類的應(yīng)用中，主要瓶頸出現(xiàn)在生成階段的線性層上，這是因?yàn)镚PU受到了內(nèi)存限制且整個(gè)過(guò)程是線性順序進(jìn)行的。

在三星對(duì)GPT的分析中，其主要由概括和生成兩大負(fù)載組成，其中概括考驗(yàn)的是計(jì)算單元的性能，而生成則考驗(yàn)的是內(nèi)存的性能。而生成占據(jù)了絕大多數(shù)的運(yùn)算次數(shù)和耗時(shí)，其中占據(jù)了60%到80%延遲的GEMV（矩陣向量操作）也就成了三星試圖用PIM和PNM攻克的目標(biāo)。

根據(jù)三星的說(shuō)法，像GPT這類Transformer架構(gòu)的模型，都可以將多頭注意力（MHA）和前饋神經(jīng)網(wǎng)絡(luò)（FFN）完全交給PIM或PNM，完全利用他們的所有帶寬，從而減少在推理上所花費(fèi)的時(shí)間和能耗。三星也在單個(gè)AMD MI100-PIM的GPU上進(jìn)行了試驗(yàn)，得出運(yùn)行GPT模型時(shí)，在HBM-PIM的輔助下，能效是GPU搭配傳統(tǒng)HBM的兩倍，性能同樣提升至兩倍以上。

LPDDR-PIM概念 / 三星

除了HBM-PIM外，這次三星還展示了最新的LPPDR-PIM概念。除了云端生成式AI需要存內(nèi)計(jì)算的輔助外，諸如智能手機(jī)這樣的端側(cè)生成式AI概念也被炒起來(lái)，所以LPPDR-PIM這樣的存內(nèi)計(jì)算技術(shù)，可以進(jìn)一步保證續(xù)航的同時(shí)，也不會(huì)出現(xiàn)為了帶寬內(nèi)存使用超量的情況。

SK海力士

另一大韓國(guó)內(nèi)存巨頭SK海力士也沒(méi)有閑著，在本次HotChips大會(huì)上，他們展示了自己的AiM存內(nèi)加速器方案。相較三星而言，他們?yōu)樯墒紸I的推理負(fù)載準(zhǔn)備的是基于GDDR6的存內(nèi)計(jì)算方案。

GDDR6-AiM采用了1y的制造工藝，具備512GB/s內(nèi)部帶寬的同時(shí)，也具備32GB/s的外部帶寬。且GDDR6-AiM具備頻率高達(dá)1GHz的處理單元，算力可達(dá)512GFLOPS。GDDR6-AiM的出現(xiàn)，為存內(nèi)進(jìn)行GEMV計(jì)算提供了端到端的加速方案，比如乘法累加和激活函數(shù)等操作都可以在內(nèi)存bank內(nèi)同時(shí)進(jìn)行，單條指令實(shí)現(xiàn)全bank操作提供更高的計(jì)算效率。

同時(shí)，SK海力士也已經(jīng)考慮到了AiM的擴(kuò)展性問(wèn)題，比如單個(gè)AiM卡中集成了8個(gè)AiM封裝，也就是8GB的容量和256個(gè)處理單元。但這類擴(kuò)展方案最大的問(wèn)題還是在軟件映射、硬件架構(gòu)和接口上，這也是絕大多數(shù)集成存內(nèi)計(jì)算的新式內(nèi)存面臨的問(wèn)題。

AiM系統(tǒng)擴(kuò)展性驗(yàn)證Demo / SK海力士

而SK海力士已經(jīng)給出了這方面的解決方案，比如專門針對(duì)AiM的Tiling、基于AiM架構(gòu)的控制器、路由和ALU等等。他們還展示了在兩個(gè)FPGA上結(jié)合GDDR6-AiM的Demo，以及用于LLM推理的軟件棧。與此同時(shí)，他們也還在探索AiM的下一代設(shè)計(jì)，比如如何實(shí)現(xiàn)更高的內(nèi)存容量，用于應(yīng)對(duì)更加龐大的模型。

寫(xiě)在最后

無(wú)論是三星還是SK海力士都已經(jīng)在存內(nèi)計(jì)算領(lǐng)域耕耘多年，此次AI熱來(lái)勢(shì)洶洶，也令他們研發(fā)速度進(jìn)一步提快。畢竟如今能夠解決大模型訓(xùn)練與推理的耗時(shí)與TCO的硬件持續(xù)大賣，如果存內(nèi)計(jì)算產(chǎn)品商業(yè)化量產(chǎn)落地進(jìn)展順利，且確實(shí)能為AI計(jì)算帶來(lái)助力的話，很可能會(huì)小幅提振如今略微萎縮的內(nèi)存市場(chǎng)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4744

瀏覽量
129018

評(píng)論

相關(guān)推薦

NVIDIA和GeForce RTX GPU專為AI時(shí)代打造

NVIDIA 和 GeForce RTX GPU 專為 AI 時(shí)代打造。

發(fā)表于 01-06 10:45 ?71次閱讀

GPU是如何訓(xùn)練AI大模型的

在AI模型的訓(xùn)練過(guò)程中，大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來(lái)，AI部落小編帶您了解GPU是如何訓(xùn)練

發(fā)表于 12-19 17:54 ?148次閱讀

PON不只是破網(wǎng)那么簡(jiǎn)單

大家有沒(méi)有在網(wǎng)絡(luò)卡頓的時(shí)候，心里默默吐槽“這破網(wǎng)”？今天要聊的PON（Passive Optical Network，無(wú)源光網(wǎng)絡(luò)），可不是你心里那個(gè)“破”網(wǎng)，而是網(wǎng)絡(luò)世界中的超級(jí)英雄家族——PON。 ? 別急，我知道你在想什么，這聽(tīng)起來(lái)可能有點(diǎn)枯燥，但相信我，這絕對(duì)比你想象的要有趣得多！ 1 PON，網(wǎng)絡(luò)界的“超級(jí)英雄” PON，是指利用點(diǎn)對(duì)多點(diǎn)拓?fù)浜头止馄鲗?shù)據(jù)從單個(gè)傳輸點(diǎn)傳送到多個(gè)用戶端點(diǎn)的光纖網(wǎng)絡(luò)，由OLT（Optical Line Terminal，光線路終端），ONU（Optical Net

發(fā)表于 12-04 09:08 ?252次閱讀

PON<b class='flag-5'>不只是</b>破網(wǎng)那么簡(jiǎn)單

《算力芯片高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

對(duì)卷積核優(yōu)化的思考。 GPU的存儲(chǔ)體系采用了獨(dú)特的倒金字塔結(jié)構(gòu)，在我看來(lái)這是其計(jì)算性能的關(guān)鍵。大容量寄存器設(shè)計(jì)破解了傳統(tǒng)馮諾依曼架構(gòu)的內(nèi)存瓶頸，合并訪存機(jī)制巧妙解決了內(nèi)存帶寬限制。NVIDIA

發(fā)表于 11-24 17:12

為什么ai模型訓(xùn)練要用gpu

GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng)，已成為AI模型訓(xùn)練不可或缺的重要工具。

發(fā)表于 10-24 09:39 ?335次閱讀

科技云報(bào)到：大模型時(shí)代下，向量數(shù)據(jù)庫(kù)的野望

發(fā)表于 10-14 17:18 ?267次閱讀

不只是前端，后端、產(chǎn)品和測(cè)試也需要了解的瀏覽器知識(shí)（二）

繼上篇《 不只是前端，后端、產(chǎn)品和測(cè)試也需要了解的瀏覽器知識(shí)（一）》介紹了瀏覽器的基本情況、發(fā)展歷史以及市場(chǎng)占有率。本篇文章將介紹瀏覽器基本原理。在掌握基本原理后，通過(guò)技術(shù)深入，在研發(fā)

發(fā)表于 08-12 14:32 ?361次閱讀

<b class='flag-5'>不只是</b>前端，后端、產(chǎn)品和測(cè)試也需要了解的瀏覽器知識(shí)（二）

為什么跑AI往往用GPU而不是CPU？

今天，人工智能（AI）已經(jīng)在各個(gè)領(lǐng)域遍地開(kāi)花，無(wú)論身處哪個(gè)行業(yè)，使用AI來(lái)幫助獲取業(yè)務(wù)洞察，并建立競(jìng)爭(zhēng)優(yōu)勢(shì)，已經(jīng)非常常見(jiàn)。不過(guò)一個(gè)有趣的現(xiàn)象是，在用戶采購(gòu)AI基礎(chǔ)設(shè)施時(shí)，幾乎所有廠商都

發(fā)表于 04-24 08:27 ?1938次閱讀

為什么跑<b class='flag-5'>AI</b>往往用<b class='flag-5'>GPU</b>而不是CPU？

AI訓(xùn)練，為什么需要GPU？

隨著由ChatGPT引發(fā)的人工智能熱潮，GPU成為了AI大模型訓(xùn)練平臺(tái)的基石，甚至是決定性的算力底座。為什么GPU能力壓CPU，成為炙手可熱的主角呢？要回答這個(gè)問(wèn)題，首先需要了解當(dāng)前人工智能（

發(fā)表于 04-24 08:05 ?1075次閱讀

新型的FPGA器件將支持多樣化AI/ML創(chuàng)新進(jìn)程

作者：郭道正職務(wù)：Achronix半導(dǎo)體中國(guó)區(qū)總經(jīng)理近日舉辦的GTC大會(huì)把人工智能/機(jī)器學(xué)習(xí)（AI/ML）領(lǐng)域中的算力比拼又帶到了一個(gè)新的高度，這不只是說(shuō)明了通用圖形處理器（GPGPU）時(shí)代

發(fā)表于 04-02 15:25 ?344次閱讀

國(guó)產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用案例一覽

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）近一年多時(shí)間，隨著大模型的發(fā)展，GPU在AI領(lǐng)域的重要性再次凸顯。雖然相比英偉達(dá)等國(guó)際大廠，國(guó)產(chǎn)GPU起步較晚、聲勢(shì)較小。不過(guò)近幾年，國(guó)內(nèi)不少GPU

發(fā)表于 04-01 09:28 ?3871次閱讀

Achronix新推出一款用于AI/ML計(jì)算或者大模型的B200芯片

近日舉辦的GTC大會(huì)把人工智能/機(jī)器學(xué)習(xí)（AI/ML）領(lǐng)域中的算力比拼又帶到了一個(gè)新的高度，這不只是說(shuō)明了通用圖形處理器（GPGPU）時(shí)代的來(lái)臨

發(fā)表于 03-28 15:48 ?823次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

基礎(chǔ)設(shè)施，人們?nèi)匀粵](méi)有定論。如果 Mipsology 成功完成了研究實(shí)驗(yàn)，許多正受 GPU 折磨的 AI 開(kāi)發(fā)者將從中受益。 GPU 深度學(xué)習(xí)面臨的挑戰(zhàn) 三維圖形是 GPU 擁有如此

發(fā)表于 03-21 15:19

GPU交期緩解，AI服務(wù)器廠商營(yíng)收暴漲

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）AIGC在應(yīng)用軟件掀起的這股熱潮背后，卻隱藏著AI服務(wù)器組件缺貨的難題。在云服務(wù)廠商和互聯(lián)網(wǎng)廠商大肆采購(gòu)AI GPU

發(fā)表于 02-20 00:17 ?2823次閱讀

為什么GPU比CPU更快？

大規(guī)模數(shù)據(jù)集時(shí)比CPU更快的根本原因。內(nèi)存帶寬：GPU的內(nèi)存帶寬比CPU高得多。內(nèi)存帶寬是指數(shù)據(jù)在內(nèi)存之間傳輸?shù)乃俣取?/div>
發(fā)表于 01-26 08:30 ?2436次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

不只是GPU，內(nèi)存廠商們的AI野望