好看的课外书,大主宰之灵路天蚕土豆,懒人听书

在大算力激增的需求下，越來越多行業人士認識到，新的計算架構或許才是算力破局的關鍵。

在AI發展歷史上，曾有兩次“圣杯時刻”。

第一次發生在2012年10月，卷積神經網絡（CNN）算法憑借比人眼識別更低的錯誤率，打開了計算機視覺的應用盛世。

第二次是2016年3月，DeepMind研發的AI程序AlphaGo，戰勝世界圍棋冠軍李世石，讓全世界驚嘆于“人工智能”的實力。

這兩次“圣杯時刻”的幕后，都有芯片創新的身影。適配通用算法的英偉達GPGPU（通用圖形處理單元）芯片，以及走專業化路線谷歌TPU（張量處理單元）芯片都在這兩次大發展中大放異彩。

如今大模型的興起，正在逼近第三次“圣杯時刻”。但隨著模型參數越來越大，芯片在提供算力支持上逐漸陷入瓶頸。

數據顯示，在GPT-2之前的模型時代，GPU內存還能滿足AI大模型的需求。

近年來，隨著Transformer模型的大規模發展和應用，模型大小每兩年平均增長240倍，GPT-3等大模型的參數增長已經超過了GPU內存的增長。

芯片發展面臨“三座大山”

當前AI技術的快速更新迭代對芯片提出了多個挑戰，尤其繞不過“存儲墻”、“能耗墻”和“編譯墻”三座大山。

首先，在傳統馮·諾依曼架構下，芯片在執行計算密集型任務時面臨“存儲墻”問題，這導致計算芯片的功耗和性能都受限于處理器和存儲器之間的數據搬運，嚴重限制了AI芯片在計算規模、密度、效率等方面的提升。

其次，由于“存儲墻”的存在，數據需要頻繁搬運，在存儲、計算單元間來回轉移，導致嚴重的功耗損失，撞到“能耗墻”上。

英特爾的研究表明，當半導體工藝達到 7nm 時，數據搬運功耗高達 35pJ/bit，占總功耗的63.7%。另有統計表明，在大算力的AI應用中，數據搬運操作消耗90%的時間和功耗，數據搬運的功耗是運算的650倍。

最后，“編譯墻”隱于二者之中，極短時間下的大量數據搬運使得編譯器無法在靜態可預測的情況下對算子、函數、程序或者網絡做整體的優化，手動優化又消耗了大量時間。

過去，憑借先進制程不斷突破，這三座“大山”的弊病還能通過快速提升的算力來彌補。

但一個殘酷的現實是，過去數十年間，通過工藝制程的提升改善芯片算力問題的“老辦法”正在逐步失效——

摩爾定律正在走向物理極限，HBM、3D DRAM、更好的互聯等傳統“解法”也“治標不治本”，晶體管微縮越來越難，提升算力性能兼具降低功耗這條路越走越艱辛。

隨著大模型時代來臨，激增的數據計算，無疑進一步放大了“三道墻”的影響。

大模型呼喚“存算一體”

大模型的出現，促使AI對大規模芯片算力的需求更加強烈，按照傳統技術路線簡單堆砌芯片無法實現期待的算力規模增長。

同時，芯片能效問題變得更加突出。當前AI芯片能效依然低下，大模型每次訓練和推斷的電費成本昂貴，導致當前大模型的應用經濟性較低。

雖然說現在很多大模型訓練使用GPU，但GPU的架構演進并未解決大算力和大模型的挑戰。

一方面，存儲在GPU中所占比例越來越大。從GPU架構的演進趨勢，可以看到存儲在計算芯片中所占的比例越來越大。計算芯片從以計算單元為核心演變到以存儲/數據流為核心的架構設計理念。

另一方面，數據傳輸功耗仍是提升算力和算力密度的瓶頸，本質上就是馮·諾依曼計算機體系結構計算與存儲的分離設計所致。

總體而言，大模型對于算力的需求呈現指數型增長，但GPU又貴功耗又高，GPU集群的線性度也隨規模增大而下降，探索非馮諾依曼架構已經非常火熱。

AMD、特斯拉、三星、阿里巴巴等公司都曾在公開場合表示，下一代技術的儲備和演進的方向是在“存算一體”技術架構中尋找新的發展動能。

例如，阿里達摩院就曾表示，相比傳統CPU計算系統，存算一體芯片的性能可以提升10倍以上，能效提升超過300倍。

那么，“存算一體”技術到底有何優勢？

存算一體與經典的馮諾依曼架構不同，它是在存儲器中嵌入計算能力，將存儲單元和計算單元合為一體，省去了計算過程中數據搬運環節，消除了由于數據搬運帶來的功耗和延遲，從而進一步提升計算能效。

同時，由于計算編程模型被降低，編譯器也可以感知每一層的數據狀態，編譯效率也將大幅度提升，“編譯墻”的問題也得到了解決，具體而言：

首先，運算的性能更高

存算一體芯片的計算能力取決于存儲器的容量規模。所有電子設備當中都會集成存儲器，存儲與計算相伴而行，有運算的地方就需要對數據進行存儲。

如果采用存算一體芯片，隨著存儲容量規模的提高，其運算能力也會隨之提高。

其次，功耗更低

由于數據傳輸路徑的優化，存算一體技術在提高傳輸效率的同時，節省了數據傳輸的損耗，帶來更好的能效比、低功耗。在相同算力下，AI部分能效比將有2-3個數量級的提升，更低散熱成本，更高可靠性。

最后，成本更低

單位算力成本遠低于傳統計算芯片。同時，存算一體可以采用更成熟的制造工藝，大算力芯片往往需要采用先進工藝，這使存算一體芯片的晶圓成本低得多。

再考慮到配套的外圍芯片、元器件等因素，整個系統成本將有5倍左右降低。

正是因為這些基于基礎架構革新所帶來的性能提升，存算一體技術有望在很大程度上解決AI大模型面臨的算力挑戰。

特別是針對大模型的推理，存算一體保持權重的特點與大模型中大規模的參數部署需求相匹配，可能是存算一體技術最先服務大模型應用的場景之一。

“存算一體”存在多條路徑

目前，全球的存算一體玩家，主要可以劃分為兩大陣營：

一類是國際巨頭，比如英特爾、IBM、特斯拉、三星、阿里等，巨頭對存算技術布局較早，代表存儲器未來趨勢的磁性存儲器（MRAM）、憶阻器（RRAM）等產品也相繼在頭部代工廠傳出量產消息。

另一類是國內外的初創企業，比如Mythic、Tenstorrent、知存科技、后摩智能、千芯科技、億鑄科技、九天睿芯、蘋芯科技等。

由于積淀不同、優勢不同、目標場景不同，各家的存算一體方案也不盡相同，主要體現在三大差異上：技術路徑、存儲介質、以及采用的是模擬還是數字技術。

差異一：技術路徑

根據存儲單元與計算單元融合的程度，可以分為近存計算和存內計算兩類：

近存計算，本質上仍是存算分離架構，只不過計算模塊通常安放在存儲陣列（memory cell array）附近，數據更靠近計算單元，從而縮小了數據移動的延遲和功耗。

近存計算的典型代表有AMD Zen系列CPU、特斯拉 Dojo、阿里達摩院使用混合鍵合3D堆疊技術實現的存算一體芯片等，還有國外創業公司Graphcore、芯片大神Jim Keller加入的創業公司Tenstorrent等，他們目前推出的存算一體芯片都屬于近存計算的范疇。

存內計算，存儲單元和計算單元完全融合，沒有獨立的計算單元：直接在存儲器顆粒上嵌入算法，由存儲器芯片內部的存儲單元完成計算操作。

狹義上講，這才是真正的存算一體，或者說，基于器件層面實現的存算一體才真正打破了存算分離架構的壁壘。

一般來看，近存計算是巨頭的首選，因為符合“實用、落地快”的預期，而初創企業不存在路徑依賴和歷史包袱，反而可以另辟蹊徑，直接選擇存內計算，以期向更高性能、更通用的算力場景進行突圍。

差異二：存儲介質

存算一體依托的存儲介質呈現多樣化，比如以SRAM、DRAM為代表的易失性存儲器、以Flash為代表的非易失性存儲器等。綜合來看，不同存儲介質各有各的優點和短板。

發展較為成熟的有NOR Flash、DRAM、 SRAM等。

NOR FLASH屬于非易失性存儲介質，具有低成本、高可靠性優勢，但工藝制程有瓶頸；DRAM成本低、容量大，但是速度慢，且需要電力不斷刷新；SRAM在速度方面有優勢，但容量密度小，價格高，在大陣列運算的同時保證運算精度具有挑戰。

目前多數廠商當前傾向于技術成熟的SRAM設計存算一體芯片，但部分廠商也會采用“多駕馬車”并驅的發展路線布局未來。

差異三：數字or模擬？

按照電路技術路徑分類，存算一體計算有數字存算和模擬存算的區分，兩者也有各自的優缺點：

數字存算，更適合大規模高計算精度芯片的實現，運算靈活性較好，更適合通用性場景，但要求存儲單元內容必須以數字信號形式呈現。

模擬存算，在計算精度比較固定且較低的條件下，可以獲得更高的能量效率，同時可以搭載任意存儲單元實現。

但其關鍵模擬模塊（如A/D轉換器）的轉換精度要求相對固定，且由于不同模擬計算方式可能具有不同的計算誤差，因而這種技術路徑的擴展性略顯不足。

近些年來，學術界在存算一體的各個方面都進行了大量探索，提出了眾多存算一體加速器架構，中科院微電子所、清華大學、斯坦福大學等單位制備出了存算一體芯片原型。

國內也涌現出了一批存算一體初創企業，包括知存科技、后摩智能、億鑄科技、蘋芯科技等等，它們研發了基于SRAM、閃存、RRAM等存儲器的存算一體芯片，且已有產品問世。

存算一體芯片面臨多重挑戰

雖然存算一體芯片被認為是下一代芯片，但目前還處于起步階段，受限于成熟度，應用范圍不夠廣泛，面臨著諸多挑戰，例如：

在芯片設計方面，架構設計的難度和復雜度要求很高，同時市面上也缺乏成熟的存算一體軟件編譯器的快速部署、專用EDA工具輔助設計和仿真驗證。

在芯片測試方面，流片之后，同樣缺乏成熟的工具協助測試。

在生態方面，缺乏相應的與之匹配的軟件生態。

現階段各廠商開發的存算一體芯片均基于自行定義的編程接口，缺乏統一的編程接口，造成了存算一體軟件生態的分散，不同廠商開發的上層軟件無法互相通用，極大的影響了存算一體芯片的大規模使用。

總體而言，現階段的存算一體研發多數以零散的技術攻關為主，缺乏面向大算力方向的整體布局，也缺乏主導的應用需求牽引，因此距離大規模進入市場還有一定距離。

不過，大模型的到來，必將極大推動存算一體的技術落地，其未來應用潛力和部署規模都讓人期待。

面向大模型部署，從業者需要對存算一體進行體系化布局，從算法、框架、編譯器、工具鏈、指令集、架構、電路等跨層次協同設計，形成全棧式體系、工具鏈及生態鏈。

長期來看，設計方法論、測試、量產、軟件、場景的選擇等全方位競爭，將是各大廠商存算一體芯片發展和落地的關鍵。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1791

文章
47279

瀏覽量
238513
AI芯片

AI芯片

+關注

關注
17

文章
1887

瀏覽量
35027
算力

算力

+關注

關注
1

文章
977

瀏覽量
14822

原文標題：“存算一體”是大模型AI芯片的破局關鍵？

文章出處：【微信號：ICViews，微信公眾號：半導體產業縱橫】歡迎添加關注！文章轉載請注明出處。

直播預約 |開源芯片系列講座第24期：SRAM存算一體：賦能高能效RISC-V計算

鷺島論壇開源芯片系列講座第24期「SRAM存算一體：賦能高能效RISC-V計算」11月27日（周三）20：00精彩開播期待與您云相聚，共襄學術盛宴！|直播信息報告題目SRAM

發表于 11-16 01:10 ?202次閱讀

直播預約 |開源<b class='flag-5'>芯片</b>系列講座第24期：SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>：賦能高能效RISC-V計算

存算一體化與邊緣計算：重新定義智能計算的未來

、人工智能（AI）等技術的發展，數據量的分布性、實時性需求增加，邊緣計算也逐漸從概念走向落地。本文將介紹存算一體化與邊緣計算的核心思想及其發展趨勢，探討兩者在智能

發表于 11-12 01:05 ?225次閱讀

<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>化與邊緣計算：重新定義智能計算的未來

存算一體架構創新助力國產大算力AI芯片騰飛

在灣芯展SEMiBAY2024《AI芯片與高性能計算（HPC）應用論壇》上，億鑄科技高級副總裁徐芳發表了題為《存算一體架構創新助力國產大

發表于 10-23 14:48 ?298次閱讀

科技新突破：首款支持多模態存算一體AI芯片成功問世

存算一體介質，通過存儲單元和計算單元的深度融合，采用22nm成熟工藝制程，有效把控制造成本。與傳統架構下的AI芯片相比，該款

發表于 09-26 13:51 ?409次閱讀

科技新突破：首款支持多模態<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>成功問世

蘋芯科技引領存算一體技術革新 PIMCHIP系列芯片重塑AI計算新格局

一體NPU和PIMCHIP-S300多模態智能感知芯片，以前沿技術加持AI與大模型推理加速等各類計算任務場景，為高能效算力應用開啟新紀元。?

發表于 08-08 17:21 ?265次閱讀

蘋芯科技引領存<b class='flag-5'>算</b><b class='flag-5'>一體</b>技術革新 PIMCHIP系列<b class='flag-5'>芯片</b>重塑<b class='flag-5'>AI</b>計算新格局

存算一體AI芯片企業后摩智能完成數億元戰略融資

近日，國內領先的存算一體AI 芯片創新企業后摩智能完成數億元人民幣的戰略融資，由中國移動旗下北京中移數字新經濟產業基金、上海中移數字轉型產業

發表于 07-15 15:32 ?417次閱讀

后摩智能推出邊端大模型AI芯片M30，展現出存算一體架構優勢

電子發燒友網報道（文/李彎彎）近日，后摩智能推出基于存算一體架構的邊端大模型AI芯片——后摩漫界

發表于 07-03 00:58 ?4202次閱讀

知存科技助力AI應用落地：WTMDK2101-ZT1評估板實地評測與性能揭秘

取得了積極進展，探索將存儲與計算緊密結合的創新方案。在國內，新興AI和存儲企業的蓬勃發展也為存算一體技術注入了新的活力。知存科技作為其中

發表于 05-16 16:38

探索存內計算—基于 SRAM 的存內計算與基于 MRAM 的存算一體的探究

本文深入探討了基于SRAM和MRAM的存算一體技術在計算領域的應用和發展。首先，介紹了基于SRAM的存內邏輯計算技術，包括其原理、優勢以及在神經網絡領域的應用。其次，詳細討論了基于MR

發表于 05-16 16:10 ?2821次閱讀

探索<b class='flag-5'>存</b>內計算—基于 SRAM 的<b class='flag-5'>存</b>內計算與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一體</b>的探究

知存科技攜手北大共建存算一體化技術實驗室，推動AI創新

揭牌儀式結束后，王紹迪在北大集成電路學院舉辦的“未名·芯”論壇上做了主題演講，分享了他對于多模態大模型時代存內計算發展的見解。他強調了存算一體

發表于 05-08 17:25 ?958次閱讀

北京大學-知存科技存算一體聯合實驗室揭牌，開啟知存科技產學研融合戰略新升級

、知存科技首席科學家郭昕婕博士及企業研發相關負責人參加了現場揭牌儀式。面向多模態大模型時代產業發展新需求，雙方將攜手踏上探索存算一體技術前沿

發表于 05-07 19:31 ?1427次閱讀

什么是通感算一體化？通感算一體化的應用場景

通感算一體化可廣泛應用于智能家居、智慧城市、智慧交通、醫療健康等方面。文檔君為大家搜集了一些典型的應用場景。智能家居通感算一體化利用基站

發表于 01-18 16:12 ?1.1w次閱讀

科技云報道：“存算一體”是大模型AI芯片的破局關鍵？

大算力下的新需求

發表于 01-08 13:10 ?408次閱讀

存算一體芯片如何支持Transformer等不同模型？

后摩智能致力于打造通用人工智能芯片，自主研發的存算一體芯片在支持各類模型方面表現突出，包括YOL

發表于 01-05 14:14 ?1361次閱讀

SRAM存算一體芯片的研究現狀和發展趨勢

人工智能時代對計算芯片的算力和能效都提出了極高要求。存算一體芯片技術被認為是有望解決處理器

發表于 01-02 11:02 ?2500次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

“存算一體”是大模型AI芯片的破局關鍵？

評論

直播預約 |開源芯片系列講座第24期：SRAM存算一體：賦能高能效RISC-V計算

存算一體化與邊緣計算：重新定義智能計算的未來

存算一體架構創新助力國產大算力AI芯片騰飛

科技新突破：首款支持多模態存算一體AI芯片成功問世

蘋芯科技引領存算一體技術革新 PIMCHIP系列芯片重塑AI計算新格局

存算一體AI芯片企業后摩智能完成數億元戰略融資

后摩智能推出邊端大模型AI芯片M30，展現出存算一體架構優勢

知存科技助力AI應用落地：WTMDK2101-ZT1評估板實地評測與性能揭秘

探索存內計算—基于 SRAM 的存內計算與基于 MRAM 的存算一體的探究

知存科技攜手北大共建存算一體化技術實驗室，推動AI創新

北京大學-知存科技存算一體聯合實驗室揭牌，開啟知存科技產學研融合戰略新升級

什么是通感算一體化？通感算一體化的應用場景

科技云報道：“存算一體”是大模型AI芯片的破局關鍵？

存算一體芯片如何支持Transformer等不同模型？

SRAM存算一體芯片的研究現狀和發展趨勢