存算一體技術作為當下內存廠商和不少AI芯片公司都在全力鉆研的方向,已經有了不少成果展示,下一代智能存儲的產品均已呼之欲出了。但新技術的新生期就是這樣,不斷有新的初創企業冒頭,不斷有新的架構和路線面世,而今年的HotChips34上,就有這么兩個存算一體技術的分享,在現有的存算一體生態上做出了創新,再度為這條賽道上的激烈競爭添油加醋。
1PB/s帶寬的千核RISC-V AI推理加速器
存算一體技術需要解決的,往往都是AI運算上的問題,比如訓練和推理等等,所以不少做存算一體公司與AI芯片公司并無二致。而AI推理的出現為芯片設計者提出了三大關鍵挑戰,一是不斷提升的算力和功耗要求,不說是存算一體芯片了,GPU、FPGA、ASIC等AI加速器都在往這個方向卷;二是神經網絡的格局一直在變化,現有的芯片可能缺乏跟上節奏的擴展性和靈活性;第三則是推理精度的缺失,在某些業務中精度的缺失可能只是意味著虧損,但在ADAS這樣的應用中,就很有可能危及人身安全。
加拿大本土AI初創公司Untether AI就打算從計算的角度來解決AI推理問題,早在2020年他們就推出了runAI200這款加速器芯片,不過該芯片基于臺積電16nm工藝,集成了200MB的SRAM,算力最高也只有500 TOPS(INT8),顯然不能滿足高性能的AI推理需求,但他們的思路卻從一開始就和其他存算一體公司不同。
我們常見的存算一體技術無疑就是近存計算和存內計算這兩種,前者基于馮諾依曼架構,主要還是完成加快數據轉移的過程,后者通過模擬技術來完成乘法累加運算,再利用數字處理器來完成其他運算。
Untether AI卻提出了存間計算(At-MemoryComputation),將雙向的計算邏輯單元放在SRAM之間。如此一來不僅能提供大規模并行卻又簡短的直接連接,也能提供獨立優化過的內存,提升效率和帶寬,根據Untether AI所說,存間計算恰好能夠解決AI加速的痛點。
1PB/s帶寬的千核RISC-V AI推理加速器
存算一體技術需要解決的,往往都是AI運算上的問題,比如訓練和推理等等,所以不少做存算一體公司與AI芯片公司并無二致。而AI推理的出現為芯片設計者提出了三大關鍵挑戰,一是不斷提升的算力和功耗要求,不說是存算一體芯片了,GPU、FPGA、ASIC等AI加速器都在往這個方向卷;二是神經網絡的格局一直在變化,現有的芯片可能缺乏跟上節奏的擴展性和靈活性;第三則是推理精度的缺失,在某些業務中精度的缺失可能只是意味著虧損,但在ADAS這樣的應用中,就很有可能危及人身安全。
加拿大本土AI初創公司Untether AI就打算從計算的角度來解決AI推理問題,早在2020年他們就推出了runAI200這款加速器芯片,不過該芯片基于臺積電16nm工藝,集成了200MB的SRAM,算力最高也只有500 TOPS(INT8),顯然不能滿足高性能的AI推理需求,但他們的思路卻從一開始就和其他存算一體公司不同。
我們常見的存算一體技術無疑就是近存計算和存內計算這兩種,前者基于馮諾依曼架構,主要還是完成加快數據轉移的過程,后者通過模擬技術來完成乘法累加運算,再利用數字處理器來完成其他運算。
Untether AI卻提出了存間計算(At-MemoryComputation),將雙向的計算邏輯單元放在SRAM之間。如此一來不僅能提供大規模并行卻又簡短的直接連接,也能提供獨立優化過的內存,提升效率和帶寬,根據Untether AI所說,存間計算恰好能夠解決AI加速的痛點。
Boqueria與競品的對比/ Untether AI
為此,Untether AI推出了Boqueria,一個算力高達2PFLOPS、能效比高達30TFLOPS/W的存間計算AI推理加速器芯片。Boqueria基于臺積電7nm打造,頻率高達1.35GHz,集成了729個存儲體、238MB的片上SRAM和1458個RISC-V核心,SRAM內存帶寬可以達到1PB/s。
每個存儲體中包含2個RISC-V核心,各管理4個行控制器。行控制器之間獨立運行,每個行控制器控制64個SIMD處理單元,用于完成矩陣向量乘法運算。這些處理單元支持INT4、INT8、FP8和BF16這四種常見數據格式,而且依Untether AI看來,FP8是精度、吞吐量和能效平衡上最好的一個,更不用說Untether AI在處理單元上加入了零檢測,進一步拉高了能效比。
Boqueria架構不同規模下的功耗與算力對比/ Untether AI
Boqueria上的RISC-V核心由Untether AI自己客制化的,本身基于RV32EMC指令集的同時,還加入了20多條專用于存間計算和推理加速的指令。Boqueria的另一大優勢,就是它極具擴展性的架構。最小的結構可以做到1W以下,也可以將其做成Chiplet集成在其他SoC中,或者是再大一點的M.2卡、PCIe5.0卡等。要想追求最高的性能,可以做成集成6個Boqueria芯片的PCIe5.0卡,SRAM容量可達1.4GB,LPDDR5 DRAM容量可達192GB,FP8算力可達12PFLOPS,更不用說除了芯片到芯片之間的通信外,Boqueria也支持PCIe卡之間的通信。
神經形態存內計算處理器
韓國科學技術院的研究團隊在本屆HotChips上展示了一種新型的存算一體處理器,結合了時下兩大新技術,神經形態和存內計算。傳統的存內計算處理器由于在矩陣乘法上的優勢,可以為深度學習解決最大的計算問題。可這個計算結果的準確性很大程度取決于處理器上DAC和ADC的精度。
可DAC和ADC的精度越高,模擬計算的結果也就越精確,也使得處理器的硬件開銷變高,無論是功耗還是面積都是如此,甚至有可能抵消存內計算原本的硬件優勢。在整個處理器的功耗中,高精度的ADC甚至可能會占據一半以上的功耗,甚至超過驅動器和控制器的總和。
不僅如此,在真實應用中由于低稀疏度,其能效比也遠不如紙面數據那么理想,比如面對CIFAR-10或ImageNet等數據集時,其能效比甚至可能會縮水到十分之一,徹底毀掉了存內計算處理器在算力和能耗上的雙重優勢。
于是韓國科學技術院團隊考慮用二進制脈沖信號的事件驅動運算來生成輸入稀疏,并將卷積神經網絡轉換成脈沖神經網絡,從而剔除ADC/DAC,并引入了四大特性。比如用最高有效位WordSkipping和早停法來減少位線活動,從而降低各種模式下的功耗,并用混合模式的神經元放電和電壓折疊技術,將該處理器的動態電壓范圍提高至3倍。
傳統存內計算架構與神經形態存內計算架構對比/ 韓國科學技術院
如此一來,他們打造出了一個高能效的神經形態存內計算架構,存內計算減少內存訪問和多字線驅動的優勢依然保留,但脈沖神經網絡的加入,卻消除了高精度ADC的需求。他們根據這一架構打造出了一個基于28nm工藝的存內計算芯片,總存儲大小只有32KB,頻率也只有200MHz,卻可以在100到200mW的系統功耗下,實現最高310.4 TOPS/W的高能效比。考慮到這一研究本身也是由三星贊助,這一思路未來很有可能被用于三星的MRAM存內計算芯片中去,屆時才會考慮使用更優的工藝來實現更高的性能,并做到更大的容量。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
內存
+關注
關注
8文章
3028瀏覽量
74082 -
AI
+關注
關注
87文章
30947瀏覽量
269213 -
存算一體
+關注
關注
0文章
102瀏覽量
4303
發布評論請先 登錄
相關推薦
開源芯片系列講座第24期:基于SRAM存算的高效計算架構
鷺島論壇開源芯片系列講座第24期「基于SRAM存算的高效計算架構」明晚(27日)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目基于SRAM存算的高效計算架構報告簡介
直播預約 |開源芯片系列講座第24期:SRAM存算一體:賦能高能效RISC-V計算
鷺島論壇開源芯片系列講座第24期「SRAM存算一體:賦能高能效RISC-V計算」11月27日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目SRAM存
存算一體化與邊緣計算:重新定義智能計算的未來
隨著數據量爆炸式增長和智能化應用的普及,計算與存儲的高效整合逐漸成為科技行業關注的重點。數據存儲和處理需求的快速增長推動了對計算架構的重新設計,“存算一體化”技術應運而生。同時,隨著物聯網、5G網絡
存算一體架構創新助力國產大算力AI芯片騰飛
在灣芯展SEMiBAY2024《AI芯片與高性能計算(HPC)應用論壇》上,億鑄科技高級副總裁徐芳發表了題為《存算一體架構創新助力國產大算力AI芯片騰飛》的演講。
科技新突破:首款支持多模態存算一體AI芯片成功問世
存算一體介質,通過存儲單元和計算單元的深度融合,采用22nm成熟工藝制程,有效把控制造成本。與傳統架構下的AI芯片相比,該款芯片在算力、能效比,功耗等方面都具有明顯的優勢。芯片采用AI
發表于 09-26 13:51
?413次閱讀
后摩智能首款存算一體智駕芯片獲評突出創新產品獎
近日,2024年6月29日,由深圳市汽車電子行業協會主辦的「第十三屆國際汽車電子產業峰會暨2023年度汽車電子科學技術獎頒獎典禮」在深圳寶安隆重舉行。后摩智能首款存算一體智駕芯片——后摩鴻途??H30 獲評「突出創新產品獎」。
蘋芯科技引領存算一體技術革新 PIMCHIP系列芯片重塑AI計算新格局
智能芯片國產化再傳利好,8月8日,國際領先的存算一體芯片開拓者——蘋芯科技在北京召開 “存算于芯 智啟未來——2024 蘋芯科技產品發布會”
發表于 08-08 17:21
?267次閱讀
后摩智能推出邊端大模型AI芯片M30,展現出存算一體架構優勢
電子發燒友網報道(文/李彎彎)近日,后摩智能推出基于存算一體架構的邊端大模型AI芯片——后摩漫界??M30,最高算力100TOPS,典型功耗12W。為了進
知存科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘
突破正迎合市場需求,使存算一體技術迎來了產業化的拐點。新興企業在探索新技術應用和大算力布局方面更具前瞻性。隨著技術和應用的不斷成熟,這些企業
發表于 05-16 16:38
探索存內計算—基于 SRAM 的存內計算與基于 MRAM 的存算一體的探究
本文深入探討了基于SRAM和MRAM的存算一體技術在計算領域的應用和發展。首先,介紹了基于SRAM的存內邏輯計算技術,包括其原理、優勢以及在神經網絡領域的應用。其次,詳細討論了基于MR
知存科技攜手北大共建存算一體化技術實驗室,推動AI創新
揭牌儀式結束后,王紹迪在北大集成電路學院舉辦的“未名·芯”論壇上做了主題演講,分享了他對于多模態大模型時代存內計算發展的見解。他強調了存算一體
北京大學-知存科技存算一體聯合實驗室揭牌,開啟知存科技產學研融合戰略新升級
5月5日,“北京大學-知存科技存算一體技術聯合實驗室”在北京大學微納電子大廈正式揭牌,北京大學集成電路學院院長蔡一茂、北京大學集成電路學院副
什么是通感算一體化?通感算一體化的應用場景
通感算一體化可廣泛應用于智能家居、智慧城市、智慧交通、醫療健康等方面。文檔君為大家搜集了一些典型的應用場景。 智能家居 通感算一體化利用基站
發表于 01-18 16:12
?1.1w次閱讀
存算一體芯片如何支持Transformer等不同模型?
后摩智能致力于打造通用人工智能芯片,自主研發的存算一體芯片在支持各類模型方面表現突出,包括YOLO系列網絡、BEV系列網絡、點云系列網絡等。
評論