在大算力激增的需求下,越來越多行業人士認識到,新的計算架構或許才是算力破局的關鍵。
在AI發展歷史上,曾有兩次“圣杯時刻”。
第一次發生在2012年10月,卷積神經網絡(CNN)算法憑借比人眼識別更低的錯誤率,打開了計算機視覺的應用盛世。
第二次是2016年3月,DeepMind研發的AI程序AlphaGo,戰勝世界圍棋冠軍李世石,讓全世界驚嘆于“人工智能”的實力。
這兩次“圣杯時刻”的幕后,都有芯片創新的身影。適配通用算法的英偉達GPGPU(通用圖形處理單元)芯片,以及走專業化路線谷歌TPU(張量處理單元)芯片都在這兩次大發展中大放異彩。
如今大模型的興起,正在逼近第三次“圣杯時刻”。但隨著模型參數越來越大,芯片在提供算力支持上逐漸陷入瓶頸。
數據顯示,在GPT-2之前的模型時代,GPU內存還能滿足AI大模型的需求。
近年來,隨著Transformer模型的大規模發展和應用,模型大小每兩年平均增長240倍,GPT-3等大模型的參數增長已經超過了GPU內存的增長。
芯片發展面臨“三座大山”
當前AI技術的快速更新迭代對芯片提出了多個挑戰,尤其繞不過“存儲墻”、“能耗墻”和“編譯墻”三座大山。
首先,在傳統馮·諾依曼架構下,芯片在執行計算密集型任務時面臨“存儲墻”問題,這導致計算芯片的功耗和性能都受限于處理器和存儲器之間的數據搬運,嚴重限制了AI芯片在計算規模、密度、效率等方面的提升。
其次,由于“存儲墻”的存在,數據需要頻繁搬運,在存儲、計算單元間來回轉移,導致嚴重的功耗損失,撞到“能耗墻”上。
英特爾的研究表明,當半導體工藝達到 7nm 時,數據搬運功耗高達 35pJ/bit,占總功耗的63.7%。另有統計表明,在大算力的AI應用中,數據搬運操作消耗90%的時間和功耗,數據搬運的功耗是運算的650倍。
最后,“編譯墻”隱于二者之中,極短時間下的大量數據搬運使得編譯器無法在靜態可預測的情況下對算子、函數、程序或者網絡做整體的優化,手動優化又消耗了大量時間。
過去,憑借先進制程不斷突破,這三座“大山”的弊病還能通過快速提升的算力來彌補。
但一個殘酷的現實是,過去數十年間,通過工藝制程的提升改善芯片算力問題的“老辦法”正在逐步失效——
摩爾定律正在走向物理極限,HBM、3D DRAM、更好的互聯等傳統“解法”也“治標不治本”,晶體管微縮越來越難,提升算力性能兼具降低功耗這條路越走越艱辛。
隨著大模型時代來臨,激增的數據計算,無疑進一步放大了“三道墻”的影響。
大模型呼喚“存算一體”
大模型的出現,促使AI對大規模芯片算力的需求更加強烈,按照傳統技術路線簡單堆砌芯片無法實現期待的算力規模增長。
同時,芯片能效問題變得更加突出。當前AI芯片能效依然低下,大模型每次訓練和推斷的電費成本昂貴,導致當前大模型的應用經濟性較低。
雖然說現在很多大模型訓練使用GPU,但GPU的架構演進并未解決大算力和大模型的挑戰。
一方面,存儲在GPU中所占比例越來越大。從GPU架構的演進趨勢,可以看到存儲在計算芯片中所占的比例越來越大。計算芯片從以計算單元為核心演變到以存儲/數據流為核心的架構設計理念。
另一方面,數據傳輸功耗仍是提升算力和算力密度的瓶頸,本質上就是馮·諾依曼計算機體系結構計算與存儲的分離設計所致。
總體而言,大模型對于算力的需求呈現指數型增長,但GPU又貴功耗又高,GPU集群的線性度也隨規模增大而下降,探索非馮諾依曼架構已經非常火熱。
AMD、特斯拉、三星、阿里巴巴等公司都曾在公開場合表示,下一代技術的儲備和演進的方向是在“存算一體”技術架構中尋找新的發展動能。
例如,阿里達摩院就曾表示,相比傳統CPU計算系統,存算一體芯片的性能可以提升10倍以上,能效提升超過300倍。
那么,“存算一體”技術到底有何優勢?
存算一體與經典的馮諾依曼架構不同,它是在存儲器中嵌入計算能力,將存儲單元和計算單元合為一體,省去了計算過程中數據搬運環節,消除了由于數據搬運帶來的功耗和延遲,從而進一步提升計算能效。
同時,由于計算編程模型被降低,編譯器也可以感知每一層的數據狀態,編譯效率也將大幅度提升,“編譯墻”的問題也得到了解決,具體而言:
首先,運算的性能更高
存算一體芯片的計算能力取決于存儲器的容量規模。所有電子設備當中都會集成存儲器,存儲與計算相伴而行,有運算的地方就需要對數據進行存儲。
如果采用存算一體芯片,隨著存儲容量規模的提高,其運算能力也會隨之提高。
其次,功耗更低
由于數據傳輸路徑的優化,存算一體技術在提高傳輸效率的同時,節省了數據傳輸的損耗,帶來更好的能效比、低功耗。在相同算力下,AI部分能效比將有2-3個數量級的提升,更低散熱成本,更高可靠性。
最后,成本更低
單位算力成本遠低于傳統計算芯片。同時,存算一體可以采用更成熟的制造工藝,大算力芯片往往需要采用先進工藝,這使存算一體芯片的晶圓成本低得多。
再考慮到配套的外圍芯片、元器件等因素,整個系統成本將有5倍左右降低。
正是因為這些基于基礎架構革新所帶來的性能提升,存算一體技術有望在很大程度上解決AI大模型面臨的算力挑戰。
特別是針對大模型的推理,存算一體保持權重的特點與大模型中大規模的參數部署需求相匹配,可能是存算一體技術最先服務大模型應用的場景之一。
“存算一體”存在多條路徑
目前,全球的存算一體玩家,主要可以劃分為兩大陣營:
一類是國際巨頭,比如英特爾、IBM、特斯拉、三星、阿里等,巨頭對存算技術布局較早,代表存儲器未來趨勢的磁性存儲器(MRAM)、憶阻器(RRAM)等產品也相繼在頭部代工廠傳出量產消息。
另一類是國內外的初創企業,比如Mythic、Tenstorrent、知存科技、后摩智能、千芯科技、億鑄科技、九天睿芯、蘋芯科技等。
由于積淀不同、優勢不同、目標場景不同,各家的存算一體方案也不盡相同,主要體現在三大差異上:技術路徑、存儲介質、以及采用的是模擬還是數字技術。
差異一:技術路徑
根據存儲單元與計算單元融合的程度,可以分為近存計算和存內計算兩類:
近存計算,本質上仍是存算分離架構,只不過計算模塊通常安放在存儲陣列(memory cell array)附近,數據更靠近計算單元,從而縮小了數據移動的延遲和功耗。
近存計算的典型代表有AMD Zen系列CPU、特斯拉 Dojo、阿里達摩院使用混合鍵合3D堆疊技術實現的存算一體芯片等,還有國外創業公司Graphcore、芯片大神Jim Keller加入的創業公司Tenstorrent等,他們目前推出的存算一體芯片都屬于近存計算的范疇。
存內計算,存儲單元和計算單元完全融合,沒有獨立的計算單元:直接在存儲器顆粒上嵌入算法,由存儲器芯片內部的存儲單元完成計算操作。
狹義上講,這才是真正的存算一體,或者說,基于器件層面實現的存算一體才真正打破了存算分離架構的壁壘。
一般來看,近存計算是巨頭的首選,因為符合“實用、落地快”的預期,而初創企業不存在路徑依賴和歷史包袱,反而可以另辟蹊徑,直接選擇存內計算,以期向更高性能、更通用的算力場景進行突圍。
差異二:存儲介質
存算一體依托的存儲介質呈現多樣化,比如以SRAM、DRAM為代表的易失性存儲器、以Flash為代表的非易失性存儲器等。綜合來看,不同存儲介質各有各的優點和短板。
發展較為成熟的有NOR Flash、DRAM、 SRAM等。
NOR FLASH屬于非易失性存儲介質,具有低成本、高可靠性優勢,但工藝制程有瓶頸;DRAM成本低、容量大,但是速度慢,且需要電力不斷刷新;SRAM在速度方面有優勢,但容量密度小,價格高,在大陣列運算的同時保證運算精度具有挑戰。
目前多數廠商當前傾向于技術成熟的SRAM設計存算一體芯片,但部分廠商也會采用“多駕馬車”并驅的發展路線布局未來。
差異三:數字or模擬?
按照電路技術路徑分類,存算一體計算有數字存算和模擬存算的區分,兩者也有各自的優缺點:
數字存算,更適合大規模高計算精度芯片的實現,運算靈活性較好,更適合通用性場景,但要求存儲單元內容必須以數字信號形式呈現。
模擬存算,在計算精度比較固定且較低的條件下,可以獲得更高的能量效率,同時可以搭載任意存儲單元實現。
但其關鍵模擬模塊(如A/D轉換器)的轉換精度要求相對固定,且由于不同模擬計算方式可能具有不同的計算誤差,因而這種技術路徑的擴展性略顯不足。
近些年來,學術界在存算一體的各個方面都進行了大量探索,提出了眾多存算一體加速器架構,中科院微電子所、清華大學、斯坦福大學等單位制備出了存算一體芯片原型。
國內也涌現出了一批存算一體初創企業,包括知存科技、后摩智能、億鑄科技、蘋芯科技等等,它們研發了基于SRAM、閃存、RRAM等存儲器的存算一體芯片,且已有產品問世。
存算一體芯片面臨多重挑戰
雖然存算一體芯片被認為是下一代芯片,但目前還處于起步階段,受限于成熟度,應用范圍不夠廣泛,面臨著諸多挑戰,例如:
在芯片設計方面,架構設計的難度和復雜度要求很高,同時市面上也缺乏成熟的存算一體軟件編譯器的快速部署、專用EDA工具輔助設計和仿真驗證。
在芯片測試方面,流片之后,同樣缺乏成熟的工具協助測試。
在生態方面,缺乏相應的與之匹配的軟件生態。
現階段各廠商開發的存算一體芯片均基于自行定義的編程接口,缺乏統一的編程接口,造成了存算一體軟件生態的分散,不同廠商開發的上層軟件無法互相通用,極大的影響了存算一體芯片的大規模使用。
總體而言,現階段的存算一體研發多數以零散的技術攻關為主,缺乏面向大算力方向的整體布局,也缺乏主導的應用需求牽引,因此距離大規模進入市場還有一定距離。
不過,大模型的到來,必將極大推動存算一體的技術落地,其未來應用潛力和部署規模都讓人期待。
面向大模型部署,從業者需要對存算一體進行體系化布局,從算法、框架、編譯器、工具鏈、指令集、架構、電路等跨層次協同設計,形成全棧式體系、工具鏈及生態鏈。
長期來看,設計方法論、測試、量產、軟件、場景的選擇等全方位競爭,將是各大廠商存算一體芯片發展和落地的關鍵。
-
人工智能
+關注
關注
1791文章
47279瀏覽量
238513 -
AI芯片
+關注
關注
17文章
1887瀏覽量
35027 -
算力
+關注
關注
1文章
977瀏覽量
14822
原文標題:“存算一體”是大模型AI芯片的破局關鍵?
文章出處:【微信號:ICViews,微信公眾號:半導體產業縱橫】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論