昨天,初創公司Cerebras Systems宣布推出有史以來最大的芯片Wafer Scale Engine(WSE)。
據悉,WSE擁有1.2萬億個晶體管,這是一個什么概念呢?比較一下,1971年英特爾首款4004處理器擁有2300個晶體管,最近,AMD推出的最新處理器擁有320億個晶體管。由此可見WSE規模之龐大。
大多數芯片是在12英寸硅晶圓上制造的,并在芯片工廠中批量處理。但Cerebras Systems芯片是在單個晶圓上通過互聯實現的單芯片。這些互連設計使其全部保持高速運行,可使萬億個晶體管全部一起工作。
Cerebras Wafer Scale Engine專門針對處理人工智能應用程序而設計的。該公司本周正在加利福尼亞州帕洛阿爾托的斯坦福大學舉行的Hot Chips會議上討論這項設計。
此前,三星已經制造了一個閃存芯片,即eUFS,擁有2萬億個晶體管。但Cerebras芯片擁有400,000個核心,42,225平方毫米。它比最大的Nvidia圖形處理單元大 56.7倍,該單元的尺寸為815平方毫米和211億個晶體管。
與傳統芯片相比,WSE還包含3000倍的高速片上存儲器,并且具有10000倍的存儲器帶寬。
該芯片來自Andrew Feldman領導的團隊,后者曾創建微型服務器公司SeaMicro,并以3.34億美元的價格出售給了AMD。
芯片尺寸在AI中非常重要,因為大芯片可以更快地處理信息,在更短的時間內產生答案。減少訓練時間,使研究人員能夠測試更多想法,使用更多數據并解決新問題。谷歌,Facebook,OpenAI,騰訊,百度和許多專業人士都認為,今天人工智能的主要限制是訓練需要很長時間。因此,縮短訓練時間就消除了整個行業進步的主要瓶頸。
當然,芯片制造商通常不會制造如此大的芯片。在單個晶圓上,在制造過程中通常會產生一些雜質,雜質會導致芯片發生故障。如果晶圓上只有一個芯片,它有雜質的幾率是100%,雜質會使芯片失效。但Cerebras設計的芯片是有冗余的,因此一種雜質不會破壞整個芯片。
WSE有很多創新,通過解決限制芯片尺寸的數十年的技術挑戰 - 例如交叉光罩連接,良率,功率輸送,以及封裝等,Cerebras Systems首席執行官費爾德曼說。“每個架構決策都是為了優化AI工作的性能。結果是,Cerebras WSE根據工作量提供了數百或數千倍于現有解決方案的性能,只需很小的功耗和空間。“
WSE通過加速神經網絡訓練的所有元素來實現這些性能提升。神經網絡是多級計算反饋回路。較快的輸入在循環中移動,循環學習的速度越快,從而減少了訓練時間。
Linley Group首席分析師Linley Gwennap在一份聲明中說:“Cerebras憑借其晶圓級技術實現了巨大的飛躍,在單片晶圓上實現了更多的處理性能。” 為了實現這一壯舉,該公司已經解決了一系列工程難題,包括實施高速芯片到芯片通信,解決制造缺陷,封裝如此大的芯片,以及電源和冷卻等問題。通過將各種學科的頂級工程師聚集在一起,Cerebras在短短幾年內創造了新技術并交付了產品。
據悉,該芯片面積比最大的GPU多56.7倍,Cerebras WSE提供更多內核進行計算,更多內存靠近內核,因此內核可以高效運行。由于這些大量的內核和內存位于單個芯片上,因此所有通信都在芯片內進行,這意味著它的低延遲通信帶寬是巨大的,因此內核組可以以最高效率進行協作。
Cerebras WSE中的46,225平方毫米的硅包含400,000個AI優化,無緩存,無開銷的計算內核和18千兆字節的本地、分布式、超高速SRAM內存,內存帶寬為每秒9 PB。這些內核通過細粒度、全硬件、片上網狀連接通信網絡連接在一起,可提供每秒100 petabits的總帶寬。更多內核,更多本地內存和低延遲高帶寬結構共同構成了加速AI工作的最佳架構。
更多核心
WSE包含400,000個AI優化的計算核心。被稱為稀疏線性代數核心的SLAC,計算核心靈活、可編程,并針對支持所有神經網絡計算的稀疏線性代數進行了優化。SLAC的可編程性確保內核可以在不斷變化的機器學習領域中運行所有神經網絡算法。
由于稀疏線性代數核心針對神經網絡計算基元進行了優化,因此它們可實現最佳利用率 - 通常是GPU的三倍或四倍。此外,WSE核心包括Cerebras發明的稀疏性收集技術,以加速稀疏工作負載(包含零的工作負載)的計算性能,如深度學習。
零在深度學習計算中很普遍。通常,要相乘的向量和矩陣中的大多數元素都是零。然而,乘以零是浪費硅、功率和時間,因為沒有新的信息。
因為GPU和張量處理單元是密集的執行引擎 - 設計為永不遇到零的引擎 - 它們即使在零時也會乘以每個元素。當50%-98%的數據為零時,如深度學習中的情況一樣,大多數乘法都被浪費了。由于Cerebras稀疏線性代數核不會乘以零,所有零數據都會被濾除,并且可以在硬件中跳過。
存儲
內存是每個計算機體系結構的關鍵組件。更接近計算的內存轉換為更快的計算,更低的延遲和更好的數據移動功效。高性能深度學習需要大量計算,并且頻繁訪問數據。這需要計算核心和存儲器之間的緊密接近,這在GPU中并非如此,其中絕大多數存儲器是很緩慢的,且在片外。
Cerebras Wafer Scale Engine包含更多內核,具有比迄今為止任何芯片更多的本地內存,并且在一個時鐘周期內可以通過其核心訪問18GB的片上內存。WSE上的核心本地內存集合可提供每秒9PB的內存帶寬 - 比領先的圖形處理單元多3,000倍的片上內存和10,000倍的內存帶寬。
通信
Swarm通信結構是WSE上使用的處理器間通信結構,它可以傳統通信技術的功耗的一小部分實現突破性帶寬和低延遲。Swarm提供低延遲、高帶寬的2D網格,可連接WSE上的所有400,000個核心,每秒帶寬為100 petabits。
路由方面,Swarm為每個神經網絡提供獨特的優化通信路徑。軟件根據正在運行的特定用戶定義的神經網絡結構,配置通過400,000個核心的最佳通信路徑以連接處理器。
Cerebras WSE的總帶寬為每秒100 petabits。不需要諸如TCP / IP和MPI之類的通信協議支持,因此避免了它們的性能損失。該架構中的通信能量成本遠低于每比特1焦耳,這比GPU低近兩個數量級。通過結合大量帶寬和極低的延遲,Swarm通信結構使Cerebras WSE能夠比任何當前可用的解決方案更快地學習。
-
芯片
+關注
關注
456文章
50950瀏覽量
424720 -
晶體管
+關注
關注
77文章
9706瀏覽量
138476 -
Systems
+關注
關注
0文章
28瀏覽量
20477
原文標題:反其道而行,世界最大芯片誕生
文章出處:【微信號:icbank,微信公眾號:icbank】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論