在TinyML Summit上,早期的模擬AI加速器初創(chuàng)公司Areanna首次公開披露了其架構(gòu),并公開了其基于40 TOPS / W SRAM陣列的設(shè)計的某些功能。不尋常的設(shè)計在存儲陣列內(nèi)集成了模數(shù)和數(shù)模轉(zhuǎn)換。由于ADC和DAC通常在內(nèi)存中計算設(shè)計中占用絕大部分硅面積和功率預(yù)算,因此在存儲器陣列中集成此功能可能會改變模擬計算技術(shù)。
Areanna由前泰克模擬設(shè)計工程師Behdad Youssefi以及另一個前Tek同事Patrick Satarzadeh領(lǐng)導(dǎo)。他們?nèi)匀皇?a target="_blank">公司僅有的兩名全職員工,以及兩名兼職工程師和數(shù)名顧問。該公司根據(jù)其架構(gòu)的建立和運行情況,獲得了一個帶有一個計算塊的測試芯片。
模擬計算的基本前提。DAC將輸入數(shù)據(jù)轉(zhuǎn)換為模擬電壓。通過調(diào)節(jié)陣列中可變電阻器的電導(dǎo)乘以模擬輸入電壓,可以實現(xiàn)乘法。信號累積在垂直累積線上,然后由ADC轉(zhuǎn)換回數(shù)字域。例如,可變電阻器陣列可以基于憶阻器或存儲單元(來源:Areanna)
計算和量化
Areanna稱其架構(gòu)為內(nèi)存中的計算和量化(CQIM)。該概念基于模擬內(nèi)存計算技術(shù),與其他幾家AI芯片初創(chuàng)公司(Mythic,Gyrfalcon等)采用的基本概念相同。但是,Areanna使用SRAM陣列而不是非易失性存儲器,并混合了大量的秘密調(diào)味料。
Behdad Youssefi(來源:Areanna)
Areanna的IP在其SRAM陣列的設(shè)計中,該陣列在陣列內(nèi)部集成了ADC和DAC功能。其他內(nèi)存計算設(shè)計在每行/每個輸入上使用一個DAC,在每列/每個輸出上使用一個ADC。這些ADC和DAC占據(jù)了芯片功耗預(yù)算和硅片面積的很大一部分(根據(jù)Areanna的數(shù)據(jù),高達85%的功耗和98%的硅片面積)。在他的TinyML演示中,尤塞菲描述了模擬計算方法“用數(shù)據(jù)轉(zhuǎn)換瓶頸代替了馮·諾依曼體系結(jié)構(gòu)的內(nèi)存瓶頸”。
在Areanna的CQIM架構(gòu)中,AD和DA轉(zhuǎn)換是通過與計算相同的電路結(jié)構(gòu)執(zhí)行的– Areanna稱這些乘法位單元(MBC)。
雖然Areanna的前提是基于模擬計算,但電路幾乎完全是數(shù)字化的,并且是用數(shù)字處理技術(shù)制造的。通過從SRAM位單元讀取權(quán)重參數(shù),然后將其乘以輸入激活,然后通過單位電容器轉(zhuǎn)換為電荷,并在垂直累積線上進行累加,即可進行計算。具有相同的MBC結(jié)構(gòu)可進行AD和DA轉(zhuǎn)換,從而節(jié)省了大量的硅面積,而缺少ADC采樣電路可節(jié)省功耗。
Youssefi在接受EE Times采訪時說:“有一個SRAM位單元,然后有一個乘法器,一些邏輯,邏輯塊的輸出是數(shù)字信號。”“ [金屬]電容器將該信號轉(zhuǎn)換為電荷,該電荷在垂直累積線上共享。為了執(zhí)行這種所謂的模擬計算,幾乎沒有模擬電路。”
Areanna的CQIM體系結(jié)構(gòu)在每個乘法位單元(MBC)中都包含DAC和ADC功能(來源:Areanna)
該設(shè)計的一個重要特征是,每個點積計算僅需要一次量化(一次AD轉(zhuǎn)換),而與計算的分辨率無關(guān)。
尤塞菲說:“我們生成和累積MAC結(jié)果并將其量化回數(shù)字的方式使我們只能進行一次量化。”“這是因為我們在量化之前在模擬域中進行縮放的方式。在其他內(nèi)存中計算體系結(jié)構(gòu)中,該縮放發(fā)生在數(shù)字域中,因此,當(dāng)您完成AD轉(zhuǎn)換后,就可以進行縮放。我們在模擬領(lǐng)域以高度的完整性來做到這一點。”
尤塞菲說,其他的內(nèi)存中計算架構(gòu)可能會在每條垂直累積線上解析每個計算的一到四位。典型的架構(gòu)可能需要一個兩位數(shù)字輸入并產(chǎn)生一個四位數(shù)字輸出(通常使用較低精度的DAC和ADC來節(jié)省芯片面積)。因此,將八位權(quán)重與輸入激活相乘可能需要將計算分解為多個部分。Areanna的設(shè)計提供了完全可編程的分辨率,而不會影響硬件利用率。
他說:“我們不會通過從8位提高到4位再到1位來降低硬件利用率,無論分辨率如何,它仍然是100%的硬件利用率,”他說。“ [[對于其他內(nèi)存計算方案]如果要提供可變分辨率,則必須大大降低硬件利用率。”
數(shù)據(jù)流優(yōu)化
與非易失性存儲器相比,使用SRAM的優(yōu)勢包括SRAM的低讀寫能量;這樣就可以從片外引入重量,而不會產(chǎn)生高能耗。Youssefi解釋說,SRAM的低寫入能量還為數(shù)據(jù)流優(yōu)化提供了靈活性。
當(dāng)今行業(yè)中正在使用各種數(shù)據(jù)流優(yōu)化方法-它們的區(qū)別在于哪些數(shù)據(jù)類型保持不變,哪些數(shù)據(jù)類型圍繞芯片移動。例如,對于具有很多權(quán)重的大型神經(jīng)網(wǎng)絡(luò)層,保持權(quán)重固定可能是有效的。對于處理高分辨率圖像的網(wǎng)絡(luò),輸入激活數(shù)據(jù)是數(shù)據(jù)密集度最高的數(shù)據(jù)類型,因此使輸入激活保持靜止可能更有意義。Areanna的基于SRAM的架構(gòu)允許雙重靜態(tài)數(shù)據(jù)流優(yōu)化,也就是說,無需額外的硬件就可以使兩種數(shù)據(jù)類型成為靜態(tài)數(shù)據(jù)。
Youssefi說:“因為我們的計算是在模擬域中并行完成的,所以我們實際上并不需要移動數(shù)據(jù)。”“由于架構(gòu)的原因,可以使權(quán)重或用戶選擇的任何內(nèi)容固定,并且部分和[輸出]始終固定。因此,這兩種數(shù)據(jù)類型沒有變化。”
用戶可以選擇使輸入激活和部分和固定不變,或者使權(quán)重和部分和固定均固定,這取決于對應(yīng)用程序(或神經(jīng)網(wǎng)絡(luò)中特定層)最有效的選擇。
可伸縮性
據(jù)Youssefi稱,當(dāng)前許多內(nèi)存計算架構(gòu)的另一個問題是它們的可伸縮性受到限制。
Youssefi在他的TinyML演示中說:“針對功率性能進行了優(yōu)化的邏輯技術(shù)被用于構(gòu)建這些數(shù)據(jù)轉(zhuǎn)換器。”“然后有一種存儲技術(shù),該技術(shù)針對密度進行了優(yōu)化,并用于制造存儲陣列。當(dāng)您將這兩種技術(shù)放在同一個芯片上時,您將面臨兩全其美的局面。”
由于Areanna的設(shè)計幾乎完全建立在數(shù)字模塊上,因此可以在標(biāo)準(zhǔn)CMOS工藝中進行制造,并可以根據(jù)摩爾定律跟蹤到較小的工藝節(jié)點。也無需擔(dān)心困擾其他內(nèi)存計算設(shè)計的模擬非理想情況-Areanna使用的金屬電容器具有非常高的精確度匹配精度,其他一切都是數(shù)字的。
Areanna的測試芯片(來源:Areanna)
測試芯片
Areanna成立于2019年,以小企業(yè)創(chuàng)新研究(SBIR)贈款的形式獲得了美國國家科學(xué)基金會的種子資金,總計225,000美元。該公司在其架構(gòu)上擁有兩項專利。2020年,這家初創(chuàng)公司發(fā)布了磁帶,并制造出了能夠部分矩陣乘法的工作測試芯片,從而證明了該架構(gòu)的功能。該芯片的基準(zhǔn)功率效率為40 TOPS / W,計算密度為2 TOPS / mm2硅面積(兩個數(shù)字均為8位計算)。每個內(nèi)核的內(nèi)存帶寬為2 TB / s。
尤塞菲說,下一步是阿雷安娜(Areanna)使用多個計算塊構(gòu)建更大的測試芯片。第二個更高級的測試芯片將在2022年問世。
編輯:hfy
-
電容器
+關(guān)注
關(guān)注
64文章
6252瀏覽量
99991 -
模擬電路
+關(guān)注
關(guān)注
125文章
1562瀏覽量
102834 -
存儲器
+關(guān)注
關(guān)注
38文章
7522瀏覽量
164127 -
adc
+關(guān)注
關(guān)注
99文章
6528瀏覽量
545330 -
數(shù)字信號
+關(guān)注
關(guān)注
2文章
978瀏覽量
47612
發(fā)布評論請先 登錄
相關(guān)推薦
評論