背景
在處理數(shù)據(jù)密集型應用時,馮·諾伊曼架構(gòu)面臨嚴重的性能和能量消耗問題,主要因為處理器和存儲器之間頻繁傳輸大量數(shù)據(jù)。 為應對這一挑戰(zhàn),基于SRAM的存內(nèi)計算技術(shù)被提出,通過將運算單元整合到內(nèi)存中,實現(xiàn)即存即算的數(shù)據(jù)處理,徹底打破了馮·諾伊曼瓶頸。 馮·諾伊曼架構(gòu)和馮·諾伊曼瓶頸如下圖:
SRAM 存內(nèi)計算技術(shù)
存內(nèi)計算技術(shù)是一種新興的存儲器技術(shù),它將存儲單元和計算單元集成在同一個存儲器芯片中,從而實現(xiàn)數(shù)據(jù)在存儲和計算之間的直接傳輸,而不需要通過外部總線或處理器進行數(shù)據(jù)傳輸。這種技術(shù)可以大大提高數(shù)據(jù)處理的效率和能效,因此在人工智能、大數(shù)據(jù)處理等領域具有廣泛的應用前景。SRAM(靜態(tài)隨機存取存儲器)是一種常見的存內(nèi)計算技術(shù),它具有高速、低功耗、易擴展等優(yōu)點,因此在存內(nèi)計算領域得到了廣泛的應用。本文將對SRAM存內(nèi)計算技術(shù)進行綜述,介紹其基本原理、技術(shù)實現(xiàn)、應用場景和未來發(fā)展方向。
知存科技的WTM2101量產(chǎn)芯片采用40nm制程,將神經(jīng)網(wǎng)絡部署在芯片中,已經(jīng)實現(xiàn)了滿足端側(cè)算力需求的語音識別等功能。即將量產(chǎn)的WTM8芯片,采用28nm制程,作為新一代存內(nèi)AI計算視覺芯片,能夠?qū)崿F(xiàn)圖像的AI超分、插幀、HDR識別和檢測這樣復雜的功能[8],現(xiàn)有的一些研究也已經(jīng)證明存算一體可以實現(xiàn)16bit、32bit的浮點計算,具備進入高算力芯片的能力。
SRAM存內(nèi)計算技術(shù)的核心思想是將存儲單元和計算單元集成在一起,從而實現(xiàn)數(shù)據(jù)在存儲和計算之間的直接傳輸。這種技術(shù)可以大大提高數(shù)據(jù)處理的效率和能效,因為數(shù)據(jù)不需要通過外部總線或處理器進行傳輸,從而減少了數(shù)據(jù)傳輸?shù)难舆t和功耗。此外,SRAM存內(nèi)計算技術(shù)還可以實現(xiàn)更高的能效比,因為存儲器和計算單元的集成可以減少電路的復雜性,從而降低功耗。
SRAM存內(nèi)計算技術(shù)的實現(xiàn)方式有多種,其中最常見的是通過在傳統(tǒng)的SRAM存儲單元中集成計算邏輯來實現(xiàn)。這種實現(xiàn)方式可以在不增加額外的硬件開銷的情況下實現(xiàn)高性能的計算能力。另一種實現(xiàn)方式是通過在SRAM存儲器陣列中集成多個計算單元,從而實現(xiàn)更強大的計算能力。這種實現(xiàn)方式可以擴展到更大的規(guī)模,但需要更多的硬件資源。
SRAM存內(nèi)計算技術(shù)的應用場景非常廣泛,包括人工智能、大數(shù)據(jù)處理、圖像處理、自然語言處理等領域。在人工智能領域,SRAM存內(nèi)計算技術(shù)可以用于實現(xiàn)神經(jīng)網(wǎng)絡的存儲和計算,從而提高神經(jīng)網(wǎng)絡的性能和能效。在大數(shù)據(jù)處理領域,SRAM存內(nèi)計算技術(shù)可以用于實現(xiàn)高效的數(shù)據(jù)處理和分析,從而提高數(shù)據(jù)處理的速度和精度。在圖像處理和自然語言處理領域,SRAM存內(nèi)計算技術(shù)可以用于實現(xiàn)高效的特征提取和模型訓練,從而提高圖像和自然語言處理的性能和能效。
基于電壓域的 SRAM 存內(nèi)計算技術(shù)
基于電壓域的SRAM存內(nèi)計算技術(shù)是一種將計算和存儲單元結(jié)合在一起的技術(shù),它利用SRAM存儲單元的電壓變化來實現(xiàn)計算功能。這種技術(shù)可以顯著提高處理速度,同時降低功耗和硬件成本。
在電壓域上實現(xiàn)的 SRAM 存內(nèi)計算技術(shù),通常先使用 DAC 單元將數(shù)字量先轉(zhuǎn)化為線性的電壓值,然后利用電荷共享的方式實現(xiàn)計算,最后再用ADC 單元將模擬的計算結(jié)果轉(zhuǎn)換為相應的數(shù)字信號.通過將數(shù)據(jù)量轉(zhuǎn)換成電壓值的方式實現(xiàn)多位算法,簡單易行,也是當下存內(nèi)計算的最主要實現(xiàn)形式.如果按計算模塊和存儲模塊之間的距離劃分。
位串性技術(shù)的8TSRAM 通用近內(nèi)存計算
基于位串性技術(shù)的 8TSRAM 通用近內(nèi)存計算。Wang 等人提出了一種混合近內(nèi)存計算陣列,可用于需要高能效、高靈活性和高可編程性的般用途的應用。架構(gòu)如下圖:
在傳統(tǒng)的處理器中,數(shù)據(jù)需要在存儲器和處理器之間不斷傳輸,這不僅增加了數(shù)據(jù)傳輸?shù)难舆t,還增加了功耗。而基于電壓域的SRAM存內(nèi)計算技術(shù)可以將存儲單元和計算單元集成在一起,實現(xiàn)數(shù)據(jù)在存儲和計算之間的直接傳輸,從而避免了數(shù)據(jù)傳輸?shù)难舆t和功耗。
基于電壓域的SRAM存內(nèi)計算技術(shù)的實現(xiàn)方式是利用SRAM存儲單元的電壓變化來模擬邏輯門的輸入和輸出。通過對SRAM存儲單元的電壓進行讀取、轉(zhuǎn)換和寫入操作,可以實現(xiàn)各種邏輯運算,從而完成計算任務。這種技術(shù)可以實現(xiàn)在單個SRAM存儲單元中完成多個邏輯運算,提高了計算速度和能效。
脈沖寬度調(diào)制8T-RAM 存內(nèi)計算
基于脈沖寬度調(diào)制的8T-RAM 存內(nèi)計算.Yang 等人設計了一款基于 8TSRAM 三明治 RAM 設備,能夠?qū)崿F(xiàn)特征值8bit,權(quán)重 lbit 的BWN 網(wǎng)絡,如圖7所示,該方案將特征值和權(quán)重值的存儲單元分別存儲在脈沖寬度調(diào)制單元PWMU附近,在計算模式下,兩位輸入會經(jīng)2-4譯碼器置換成4種電壓水平,用于調(diào)整脈沖寬度,權(quán)重作用在選擇器上,如果權(quán)重為1,脈沖寬度會對應擴展,反之則縮短,最終經(jīng)脈沖量化器量化得到最終結(jié)果,該設計通過特制的 PWMU 實現(xiàn)了時間域的乘加計算,能耗效率可達到 119.7 TOPS/W,但是 8TSRAM 和 PWMU 單元都會造成大面積開銷.同時:模擬域的 SRAM 存內(nèi)計算對 PVT 以及版圖走線比較敏感,相應的計算精度、量化誤差問題仍需進步優(yōu)化改進
架構(gòu)如下圖:
基于電壓域的SRAM技術(shù)缺點
基于電壓域的SRAM技術(shù)存在以下缺點:
電壓窗口受限:SRAM存儲單元的電壓變化范圍有限,這限制了可實現(xiàn)的功能和計算精度。
高精度電壓控制:需要高精度的電壓源和電壓調(diào)節(jié)電路,增加了硬件復雜性和成本。 溫度、工藝和時間影響:SRAM存儲單元的電壓變化會受到溫度、工藝和時間的影響,這會影響技術(shù)的穩(wěn)定性。
可擴展性挑戰(zhàn):隨著存儲器規(guī)模的擴大,電路的復雜性和功耗都會顯著增加。
集成度和能耗:SRAM的基本單元電路較復雜,集成度較低,且運行功耗較大。
成本高:每個存儲單元需要更多的晶體管,使得SRAM的成本較高。
基于電壓域的SRAM技術(shù)的優(yōu)點
基于電壓域的SRAM技術(shù)具有以下優(yōu)點:
高性能:SRAM作為讀寫速度最快的內(nèi)存介質(zhì),具備高能效比的計算優(yōu)勢,適用于需要高速處理的應用場景,如自動駕駛、無人機等對計算準確性和反應速度要求高的場景。
可擴展性強:SRAM可向先進制程兼容,從而達到更高的能效比和面效比,有助于實現(xiàn)更大規(guī)模的存內(nèi)計算。
工藝成熟度高:SRAM的工藝成熟度較高,可以相對較快地實現(xiàn)技術(shù)落地與量產(chǎn)。
精度無損:SRAM在進行操作時不需要動態(tài)的刷新電路,讀寫延遲短,精度無損。
集成度高:SRAM具有集成度高,完全兼容數(shù)字邏輯電路工藝等優(yōu)點。
低功耗:由于SRAM在進行操作時不需要動態(tài)的刷新電路,使其具有快速訪問、較低功耗等優(yōu)點。
電壓域的SRAM技術(shù)的局限性
基于電壓域的SRAM技術(shù)雖然具有許多優(yōu)點,但也存在一些局限性。
由于SRAM存儲單元的電壓變化范圍有限,因此基于電壓域的SRAM技術(shù)只能在有限的電壓范圍內(nèi)實現(xiàn)邏輯運算,這限制了其可實現(xiàn)的功能和計算精度。
基于電壓域的SRAM技術(shù)需要精確控制存儲單元的電壓,這需要高精度的電壓源和電壓調(diào)節(jié)電路,增加了硬件復雜性和成本。
由于SRAM存儲單元的電壓變化會受到溫度、工藝和時間的影響,因此基于電壓域的SRAM技術(shù)的穩(wěn)定性有待提高。
基于電壓域的SRAM技術(shù)的可擴展性也有挑戰(zhàn)。隨著存儲器規(guī)模的擴大,電路的復雜性和功耗都會顯著增加,因此需要解決如何在大規(guī)模存儲器中實現(xiàn)高效、低功耗的存內(nèi)計算技術(shù)。 盡管存在這些局限性,基于電壓域的SRAM技術(shù)仍然是一種非常有前途的存內(nèi)計算技術(shù),可以應用于人工智能、物聯(lián)網(wǎng)、智能傳感器等領域。未來隨著技術(shù)的不斷發(fā)展和完善,相信這些局限性可以得到一定程度的解決。
應用領域
基于電壓域的SRAM存內(nèi)計算技術(shù)的應用場景主要包括人工智能、物聯(lián)網(wǎng)、智能傳感器等領域。在人工智能領域,這種技術(shù)可以用于實現(xiàn)神經(jīng)網(wǎng)絡的存儲和計算,從而提高神經(jīng)網(wǎng)絡的性能和能效。在物聯(lián)網(wǎng)和智能傳感器領域,這種技術(shù)可以用于實現(xiàn)高效的數(shù)據(jù)處理、分析和傳輸,從而提高物聯(lián)網(wǎng)和智能傳感器的性能和能效。
基于電壓域的SRAM存內(nèi)計算技術(shù)是一種非常有前途的技術(shù),它可以提高數(shù)據(jù)處理的效率和能效,降低功耗和硬件成本。未來隨著技術(shù)的不斷發(fā)展和完善,這種技術(shù)有望在更多領域得到應用。
總結(jié)
這篇文章總結(jié)了馮·諾伊曼架構(gòu)及其在處理數(shù)據(jù)密集型應用中所面臨的性能和能耗問題。為了應對這一挑戰(zhàn),文章介紹了存內(nèi)計算技術(shù),其中重點討論了基于電壓域的SRAM存內(nèi)計算技術(shù)。
在馮·諾伊曼架構(gòu)中,存儲器和處理器之間頻繁傳輸大量數(shù)據(jù),導致性能瓶頸。為解決這個問題,存內(nèi)計算技術(shù)被提出,其核心思想是將計算單元整合到存儲器中,實現(xiàn)數(shù)據(jù)在存儲和計算之間的直接傳輸,從而提高數(shù)據(jù)處理效率和降低能耗。
特別關注了基于電壓域的SRAM存內(nèi)計算技術(shù),這一技術(shù)利用SRAM存儲單元的電壓變化來實現(xiàn)計算功能。通過將數(shù)字量轉(zhuǎn)化為電壓值,利用電荷共享的方式進行計算,最終將結(jié)果轉(zhuǎn)換為數(shù)字信號。這種技術(shù)在人工智能、大數(shù)據(jù)處理、圖像處理等領域有著廣泛的應用前景。
總體而言,基于電壓域的SRAM存內(nèi)計算技術(shù)在改善馮·諾伊曼架構(gòu)的性能和能耗方面具有潛在的優(yōu)勢,為未來在各個領域的應用提供了創(chuàng)新的可能性。
參考文獻
微電子學與計算機-SRAM 存內(nèi)計算技術(shù)綜述
審核編輯 黃宇
-
存儲器
+關注
關注
38文章
7492瀏覽量
163834 -
數(shù)據(jù)傳輸
+關注
關注
9文章
1891瀏覽量
64601 -
sram
+關注
關注
6文章
767瀏覽量
114689 -
AI
+關注
關注
87文章
30894瀏覽量
269085 -
存內(nèi)計算
+關注
關注
0文章
30瀏覽量
1380
發(fā)布評論請先 登錄
相關推薦
評論