半導體技術、算法和數(shù)據(jù)科學的持續(xù)創(chuàng)新使得在越來越多的邊緣設備中融入一定程度的人工智能推理功能成為可能。今天,我們在計算機視覺應用中看到了它,例如從手機和筆記本電腦到安全攝像頭的產(chǎn)品上的物體識別、面部識別和圖像分類。在工業(yè)系統(tǒng)中,推理可以實現(xiàn)預測性設備維護,并允許機器人獨立執(zhí)行任務。對于物聯(lián)網(wǎng)和智能家居產(chǎn)品,人工智能推理可以實時監(jiān)控和響應各種傳感器輸入。
目前支持AI推理的最低成本處理解決方案是用于物聯(lián)網(wǎng)系統(tǒng)的現(xiàn)成單芯片微控制器。這種芯片將通用CPU、SRAM和IO功能與非易失性存儲器(NVM)相結(jié)合。然而,這些芯片在CPU上運行的軟件中實現(xiàn)了AI算法,這些算法只能提供適度的性能,并且僅適用于基本推理。擴展單芯片解決方案以提供更高性能的推理對設計人員來說是一個挑戰(zhàn)。
如今,有望為要求苛刻的推理算法提供多個 Teraflops 性能的解決方案必須使用專用的 AI 加速硬件。為了在實現(xiàn)所需性能的同時將功耗降至最低,它們必須采用領先的工藝制造。事實上,如今市場上有許多片上系統(tǒng) (SoC) 采用先進的工藝幾何形狀開發(fā)的專用 AI 加速硬件,效率相當高。
但是,這些通常是雙芯片解決方案,其中AI計算引擎采用高級工藝(通常為22nm或更低)實現(xiàn),NVM設備采用較舊的工藝技術。這是因為嵌入式閃存在 40nm 以下無法很好地擴展;在28nm時,成本對于大多數(shù)應用來說變得令人望而卻步,因此在28nm時不存在嵌入式閃存。這意味著無法將閃存和高性能推理引擎集成到單個 SoC 中。
對于成本次于性能的應用,這種雙芯片解決方案可能是可行的(想想像自動駕駛汽車這樣的產(chǎn)品,它們需要存儲在固態(tài)硬盤[SSD]中并通過DRAM運行的大型AI模型)。然而,對于低功耗邊緣AI產(chǎn)品,雙芯片解決方案的成本可能令人望而卻步。在雙芯片解決方案中,還需要連續(xù)從外部存儲器獲取權重,從而導致延遲和功耗增加。此外,雙芯片解決方案存在潛在的安全風險,因為通過外部總線讀取或修改NVM更有可能破解系統(tǒng)。
低成本、低功耗系統(tǒng)的“圣杯”是將加速器、NVM、SRAM 和 IO 組合在單個 SoC 上的單芯片(SoC 或 MCU)。從資源的角度來看,大多數(shù)小型低功耗物聯(lián)網(wǎng)和其他AI邊緣應用實際上并不需要雙芯片解決方案。在這些應用中,AI 模型可以足夠小,以適應 SoC 的內(nèi)部 NVM。只有閃存有限的可擴展性才是挑戰(zhàn)。
單芯片解決方案不僅可以節(jié)省成本;這將有可能實現(xiàn)更高的性能和更低的功耗,這既是因為存儲器和執(zhí)行單元之間的帶寬更高,也是因為不需要跨芯片邊界獲取權重。而且,由于這些應用程序中的AI模型相對較小并且更新頻率不高,因此片上NVM不僅可以用于代碼存儲的傳統(tǒng)NVM任務;它還可用于保存AI權重和CPU固件。
如今,AI權重和CPU固件是從片上SRAM讀取的。這種方法有幾個缺點。首先,將權重存儲在SRAM中意味著需要比其他方式更大的SRAM陣列。這增加了成本,因為SRAM本身就很昂貴,而且還增加了整體芯片尺寸,導致進一步的成本。此外,由于SRAM是一種易失性存儲器技術,因此在啟動時仍需要從外部閃存加載代碼。沒有即時啟動。
利用 ReRAM 實現(xiàn)單芯片解決方案
電阻式 RAM(ReRAM 或 RRAM)是一種創(chuàng)新的 NVM 技術,可實現(xiàn)用于邊緣 AI 推理的低成本、低功耗單芯片解決方案的愿景。ReRAM可以與芯片的其余部分一起擴展到高級工藝節(jié)點,因此它可以在與AI引擎相同的高級工藝上實現(xiàn)。
ReRAM可用于取代大型片上SRAM,以存儲AI權重和CPU固件。由于該技術是非易失性的,因此無需在啟動時等待從外部 NVM 加載 AI 模型。它比SRAM密度大得多,這使得它的每比特成本低于SRAM,因此可以在片上集成更多的存儲器,以支持更大的神經(jīng)網(wǎng)絡,而芯片尺寸和成本相同。雖然數(shù)據(jù)存儲仍然需要片上SRAM,但陣列將更小,整體解決方案更具成本效益。
雖然數(shù)據(jù)存儲仍然需要片上SRAM,但用ReRAM取代大型片上SRAM來存儲AI權重和CPU固件,可以減小芯片尺寸,提供更具成本效益的整體解決方案。(圖片:Weebit Nano)
借助 ReRAM,設計人員可以在單個 IC 中實現(xiàn)高級 AI 的單芯片實現(xiàn),同時節(jié)省芯片尺寸和成本。
展望未來:未來的 AI 架構
展望未來,ReRAM也將成為邊緣AI未來的構建模塊:神經(jīng)形態(tài)計算(也稱為內(nèi)存模擬處理)。在此范例中,計算資源和內(nèi)存駐留在同一位置,因此無需移動權重。神經(jīng)網(wǎng)絡矩陣成為ReRAM單元的數(shù)組,突觸權重成為驅(qū)動乘法運算的NVM單元的電導。
未來的系統(tǒng)將模仿人腦的行為,對大量數(shù)據(jù)進行快速實時處理。(圖片:Weebit Nano)
由于ReRAM細胞與人腦中的突觸具有物理和功能相似性,因此可以使用ReRAM模擬人腦的行為,以便對大量數(shù)據(jù)進行快速實時處理。這樣的解決方案將比當今傳統(tǒng)處理器上的神經(jīng)網(wǎng)絡模擬能效高出幾個數(shù)量級。Weebit正在與眾多學術和商業(yè)合作伙伴合作,以在這一領域取得進展。
編輯:黃飛
-
cpu
+關注
關注
68文章
10863瀏覽量
211786 -
物聯(lián)網(wǎng)
+關注
關注
2909文章
44639瀏覽量
373408 -
AI
+關注
關注
87文章
30897瀏覽量
269111 -
NVM
+關注
關注
1文章
41瀏覽量
19124 -
非易失性存儲器
+關注
關注
0文章
107瀏覽量
23443
發(fā)布評論請先 登錄
相關推薦
評論