盡管我們仍處于人工智能革命的邊緣,但人工智能已經開始徹底改變我們的生活和工作方式。只有一個問題:人工智能技術非常耗電。據估計,運行大型人工智能模型在其生命周期內產生的排放量比普通美國汽車還要多。
人工智能的未來需要能源效率方面的新創新,從模型的設計方式到運行模型的硬件。在一個日益受到氣候變化威脅的世界中,人工智能能源效率的任何進步對于跟上人工智能快速擴大的碳足跡都至關重要。
IBM 研究中心在人工智能效率方面的最新突破之一依賴于模擬芯片,即功耗低得多的芯片。在今天發表在《自然》雜志上的一篇論文中,來自世界各地 IBM 實驗室的研究人員展示了他們的原型模擬 AI 芯片,用于節能語音識別和轉錄。他們的設計被用于兩個人工智能推理實驗,在這兩種情況下,模擬芯片都像同類全數字設備一樣可靠地執行這些任務,但完成任務的速度更快,消耗的能源更少。
為人工智能推理設計模擬芯片的概念并不新鮮——研究人員多年來一直在考慮這個想法。早在 2021 年,IBM 的一個團隊就開發了使用當電脈沖施加到材料上時,相變存儲器 (PCM) 就會工作,從而改變設備的電導率。該材料在非晶相和結晶相之間切換,較低的電脈沖將使器件更加結晶,提供較小的電阻,而足夠高的電脈沖使器件非晶態,從而產生大電阻。PCM 設備不是記錄數字系統中常見的 0 或 1,而是將其狀態記錄為非晶態和晶態之間的連續值。該值稱為突觸權重,可以存儲在每個 PCM 設備的物理原子配置中。存儲器是非易失性的,因此當電源關閉時重量仍會保留。相變存儲器將神經網絡的權重直接編碼到物理芯片上。但該領域之前的研究尚未表明如何將此類芯片用于我們所看到的當今人工智能領域主導的大規模模型。例如,GPT-3 是較大的流行模型之一,擁有 1750 億個參數或權重。
IBM 研究團隊創建的設計可以在每個芯片上編碼 3500 萬個相變存儲設備;換句話說,模型具有多達 1700 萬個參數。雖然其規模尚未與當今最先進的生成式人工智能模型相媲美,但將這些芯片組合在一起使其能夠像數字芯片一樣有效地處理真實人工智能用例的實驗。
團隊采取的方法是優化在計算中,尤其是在數字信號處理中,MAC 運算是指計算兩個數字的乘積并將其添加到累加器(CPU 中處理算術運算的部分)。MAC 是一個基本的計算單元。乘法累加 (MAC) 運算主導深度學習計算。通過讀取電阻式非易失性存儲器 (NVM) 器件陣列的行,然后沿列收集電流,該團隊表明他們可以在存儲器內執行 MAC。這樣就無需在芯片的內存和計算區域之間或跨芯片移動權重。模擬芯片還可以并行執行許多MAC操作,從而節省時間和能源。
模擬概念具有巨大潛力,但芯片設計和制造也面臨重大挑戰:模擬計算本質上不精確,必須開發新工藝才能大規模生產高產量 NVM,并將模擬芯片連接到傳統數字芯片。系統。但 IBM 的研究人員所做的工作表明,這些芯片在未來可能會像數字芯片一樣有用。
測試模擬人工智能硬件
IBM 研究中心的團隊設計了兩個實驗來測試其設計的有效性。第一個圍繞關鍵字話語檢測。就像您希望智能揚聲器在您大聲說“嘿 Siri”或“嘿 Google”時做出響應一樣,該團隊希望看到他們可以使用他們的芯片設計來識別特定的口語單詞。他們構建了一個可監聽 12 個單詞的系統,在每種情況下,模擬芯片都能以與當今基于軟件的系統相同的精度對每個單詞做出反應,但速度要快得多。如今等待和偵聽特定關鍵字的系統需要電源才能閑置等待,而團隊創建的設計可以在不需要時關閉電源,因為模型權重存儲在芯片上的非易失性存儲器中。
使用上傳到MLCommons(行業基準測試和協作網站)的模型,該團隊可以將演示系統的功效與在數字硬件上運行的系統進行比較。由 MLCommons 開發的MLPerf 存儲庫基準數據顯示,IBM 原型比同一網絡類別中最佳 MLPerf 提交快七倍,同時保持高精度。該模型使用硬件感知訓練在 GPU 上進行訓練,然后部署在團隊的模擬 AI 芯片上。
第二個實驗規模相當大,暗示未來可以使用基于模擬芯片的生成人工智能系統來代替數字芯片。它的目標是使用團隊的五個芯片縫合在一起來實現一個大型復雜的模型,并模擬片外數字計算,以展示模擬人工智能的可擴展性。研究人員運行了 MLPerf 上發現的循環神經網絡轉換器(RNNT)語音到文本模型,以逐個字母地轉錄一個人所說的內容。RNNT 在當今的許多現實應用中很受歡迎,包括虛擬助手、媒體內容搜索和字幕系統以及臨床文檔和聽寫。
該系統包含 5 個芯片上 1.4 億個 PCM 設備的 4500 萬個權重。它能夠采集人們說話的音頻并以非常接近數字硬件設置的精度進行轉錄。與第一個演示不同,這個演示并不完全是端到端的,這意味著它確實需要一些片外數字計算。然而,這里涉及的額外計算很少,如果在芯片上實現,最終的能源效率仍然高于當今市場上的產品。
該團隊再次使用上傳到 MLCommons 的數據,將其網絡的功效與在數字硬件上運行的 RNNT 進行比較。MLPerf 數據顯示,IBM 原型的每瓦性能(或效率)估計比同類系統高出大約 14 倍。這是 IBM 研究人員能夠使用 MLPerf 進行實際測試的第一個模擬系統,因為過去的實驗規模太小,無法進行比較。
模擬人工智能的下一步是什么
自然語言任務并不是模擬人工智能可以解決的唯一人工智能問題——IBM 研究人員正在研究許多其他用途。在本月早些時候發表在《自然電子》雜志上的一篇論文中,該團隊展示了可以使用節能模擬芯片設計來實現可擴展的混合信號架構,該架構可以在計算機視覺圖像識別的 CIFAR-10 圖像數據集中實現高精度。
這些芯片由位于東京、蘇黎世、紐約約克敦高地和加利福尼亞州阿爾馬登實驗室的 IBM 研究人員構思和設計,并由外部制造公司制造。相變存儲器和金屬層在位于奧爾巴尼納米技術綜合體的 IBM 研究實驗室進行了處理和驗證。
如果您將今天在《自然》雜志上發表的工作的優點(例如大型陣列和并行數據傳輸)與《自然電子》論文中展示的芯片的強大數字計算模塊相結合,您會看到許多構建模塊實現快速、低功耗模擬 AI 推理加速器的愿景所需。并將這些設計與硬件彈性訓練算法相結合,該團隊預計這些人工智能設備將來能為各種人工智能模型提供相當于神經網絡精度的軟件。
雖然這項工作對于模擬人工智能系統來說是向前邁出的一大步,但在我們在市場上看到包含此類設備的機器之前,還有很多工作要做。該團隊在不久的將來的目標是將上述兩個工作流整合到一個模擬混合信號芯片中。該團隊還在研究如何在他們的芯片上實現基礎模型。
模擬人工智能現在正在很大程度上解決當今數字系統正在解決的各種人工智能問題,并且具有功耗意識的模擬人工智能的愿景與我們今天使用的數字系統相結合,變得越來越清晰。
延伸閱讀:IBM 用于深度學習推理的模擬 AI 芯片
我們正處于人工智能革命的開端,這場革命將重新定義我們的生活和工作方式。特別是,深度神經網絡 (DNN) 徹底改變了人工智能領域,并隨著基礎模型和生成式人工智能的出現而日益受到重視。。但在傳統數字計算架構上運行這些模型限制了它們可實現的性能和能源效率。專門用于人工智能推理的硬件開發已經取得了進展,但其中許多架構在物理上分割了內存和處理單元。這意味著人工智能模型通常存儲在離散的內存位置,計算任務需要在內存和處理單元之間不斷地整理數據。此過程會減慢計算速度并限制可實現的最大能源效率。
IBM 研究中心一直在研究重塑人工智能計算方式的方法。模擬內存計算,或者簡稱模擬人工智能,是一種很有前途的方法,可以借用神經網絡在生物大腦中運行的關鍵特征來應對這一挑戰。在我們的大腦以及許多其他動物的大腦中,突觸的強度(在本例中是“權重”)決定了神經元之間的通信。對于模擬人工智能系統,我們將這些突觸權重本地存儲在納米級電阻存儲設備的電導值中,例如相變存儲器(PCM) 并通過利用電路定律并減少在內存和處理器之間不斷發送數據的需要來執行乘法累加 (MAC) 操作,這是 DNN 中的主要計算操作。
為了將模擬人工智能的概念變成現實,需要克服兩個關鍵挑戰:這些存儲器陣列需要能夠以與現有數字系統相當的精度進行計算,并且它們需要能夠與其他數字計算單元,以及模擬人工智能芯片上的數字通信結構。
在早前發表在 Nature Electronics 上的一篇論文中,IBM Research 引入了最先進的混合信號模擬 AI 芯片來運行各種 DNN 推理任務,從而在應對這些挑戰方面邁出了重要一步。它是第一款經過測試的模擬芯片,與數字芯片一樣擅長計算機視覺人工智能任務,同時能效顯著提高。
該芯片是在 IBM 的Albany NanoTech Complex中制造的,由 64 個模擬內存計算核心(或塊)組成,每個核心包含 256×256 的突觸單位單元交叉陣列。每個模塊中都集成了緊湊的基于時間的模數轉換器,以在模擬世界和數字世界之間進行轉換。每個圖塊還集成了輕量級數字處理單元,執行簡單的非線性神經元激活功能和縮放操作。
每個圖塊可以執行與 DNN 模型的一層相關的計算。突觸權重被編碼為 PCM 設備的模擬電導值。全局數字處理單元集成在芯片中間,可實現更復雜的操作,這些操作對于執行某些類型的神經網絡至關重要。該芯片還在所有塊和全局數字處理單元的芯片互連處具有數字通信路徑。
使用該芯片,我們對模擬內存計算的計算精度進行了最全面的研究,并在CIFAR-10圖像數據集上證明了 92.81% 的準確率。我們相信這是目前報道的使用類似技術的芯片中精度最高的。在本文中,我們還展示了如何將模擬內存計算與多個數字處理單元和數字通信結構無縫結合。測得的每個區域的吞吐量為400 GOPS/mm2 的 8 位輸入輸出矩陣乘法該芯片的功耗比之前基于電阻式存儲器的多核內存計算芯片高出 15 倍以上,同時實現了可比的能源效率。
通過將這種 64 塊芯片的面積和能源效率高的模數轉換器 (ADC)、高度線性乘法累加計算和強大的數字計算塊與我們展示的大規模并行數據傳輸相結合我們在 2021 年IEEE VLSI 研討會上推出的 34 塊芯片中,現在已經展示了實現快速、低功耗模擬 AI 推理加速器芯片架構愿景所需的許多構建模塊。
利用我們的學習成果,我們設計了一個類似的加速器架構,該架構于今年早些時候發布在IEEE Transactions on VLSI systems上。我們的愿景將許多模擬內存計算塊與與大規模并行 2D 網格連接的專用數字計算核心相結合。結合我們近年來開發的復雜的硬件感知訓練,我們期望這些加速器在未來幾年能夠在各種模型中提供與軟件等效的神經網絡精度。
-
加速器
+關注
關注
2文章
800瀏覽量
37912 -
數據集
+關注
關注
4文章
1208瀏覽量
24725 -
模擬芯片
+關注
關注
8文章
629瀏覽量
51228
原文標題:用模擬芯片取代數字芯片?
文章出處:【微信號:moorexuetang,微信公眾號:摩爾學堂】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論