過去幾年,關(guān)于人工智能和機(jī)器學(xué)習(xí)加速器的發(fā)展進(jìn)行到哪一階段了?來自 MIT 的研究者通過一篇綜述性文章總結(jié)了過去三年關(guān)于 AI 加速器和處理器的調(diào)查。
過去這一年,無論是初創(chuàng)公司還是成熟大廠,預(yù)告、發(fā)布和部署人工智能(AI)和機(jī)器學(xué)習(xí)(ML)加速器的步伐很緩慢。但這并非不合理,對于許多發(fā)布加速器報(bào)告的公司來說,他們花三到四年的時(shí)間研究、分析、設(shè)計(jì)、驗(yàn)證和對加速器設(shè)計(jì)的權(quán)衡,并構(gòu)建對加速器進(jìn)行編程的技術(shù)堆棧。對于那些已發(fā)布升級版本加速器的公司來說,雖然他們報(bào)告的開發(fā)周期更短,但至少還是要兩三年。這些加速器的重點(diǎn)仍然是加速深層神經(jīng)網(wǎng)絡(luò)(DNN)模型,應(yīng)用場景從極低功耗嵌入式語音識(shí)別和圖像分類到數(shù)據(jù)中心大模型訓(xùn)練,典型的市場和應(yīng)用領(lǐng)域的競爭仍在繼續(xù),這是工業(yè)公司和技術(shù)公司從現(xiàn)代傳統(tǒng)計(jì)算向機(jī)器學(xué)習(xí)解決方案轉(zhuǎn)變的重要部分。
人工智能生態(tài)系統(tǒng)將邊緣計(jì)算、傳統(tǒng)高性能計(jì)算(HPC)和高性能數(shù)據(jù)分析(HPDA)的組件結(jié)合在一起,這些組件必須協(xié)同工作,才能有效地給決策者、一線人員和分析師賦能。圖 1 展示了這種端到端 AI 解決方案及其組件的架構(gòu)概覽。
原始數(shù)據(jù)首先需要進(jìn)行數(shù)據(jù)規(guī)整,在該步驟中數(shù)據(jù)被融合、聚合、結(jié)構(gòu)化、累積并轉(zhuǎn)換為信息。數(shù)據(jù)規(guī)整步驟生成的信息作為神經(jīng)網(wǎng)絡(luò)等有監(jiān)督或無監(jiān)督算法的輸入,這些算法可提取模式、填充缺失數(shù)據(jù)或查找數(shù)據(jù)集之間的相似性、進(jìn)行預(yù)測,從而將輸入信息轉(zhuǎn)換為可操作的知識(shí)。這些可操作的知識(shí)將會(huì)傳遞給人類,用于人機(jī)協(xié)作階段的決策過程。人機(jī)協(xié)作階段為用戶提供有用且重要的洞察,將知識(shí)轉(zhuǎn)化為可操作的智能或洞察力。
支撐這個(gè)系統(tǒng)的是現(xiàn)代計(jì)算系統(tǒng)。摩爾定律的趨勢已經(jīng)結(jié)束,但同時(shí)還有許多相關(guān)的定律和趨勢被提出來,如 Denard 定律(功率密度)、時(shí)鐘頻率、核心數(shù)、每時(shí)鐘周期的指令和每焦耳的指令(Koomey 定律)。從最早出現(xiàn)在汽車應(yīng)用、機(jī)器人和智能手機(jī)中的片上系統(tǒng)(SoC)趨勢來看,通過開發(fā)和集成常用內(nèi)核、方法或功能的加速器,其創(chuàng)新仍在不斷進(jìn)步。這些加速器在性能和功能靈活性之間存在不同的平衡,包括深度學(xué)習(xí)處理器和加速器的創(chuàng)新爆發(fā)。通過閱讀大量相關(guān)論文,本文探討了這些技術(shù)的相對優(yōu)勢,因?yàn)樗鼈儗τ趯⑷斯ぶ悄軕?yīng)用于對大小、重量和功率等有極大要求的嵌入式系統(tǒng)和數(shù)據(jù)中心時(shí)特別重要。
本文是對 IEEE-HPEC 過去三年論文的一次更新。與過去幾年一樣,本文繼續(xù)關(guān)注深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的加速器和處理器,它們的計(jì)算量極大。本文主要針對加速器和處理器在推理方面的發(fā)展,因?yàn)楹芏?AI/ML 邊緣應(yīng)用極度依賴推理。本文針對加速器支持的所有數(shù)字精度類型,但對于大多數(shù)加速器來說,它們的最佳推理性能是 int8 或 fp16/bf16(IEEE 16 位浮點(diǎn)或 Google 的 16 位 brain float)。
論文鏈接:https://arxiv.org/pdf/2210.04055.pdf
目前,已經(jīng)有很多探討 AI 加速器的論文。如本系列調(diào)查的第一篇論文就有探討某些 AI 模型的 FPGA 的峰值性能,之前的調(diào)查都深入覆蓋了 FPGA,因此不再包含在本次調(diào)查中。這項(xiàng)持續(xù)調(diào)查工作和文章旨在收集一份全面的 AI 加速器列表,包括它們的計(jì)算能力、能效以及在嵌入式和數(shù)據(jù)中心應(yīng)用中使用加速器的計(jì)算效率。與此同時(shí)文章主要比較了用于政府和工業(yè)傳感器和數(shù)據(jù)處理應(yīng)用的神經(jīng)網(wǎng)絡(luò)加速器。前幾年論文中包含的一些加速器和處理器已被排除在今年的調(diào)查之外,之所以放棄它們,是因?yàn)樗鼈兛赡芤呀?jīng)被同一家公司的新加速器替代、不再維護(hù)或者與主題不再相關(guān)。
處理器調(diào)查
人工智能的許多最新進(jìn)展部分原因要?dú)w功于硬件性能的提升,這使得需要巨大算力的機(jī)器學(xué)習(xí)算法,尤其是 DNN 等網(wǎng)絡(luò)能夠?qū)崿F(xiàn)。本文的這次調(diào)查從公開可用的材料中收集各類信息,包括各種研究論文、技術(shù)期刊、公司發(fā)布的基準(zhǔn)等。雖然還有其他方法獲取公司和初創(chuàng)公司(包括那些處于沉默期的公司)的信息,但本文在本次調(diào)查時(shí)忽略了這些信息,這些數(shù)據(jù)將在公開后納入該調(diào)查。該公共數(shù)據(jù)的關(guān)鍵指標(biāo)如下圖所示,其反映了最新的處理器峰值性能與功耗的關(guān)系能力(截至 2022 年 7 月)。
注意:圖 2 中虛線方框與下圖 3 是對應(yīng)的,圖 3 是把虛線框放大后的圖。
圖中 x 軸表示峰值功率,y 軸表示每秒峰值千兆操作數(shù)(GOps/s),均為對數(shù)尺度。處理能力的計(jì)算精度用不同幾何形狀表示,計(jì)算精度范圍從 int1 到 int32、從 fp16 到 fp64。顯示的精度有兩種類型,左邊代表乘法運(yùn)算的精度,右邊代表累加 / 加運(yùn)算的精度(如 fp16.32 表示 fp16 乘法和 fp32 累加 / 加)。使用顏色和形狀區(qū)分不同類型系統(tǒng)和峰值功率。藍(lán)色表示單芯片;橙色表示卡;綠色表示整體系統(tǒng)(單節(jié)點(diǎn)桌面和服務(wù)器系統(tǒng))。此次調(diào)查僅限于單主板、單內(nèi)存系統(tǒng)。圖中空心幾何圖形是僅進(jìn)行推理加速器的最高性能,而實(shí)心幾何圖形代表執(zhí)行訓(xùn)練和推理的加速器的性能。
本次調(diào)查中本文以過去三年調(diào)查數(shù)據(jù)的散點(diǎn)圖開篇。下表 1 中本文總結(jié)了加速器、卡和整體系統(tǒng)的一些重要元數(shù)據(jù),包括圖 2 中每個(gè)點(diǎn)的標(biāo)簽,許多要點(diǎn)都是從去年的調(diào)查中提出來的。表 1 中大多數(shù)列和條目都是準(zhǔn)確清楚的。但有兩個(gè)技術(shù)條目可能不是:Dataflow 和 PIM。Dataflow 型處理器是為神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練定制的處理器。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理計(jì)算完全確定地構(gòu)建,因此它們適合 dataflow 處理,其中計(jì)算、內(nèi)存訪問和 ALU 間通信被顯式 / 靜態(tài)編程或者布局布線到計(jì)算硬件。內(nèi)存處理器(PIM)加速器將處理元素與內(nèi)存技術(shù)集成在一起。在這些 PIM 加速器中,有一些基于模擬計(jì)算技術(shù)的加速器,該技術(shù)使用就地模擬乘法加法功能增強(qiáng)閃存電路??梢詤⒖?Mythic 和 Gyrfalcon 加速器的相關(guān)資料,了解關(guān)于此創(chuàng)新技術(shù)的更多詳細(xì)信息。
本文根據(jù)加速器的預(yù)期應(yīng)用對其進(jìn)行合理分類,圖 1 用橢圓標(biāo)識(shí)了五類加速器,根據(jù)性能和功耗做對應(yīng):功耗非常低,傳感器非常小的語音處理;嵌入式攝像機(jī)、小型無人機(jī)和機(jī)器人;駕駛輔助系統(tǒng)、自動(dòng)駕駛和自動(dòng)機(jī)器人;數(shù)據(jù)中心的芯片和卡;數(shù)據(jù)中心系統(tǒng)。
大多數(shù)加速器的性能、功能等指標(biāo)都沒有改變,可以參閱過去兩年的論文以了解相關(guān)信息。下面的是沒有被過去的文章所收錄的加速器。
荷蘭嵌入式系統(tǒng)初創(chuàng)公司 Acelera 聲稱他們生產(chǎn)的嵌入式測試芯片具有數(shù)字和模擬設(shè)計(jì)能力,而這種測試芯片是為了測試數(shù)字設(shè)計(jì)能力的范圍。他們希望在未來的工作中增加模擬(也可能是閃存)設(shè)計(jì)要素。
Maxim Integrated 發(fā)布了一款名為 MAX78000 用于超低功耗應(yīng)用的系統(tǒng)芯片(SoC)。其包括 ARM CPU 內(nèi)核、RISC-V CPU 內(nèi)核和 AI 加速器。ARM 核心用于快速原型設(shè)計(jì)和代碼重用,而 RISC-V 核心用于實(shí)現(xiàn)優(yōu)化,以實(shí)現(xiàn)最低的功耗。AI 加速器有 64 個(gè)并行處理器,支持 1 位、2 位、4 位和 8 位整數(shù)運(yùn)算。SoC 的最大工作功率為 30mW,適用于低延遲、電池供電的應(yīng)用。
Tachyum 最近發(fā)布名為 Prodigy 一體式處理器,Prodigy 每個(gè)核心都集成 CPU 和 GPU 的功能,它是為 HPC 和機(jī)器學(xué)習(xí)應(yīng)用程序設(shè)計(jì)的,該芯片有 128 個(gè)高性能統(tǒng)一內(nèi)核,運(yùn)行頻率為 5.7GHz。
NVIDIA 于 2022 年 3 月發(fā)布了名為 Hopper(H100)的下一代 GPU。Hopper 集成更多的 Symmetric Multiprocessor(SIMD 和 Tensor 核),50% 的內(nèi)存帶寬,SXM 夾層卡實(shí)例的功率為 700W。(PCIe 卡功率為 450W)
過去幾年 NVIDIA 發(fā)布了一系列系統(tǒng)平臺(tái),用于部署在汽車、機(jī)器人和其他嵌入式應(yīng)用程序 Ampere 架構(gòu)的 GPU。對于汽車應(yīng)用,DRIVE AGX 平臺(tái)增加了兩個(gè)新系統(tǒng):DRIVE AGX L2 可在 45W 功率范圍內(nèi)實(shí)現(xiàn) 2 級自動(dòng)駕駛,DRIVE AGX L5 可在 800W 功率范圍內(nèi)能實(shí)現(xiàn) 5 級自動(dòng)駕駛。Jetson AGX Orin 和 Jetson NX Orin 也使用 Ampere 架構(gòu) GPU,用于機(jī)器人、工廠自動(dòng)化等,它們最大峰值功率為 60W 和 25W。
Graphcore 發(fā)布其第二代加速器芯片 CG200,它部署在 PCIe 卡上,峰值功率約為 300W。去年,Graphcore 還推出 Bow 加速器,這是與臺(tái)積電合作設(shè)計(jì)的首款晶圓對晶圓處理器。加速器本身與上面提到的 CG200 相同,但它與第二塊晶片配合使用,從而大大改善了整個(gè) CG200 芯片的功率和時(shí)鐘分布。這意味著性能提高了 40% 以及 16% 每瓦特的性能提升。
2021 年 6 月,谷歌宣布了其第四代純推理 TPU4i 加速器的詳細(xì)信息。將近一年后,谷歌分享了其第 4 代訓(xùn)練加速器 TPUv4 的詳細(xì)信息。雖然官宣的細(xì)節(jié)很少,但他們分享了峰值功率和相關(guān)性能數(shù)值。與以前的 TPU 各種版本一樣,TPU4 可通過 Google Compute Cloud 獲得并用于內(nèi)部操作。
接下來是對沒有出現(xiàn)在圖 2 中的加速器的介紹,其中每個(gè)版本都發(fā)布一些基準(zhǔn)測試結(jié)果,但有的缺少峰值性能,有的沒有公布峰值功率,具體如下。
SambaNova 去年發(fā)布了一些可重構(gòu) AI 加速器技術(shù)的基準(zhǔn)測試結(jié)果,今年也發(fā)布了多項(xiàng)相關(guān)技術(shù)并與阿貢國家實(shí)驗(yàn)室合作發(fā)表了應(yīng)用論文,不過 SambaNova 沒有提供任何細(xì)節(jié),只能從公開的資料估算其解決方案的峰值性能或功耗。
今年 5 月,英特爾 Habana 實(shí)驗(yàn)室宣布推出第二代 Goya 推理加速器和 Gaudi 訓(xùn)練加速器,分別命名為 Greco 和 Gaudi2。兩者性能都比之前版本表現(xiàn)好幾倍。Greco 是 75w 的單寬 PCIe 卡,而 Gaudi2 還是 650w 的雙寬 PCIe 卡(可能在 PCIe 5.0 插槽上)。Habana 發(fā)布了 Gaudi2 與 Nvidia A100 GPU 的一些基準(zhǔn)比較,但沒有披露這兩款加速器的峰值性能數(shù)據(jù)。
Esperanto 已經(jīng)生產(chǎn)了一些 Demo 芯片,供三星和其他合作伙伴評估。該芯片是一個(gè) 1000 核 RISC-V 處理器,每個(gè)核都有一個(gè) AI 張量加速器。Esperanto 已經(jīng)發(fā)布了部分性能指標(biāo),但它們沒有披露峰值功率或峰值性能。
在特斯拉 AI Day 中,特斯拉介紹了他們定制的 Dojo 加速器以及系統(tǒng)的一些細(xì)節(jié)。他們的芯片具有 22.6 TF FP32 性能的峰值,但沒有公布每個(gè)芯片的峰值功耗,也許這些細(xì)節(jié)會(huì)在以后公布。
去年 Centaur Technology 推出一款帶有集成 AI 加速器的 x86 CPU,其擁有 4096 字節(jié)寬的 SIMD 單元,性能很有競爭力。但 Centaur 的母公司 VIA Technologies 將位于美國的處理器工程團(tuán)隊(duì)賣給了 Intel,似乎已經(jīng)結(jié)束了 CNS 處理器的開發(fā)。
一些觀察以及趨勢
圖 2 中有幾個(gè)觀察值得一提,具體內(nèi)容如下。
Int8 仍然是嵌入式、自主和數(shù)據(jù)中心推理應(yīng)用程序的默認(rèn)數(shù)字精度。這種精度對于使用有理數(shù)的大多數(shù) AI/ML 應(yīng)用程序來說是足夠的。同時(shí)一些加速器使用 fp16 或 bf16。模型訓(xùn)練使用整數(shù)表示。
在極低功耗的芯片中,除了用于機(jī)器學(xué)習(xí)的加速器之外,還沒發(fā)現(xiàn)其他額外功能。在極低功耗芯片和嵌入式類別中,發(fā)布片上系統(tǒng)(SoC)解決方案是很常見的,通常包括低功耗 CPU 內(nèi)核、音頻和視頻模數(shù)轉(zhuǎn)換器(ADC)、加密引擎、網(wǎng)絡(luò)接口等。SoC 的這些附加功能不會(huì)改變峰值性能指標(biāo),但它們確實(shí)會(huì)對芯片報(bào)告的峰值功率產(chǎn)生直接影響,所以在比較它們時(shí)這一點(diǎn)很重要。
嵌入式部分的變化不大,就是說計(jì)算性能和峰值功率足以滿足該領(lǐng)域的應(yīng)用需求。
過去幾年,包括德州儀器在內(nèi)的幾家公司已經(jīng)發(fā)布了 AI 加速器。而 NVIDIA 也發(fā)布了一些性能更好的汽車和機(jī)器人應(yīng)用系統(tǒng),如前所述。在數(shù)據(jù)中心中,為了突破 PCIe v4 300W 的功率限制,PCIe v5 規(guī)格備受期待。
最后,高端訓(xùn)練系統(tǒng)不僅發(fā)布了令人印象深刻的性能數(shù)據(jù),而且這些公司還發(fā)布了高度可擴(kuò)展的互聯(lián)技術(shù),將數(shù)千張卡連接在一起。這對于像 Cerebras、GraphCore、Groq、Tesla Dojo 和 SambaNova 這樣的數(shù)據(jù)流加速器尤其重要,這些加速器通過顯式 / 靜態(tài)編程或布局布線到計(jì)算硬件上的。這樣一來它使這些加速器能夠適應(yīng)像 transformer 這種超大模型。
審核編輯 :李倩
-
加速器
+關(guān)注
關(guān)注
2文章
806瀏覽量
38007 -
MIT
+關(guān)注
關(guān)注
3文章
253瀏覽量
23440 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132907
原文標(biāo)題:總結(jié)過去三年,MIT發(fā)布AI加速器綜述論文
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論