在近日深圳召開的以 “讓我們攜手重塑未來” 為主題的“Arm Tech Symposia年度技術大會”上,Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven 蒞臨現(xiàn)場發(fā)表了熱情洋溢的講話,并透露了Arm立下的一個小目標:到2025 年底,全球將有超過 1,000 億臺具備 AI 能力的 Arm 設備。這個1000億目標可以實現(xiàn)嗎?
James McNiven 強調Arm一直深耕算力技術的發(fā)展,Arm在算力的探索最早可以從ARMv7 架構(Cortex-A 系列)中引入的NEON 開始,NEON 是 ARM 處理器架構中的一個高級 SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù))指令集擴展,主要用于加速多媒體和信號處理任務,如圖像處理、音頻解碼、視頻編解碼、以及機器學習推理等工作負載。
NEON 的設計目標是提供高能效的向量化計算能力,使嵌入式設備能夠高效處理復雜的多媒體任務,同時保持較低功耗。到2011年Arm發(fā)布ARMv8架構,NEON 進一步優(yōu)化,用于提升多媒體和信號處理任務的性能,如圖像處理、音頻處理、以及 DSP 算法加速。ARMv8 是首個全面支持 64 位運算的架構。NEON 指令的寄存器擴展為 32 個 128 位寄存器,適配 64 位數(shù)據(jù)路徑。在 ARMv8 NEON 中,支持更多整數(shù)和浮點操作,使得音頻解碼和視頻編解碼的效率顯著提升。在ARMv8.1-A架構上面向 HPC(高性能計算)和 AI 加速的需求,Arm首次引入 了SVE(Scalable Vector Extension),這是 NEON 之后的一個重要向量擴展。可擴展向量長度支持 128 位到 2048 位的動態(tài)向量長度,適應不同算力需求。SVE 針對矩陣運算、機器學習和科學計算進行了優(yōu)化,特別適合向量密集型任務。
此外,它還提高了計算資源的可移植性,從移動設備到云端計算均有支持。隨著 AI 和機器學習任務對計算需求的增長,2021 年發(fā)布的ARMv9 架構加強了向量處理能力,引入 MVE 和 SVE2,MVE(Helium)針對 Cortex-M 系列的向量擴展,優(yōu)化了嵌入式低功耗設備的算力,適用于物聯(lián)網(wǎng)、邊緣計算中需要高能效的工作負載。SVE2在 SVE 的基礎上增強了對 AI 和 DSP 的支持。新增支持 bit-manipulation 和矩陣運算的指令集,專為 AI 推理和 5G 基站設計。這一時期,ARM 的算力架構不僅限于 CPU,還整合了 GPU 計算加速,如 Mali 系列和最新的 Immortalis 系列,逐漸融合 CPU 和 GPU 算力。與 NEON/SVE 協(xié)同工作,GPU 負責并行計算任務,而 CPU 處理串行任務。隨著AI 和機器學習的崛起,ARM 針對數(shù)據(jù)中心推出了 Neoverse 系列(如 Neoverse N2 和 V2),引入增強的矩陣運算能力。它專為推理加速設計,如在邊緣計算和云服務中運行 AI 模型。在新架構中加入對 INT8 和 BF16 的高效支持,顯著提升推理性能。James McNiven 強調Armv9 作為 Arm 最新的技術架構,推出伊始便是為支撐 AI 計算而設計,并持續(xù)迭代更新,通過 SVE、SVE2、SME 等關鍵技術,Arm 以架構創(chuàng)新和強大的軟硬件協(xié)同能力不斷優(yōu)化移動端 AI 體驗,賦能開發(fā)者實現(xiàn)卓越的 AI 性能。
在會后的媒體采訪中,James表示要把握 AI 的發(fā)展機遇。Arm 通過采用系統(tǒng)級設計思維,專注硬件與軟件協(xié)同優(yōu)化,面向不同應用市場推出計算子系統(tǒng) (CSS),擴展底層技術并鞏固 AI 計算需求。與此同時,Arm 持續(xù)投資創(chuàng)新軟件技術,為全球 2,000 萬開發(fā)者提供從云到端的高效、易用、無縫開發(fā)體驗。此外,Arm 還通過包括全面設計 (Arm Total Design) 在內的眾多生態(tài)項目,協(xié)助合作伙伴加速產(chǎn)品上市進程。
據(jù)介紹,目前全球有超過 2,000 萬名軟件開發(fā)者在基于 Arm 架構的設備上構建應用,軟件話題也成為本次年度技術大會的焦點之一。Arm 在軟件方面的持續(xù)投入已取得顯著成效,正建立起全球最大的 AI 開發(fā)者社區(qū)。本屆大會首度舉辦的開發(fā)者工作坊收獲了參與者的熱烈響應,圍繞 Windows on Arm 原生應用、安卓系統(tǒng)上的 LLM 推理、生成式 AI 加速等開發(fā)者最為關注的主題,工作坊為開發(fā)者提供了直觀的技術體驗,激發(fā)開發(fā)者創(chuàng)新潛力的同時,也為相關應用開發(fā)增添了新的動力。
筆者注意到現(xiàn)場工程師對ARM 的 ONELab有濃厚的興趣,據(jù)ARM介紹ONELab是 ARM 針對開發(fā)者和企業(yè)推出的一個端到端 AI 開發(fā)與優(yōu)化平臺,其目標是幫助開發(fā)者快速、高效地開發(fā)、優(yōu)化和部署 AI 應用程序,尤其是在 ARM 架構上運行的設備中。據(jù)介紹,ONELab 的核心在于提供一套集成工具鏈和開發(fā)環(huán)境,專注于 AI 應用的優(yōu)化與部署,它可以提供跨平臺開發(fā)支持,涵蓋移動端(如智能手機)、嵌入式設備(如 IoT 設備)和數(shù)據(jù)中心(如 ARM Neoverse 服務器)。
支持主流的深度學習框架,如 TensorFlow、PyTorch 和 ONNX,通過兼容性的 API,開發(fā)者可以無縫遷移現(xiàn)有的 AI 模型。它針對 ARM 設備中的 CPU(Cortex 系列)、GPU(Mali 系列)和 NPU(神經(jīng)網(wǎng)絡處理單元) 進行優(yōu)化。它還可以自動調用底層硬件加速特性,例如 NEON SIMD、SVE2 向量擴展,以及 Mali GPU 的并行計算能力。在多核環(huán)境下分配計算任務,它可使模型能夠在 CPU、GPU 和 NPU 之間高效運行。提供任務調度機制,針對不同類型的計算任務(如卷積、矩陣運算)動態(tài)分配資源。ONELab 主要專注于以下幾個領域的 AI 應用開發(fā):
1、邊緣 AI:物聯(lián)網(wǎng)設備:通過 Cortex-M 系列低功耗 CPU 和 Helium 向量擴展(MVE)加速嵌入式推理。實時分析:在攝像頭、傳感器等設備中,實現(xiàn)實時的視覺和語音識別。
2、移動設備:智能手機:通過 Mali GPU 和 CPU 的協(xié)作優(yōu)化,提供高效的圖像分類、增強現(xiàn)實(AR)和語音助手功能,優(yōu)化設備端的 AI 模型性能,同時降低功耗。
3 數(shù)據(jù)中心和高性能計算:云端推理:結合 Neoverse 平臺,為 AI 推理任務提供高吞吐量和低延遲的解決方案。HPC(高性能計算):支持在超級計算機或集群中部署 AI 應用,面向深度學習訓練和科學計算。
4、自動駕駛與工業(yè):自動駕駛:優(yōu)化感知算法和決策系統(tǒng),利用 ARM 平臺實現(xiàn)實時推理。工業(yè)自動化:為機器人和工業(yè)設備中的邊緣推理提供算力支持。未來,在提升算力方面Arm的SVE3 可能會加入對更復雜的 AI 和 HPC 工作負載的支持。此外,向量計算擴展將繼續(xù)優(yōu)化能效比,為移動和服務器市場服務。而隨著 AI 和機器學習的重要性增加,ARM 可能推出更多帶有 TPU 類特性的專用單元,進一步縮小與競爭對手(如 NVIDIA 和 Intel)的差距,成為多領域算力需求的重要支柱。James表示Arm 通過將 IP 與開源軟件和工具乃至廣泛的行業(yè)領先生態(tài)系統(tǒng)相結合,讓全球 2,000 萬開發(fā)者都能夠使用 Arm 計算平臺作為 AI 創(chuàng)新基礎。有了生態(tài)伙伴的大力支持因此Arm 敢大膽地預測到 2025 年底,全球將有超過 1,000 億臺具備 AI 能力的 Arm 設備。
-
處理器
+關注
關注
68文章
19286瀏覽量
229815 -
ARM
+關注
關注
134文章
9094瀏覽量
367541 -
AI
+關注
關注
87文章
30887瀏覽量
269065
發(fā)布評論請先 登錄
相關推薦
評論