作者:Arm 戰略與生態部人工智能和開發者平臺與服務高級副總裁 Alex Spinelli
通過 Arm 計算平臺與 ExecuTorch 框架的結合,使得更小、更優化的模型能夠在邊緣側運行,加速邊緣側生成式 AI 的實現。
新的 Llama 量化模型適用于基于 Arm 平臺的端側和邊緣側 AI 應用,可減少內存占用,提高精度、性能和可移植性。
全球 2,000 萬名 Arm 開發者能夠更迅速地在數十億臺邊緣側設備上大規模開發和部署更多的智能 AI 應用。
Arm 正在與 Meta 公司的 PyTorch 團隊攜手合作,共同推進新的 ExecuTorch 測試版 (Beta) 上線,旨在為全球數十億邊緣側設備和數百萬開發者提供人工智能 (AI) 和機器學習 (ML) 功能,進而確保 AI 真正的潛力能被最廣泛的設備和開發者所使用。
借助 ExecuTorch 和新的 Llama 量化模型,Arm 計算平臺優化生成式 AI 性能
Arm 計算平臺無處不在,為全球眾多邊緣側設備提供支持,而 ExecuTorch 則是專為移動和邊緣側設備部署 AI 模型而設計的 PyTorch 原生部署框架。兩者的緊密合作,使開發者能夠賦能更小、更優化的模型,包括新的 Llama 3.2 1B 和 3B 量化模型。這些新模型可以減少內存占用、提高準確性、增強性能和提供可移植性,成為小型設備上的生成式 AI 應用的理想選擇,如虛擬聊天機器人、文本摘要和 AI 助手。
開發者無需額外的修改或優化,便可將新的量化模型無縫集成到應用中,從而節省時間和資源。如此一來,他們能夠迅速在廣泛的 Arm 設備上大規模開發和部署更多的智能 AI 應用。
隨著 Llama 3.2 大語言模型 (LLM) 新版本的發布,Arm 正在通過 ExecuTorch 框架優化 AI 性能,使得在 Arm 計算平臺邊緣設備運行的真實生成式 AI 工作負載能更為快速。在 ExecuTorch 測試版發布的首日起,開發者便能享有這些性能的提升。
集成 KleidiAI,加速端側生成式 AI 的實現
在移動領域,Arm 與 ExecuTorch 的合作意味著眾多生成式 AI 應用,如虛擬聊天機器人、文本生成和摘要、實時語音和虛擬助手等,完全能夠在搭載 Arm CPU 的設備上以更高的性能運行。這一成果得益于 KleidiAI,它引入了針對 4 位量化優化的微內核,并通過 XNNPACK 集成到了 ExecuTorch 中,因此,在 Arm 計算平臺上運行 4 位量化的 LLM 時,無縫加速 AI 工作負載的執行。例如,通過 KleidiAI 的集成,Llama 3.2 1B 量化模型預填充階段的執行速度可以提高 20%,使得一些基于 Arm 架構的移動設備上的文本生成速度超過了每秒 400 個詞元 (token)。這意味著,終端用戶將從他們移動設備上獲得更快速、響應更靈敏的 AI 體驗。
為物聯網的邊緣側 AI 應用加速實時處理能力
在物聯網領域,ExecuTorch 將提高邊緣側 AI 應用的實時處理能力,包括智能家電、可穿戴設備以及自動零售系統等。這意味著物聯網設備和應用能夠以毫秒級的速度響應環境變化,這對保障安全性和功能可用性至關重要。
ExecuTorch 可在 Arm Cortex-A CPU 和 Ethos-U NPU 上運行,以加速邊緣側 AI 應用的開發和部署。事實上,通過將 ExecuTorch 與 Arm Corstone-320 參考平臺(也可作為仿真固定虛擬平臺 (FVP) 使用)、Arm Ethos-U85 NPU 驅動程序和編譯器支持集成到一個軟件包中,開發者可在平臺上市前幾個月就著手開發邊緣側 AI 應用。
更易獲取、更快捷的邊緣側 AI 開發體驗
ExecuTorch 有潛力成為全球最受歡迎的高效 AI 和 ML 開發框架之一。通過將應用最廣泛的 Arm 計算平臺與 ExecuTorch 相結合,Arm 正在通過新的量化模型加速 AI 的普及,讓開發者能夠更快地在更多設備上部署應用,并將更多生成式 AI 體驗引入邊緣側。
-
ARM
+關注
關注
134文章
9094瀏覽量
367541 -
AI
+關注
關注
87文章
30887瀏覽量
269066 -
人工智能
+關注
關注
1791文章
47274瀏覽量
238468
原文標題:ExecuTorch 測試版上線,加速 Arm 平臺邊緣側生成式 AI 發展
文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論