在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文詳解Arm架構Armv9.6-A中的最新功能

Arm社區 ? 來源:Arm社區 ? 2024-12-17 10:22 ? 次閱讀

作者:Arm 架構與技術部產品管理總監 Martin Weidmann

Arm CPU 是當今人工智能 (AI) 賦能軟件的關鍵,它可解釋、處理和執行指令。Arm 指令集架構 (ISA) 作為硬件和軟件的接口,指示處理器做什么和怎么做。Arm ISA 持續演進以滿足現代計算的需求,包括 AI 的興起、機器學習 (ML) 和芯粒 (chiplet) 技術的使用,以及應對高級安全威脅。持續創新確保了 Arm 架構的普及性、普適性能、出色能效、安全性和開發者靈活性。

為了確保開發工作能緊跟快速發展的市場步伐,Arm 投入了大量時間來審視未來的計算需求,并與其龐大且獨特的生態系統明確其理解。在打造和發布更新的 ISA 時,結合專業知識與反饋意見,以確保能有針對性地滿足需求。

此系列文章每年發布一次,概述了當年度 Arm A 系列架構的主要新增功能,并隨附完整的指令集和系統寄存器文檔,2024 年為 Armv9.6-A。

想要了解去年的架構擴展,可閱讀《Arm A 系列架構 2023 擴展》。接下來,就讓我們一同來了解今年的一些新增功能。

利用結構化稀疏性和

四分塊操作提高 SME 效率

矩陣運算用于加權特征和計算預測值,是當今許多重要工作負載(包括 AI 和 ML)的基礎。Armv9-A 中的可伸縮矩陣擴展 (SME) 大大提高了 Arm CPU 上矩陣乘法的處理速度和效率。借助 SME,可以同時對多個值進行計算,數據整理和重用的效率更高,而且還支持更多的數據類型和更有效的數據壓縮。

SME 通過使用量化技術,降低了 ML 模型的計算復雜度。這不僅減少了內存需求,降低了能耗,還使模型可適用于移動設備。SME2 在量化方面又更進一步,它為在 CPU 上運行需要以吞吐量為導向操作的各類應用引入了 Streaming 模式。2024 擴展基于 SME2 構建,新增了對 2:4 結構化稀疏性 (structured sparsity) 和四分塊 (quarter tile) 操作的支持。

從四分塊操作開始,這些操作旨在提高 SME 處理小矩陣時的效率。現有的 SME 運算支持外積運算,使用一對輸入向量來計算結果矩陣:

fa402396-b9bf-11ef-8732-92fbcf53809c.png

為了更好地支持較小的矩陣,四分運算允許將輸入視為來自四個不同的矩陣:

fa5bb26e-b9bf-11ef-8732-92fbcf53809c.png

2024 擴展帶來的另一項改進與稀疏性有關。在下面的示例中,一個包含激活數據的輸入矩陣與另一個包含權重的矩陣相乘。權重矩陣中的一些元素是未使用的(零),不會影響輸出。

fa62a33a-b9bf-11ef-8732-92fbcf53809c.png

這帶來了兩個效率低下的問題:

獲取不需要的數據

執行不改變結果的乘法累加

新的結構化稀疏性指令可以解決這以上兩個問題。在前面的例子中,權重可以用元數據標簽進行壓縮,它描述如何解壓縮數據。

fac44676-b9bf-11ef-8732-92fbcf53809c.png

這種方法的優點是既能優化權重的內存占用,又能優化獲取權重進行處理所需的帶寬。權重可以在處理器中解壓縮,然后用于計算。不過,為了避免不必要的多重累積,新指令允許將壓縮數據直接用作輸入。

fad6f9c4-b9bf-11ef-8732-92fbcf53809c.png

利用 MPAM Domain 支持芯粒

和多芯片 SoC 上的共享內存系統

芯粒具有更高的系統可組合性和性能擴展性,因此可適用于 AI 和加速計算。要想大規模采用芯粒技術,互操作性必不可少,這需要通過芯粒接口和協議的標準化來實現。

Arm 正在通過旨在提供通用語言和降低碎片化風險的標準,加速生態系統向基于芯粒的系統級芯片 (SoC) 演進。Arm 的芯粒系統架構 (Chiplet System Architecture, CSA)將基于 Arm 架構的系統劃分為多個芯粒,包括其高級屬性,以定義可標準化和復用的芯粒類型。AMBA CHI C2C 利用了現有的片上 AMBA CHI 協議,并定義了其打包方式,使其能夠在芯粒間傳輸。

這些舉措將加速向提供專用和可互操作芯粒的多供應商市場發展。開放的芯粒市場將使 OEM 能夠實現更高水平的定制和集成,而無需承擔開發和制造單芯片設計所帶來的成本。目前,芯粒的優勢是通過垂直集成設計實現的。Armv9-A 的 2024 擴展考慮了這種新的芯片方法以及如何在它們之間管理資源。

當今的許多計算需求都是通過共享內存計算機系統來獲得滿足的,在這些系統中,多個應用或多個虛擬機 (VM) 同時運行。為支持此類系統,Armv8.4-A 引入了內存系統資源分區和監控 (Memory System Resource Partitioning and Monitoring, MPAM) 擴展。MPAM 可以控制對共享資源使用情況進行監控和分區。

MPAM 使用分區編號 (PARTID) 來識別每次內存訪問與哪個軟件實體相關聯。該 PARTID 與內存訪問一起傳輸,以便下游內存系統組件 (MSC) 實施分區策略。

2024 年增加了 MPAM Domain,以更好地支持多芯粒和多芯片系統上的共享內存計算機系統。MPAM Domain 允許系統的不同部分使用不同的 PARTID 命名空間,并在訪問跨越域邊界時進行 PARTID 轉換。

fae8cb86-b9bf-11ef-8732-92fbcf53809c.png

整個系統無需具有統一的 PARTID 寬度,系統因而更容易組成。由于系統的每個部分都可以只支持所需數量的 PARTID,MPAM Domain 還有助于降低成本。

虛擬機上用于 Trace 和統計分析的

虛擬機管理程序內存控制

Armv9-A 的 Trace(ETE 和 TRBE)和統計分析擴展 (Statistical Profiling Extensions, SPE) 為開發者提供了了解軟件性能所需的信息,使其能最大限度地利用硬件平臺。

Trace 和 SPE 數據可以在系統運行時以非侵入方式收集,數據寫入虛擬內存中軟件分配的緩沖區。運行虛擬機時,重要的是這些緩沖區的內存頁不能被虛擬機管理程序換出去,否則會丟失分析數據。同時,通常也不希望虛擬機管理程序將虛擬機的所有內存都 Pin 進來。

2024 擴展為 TRBE 和 SPE 引入了虛擬機接口。這些接口允許虛擬機和虛擬機管理程序就分析緩沖區的大小和位置達成一致。這確保了虛擬機的分析數據不會丟失,同時允許虛擬機管理程序控制虛擬機內存中需要 Pin 的內存大小。

改進緩存和數據放置

2024 的 A 系列擴展引入了兩項增強功能,以提高緩存效率。第一個功能是生產者-消費者數據放置提示。新的寫提示指令允許生產線程向處理器提示寫或原子操作的數據將被不同的線程使用。而對于消費線程,則有一條新的預取指令,提示數據是由另一個線程生成的,可能還不存在。這些提示共同顯著提高了并行軟件的可擴展性,增強了消息傳遞、鎖傳遞和線程 barrier 的性能。例如:

fb03cc10-b9bf-11ef-8732-92fbcf53809c.png

系統可能包括連接到不同高速緩存層次結構級別的設備或加速器。例如,在下面的系統中,設備 A 可以訪問系統級高速緩存 (System Level Cache, SLC),而設備 B 則繞過 SLC。

fb1d32e0-b9bf-11ef-8732-92fbcf53809c.png

為了讓設備 A 或設備 B 能夠看到數據,CPU 上運行的軟件需要將數據推送到內存系統中。當前,軟件會使用緩存操作將數據推送到一致性點 (Point of Coherency, PoC),在示例系統中,一致性點位于 SLC 之外。這對設備 B 來說是正確的,但對設備 A 來說,將數據推送到 SLC 就足夠了。

2024 擴展增加了針對 outer cache 的高速緩存維護操作。這為知道高速緩存拓撲結構的軟件提供了更大的靈活性,使開發者能夠根據使用該數據的設備的需求,將數據推送到系統的合適位置。

利用粒度數據隔離基于機密計算進行構建

Armv9-A 為開發者提供了編程工具和環境,使他們能夠在快速發展的 AI 市場中加快創新步伐。此類應用所使用的模型和數據尤為寶貴,因此安全性至關重要。Arm 機密計算架構 (Confidential Compute Architecture, CCA) 利用硬件和軟件來保護使用中的數據和應用。

Armv9.1-A 引入了機密領域管理擴展 (Realm Management Extension, RME),在設備上創建了一個獨立的計算世界,用于運行和保護應用和數據。使用機密領域可以防止來自以更高權限級別運行的軟件的攻擊。機密領域的內容或進程無法訪問。數據在使用、傳輸和復位時均保持加密。Armv9.4-A 引入了一項更新,使機密領域可以與加速器交互并保持其完整性。

粒度數據隔離 (Granular Data Isolation, GDI) 建立在 Armv9-A 的 RME 基礎之上,并增加了兩個新的物理地址空間 (Physical Address Space, PAS),可將內存位置分配到這些空間:

非安全保護 (Non-Secure Protected, NSP)

系統代理 (System Agent, SA)

這兩個新的 PAS 與現有選項的不同之處在于,處理器無法訪問它們。如此一來,軟件就可以將內存緩沖區分配給其他設備,而硬件則維護這些緩沖區內數據的機密性。例如,可信加速器可以使用 NSP PAS 來處理數據,同時保證軟件無法訪問這些數據。

其他功能

2024 擴展中引入的其他增強功能包括:

對 EL1 系統寄存器進行位鎖定 (Bitwise Locking)。

針對大型內存系統改進了粒度保護表 (Granular Protect Tables, GPT) 的可伸縮性。

用于擴展/壓縮和查找第一個/最后一個 active 元素的新 SVE 指令。

新增非特權讀取和存儲指令,使操作系統能與應用內存交互。

新的比較和分支指令。

從 EL3 注入 Undefined 指令異常。

新一代中斷控制器即將推出

通用中斷控制器 (Generic Interrupt Controller, GIC) 是 Arm A 系列系統的標準解決方案,在整個 Arm 生態系統中被廣泛使用。當前版本 GICv3 和 GICv4 于 2013 年與 Armv8-A 一起推出。從那時起,系統的結構和運行工作負載都發生了變化。Arm 正在開發新版本的 GIC 架構,我們期待在 2025 年初分享預覽版。

總結

本文簡要介紹了 Arm 架構 Armv9.6-A 中的最新功能。在接下來的幾個月中,Arm 將與合作伙伴共同致力于確保軟件生態系統能夠在未來處理器上市后盡快利用這些功能。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19281

    瀏覽量

    229792
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9092

    瀏覽量

    367515
  • 寄存器
    +關注

    關注

    31

    文章

    5343

    瀏覽量

    120332
  • AI
    AI
    +關注

    關注

    87

    文章

    30867

    瀏覽量

    269030
  • 人工智能
    +關注

    關注

    1791

    文章

    47269

    瀏覽量

    238437

原文標題:Armv9 技術講堂 | Arm A 系列架構 2024 進展

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Arm代指令架構Armv9”已經問世

    Arm的下代CPU指令集架構(ISA:指令集架構Armv9開始推出。該公司正在逐步擴展當前的ISA
    的頭像 發表于 11-13 11:55 ?4.4w次閱讀

    ARM發布全新Cortex-A35處理器,ARMv8-A架構全面進軍移動和嵌入式市場

    應用而設計。ARMv8-A架構具有64位和32位運算能力以及完整的加密功能,Cortex-A35因而得以開創更豐富的用戶體驗。ARM預期Co
    發表于 11-11 16:56 ?1981次閱讀

    Arm架構學習—開啟Armv9時代

    在上篇文章“從A76到A78——在變化中學習Arm架構,我們了解了
    的頭像 發表于 11-27 16:46 ?1364次閱讀
    <b class='flag-5'>Arm</b>微<b class='flag-5'>架構</b>學習—開啟<b class='flag-5'>Armv</b>9時代

    我對ARM架構的理解

    狀態下,使用A32和T32指令集,而AArch64使用A64。ARM架構Arm架構很容易識別,因
    發表于 09-03 17:56

    幫你梳理Cortex與ARMv8等基礎概念

    到底什么是Cortex、ARMv8、arm架構ARM指令集、soc?幫你梳理基礎概念【科普
    發表于 12-14 08:20

    Armv8-A構架Armv8.6-A引進的最新功能介紹

    Units (AMU)的虛擬化支持總結這篇博簡要介紹了Armv8-A構架Armv8.6-A 引進的最新功能。這些
    發表于 07-29 15:29

    ARM Compiler編譯器6.11的新功能都有哪些呢

    arm Compiler 6.11版本在匯編器增加了armv8.5-A架構支持,支持了些可選功能
    發表于 08-03 14:38

    介紹Armv8.6-A引進的新功能的概況

    Arm 構架持續進化以滿足我們生態伙伴的需求。這篇博介紹了Armv8.6-A引進的新功能
    發表于 08-08 14:16

    詳解SIMD架構與SVE2的演進

    Arm推出了具有日益強大的安全性和人工智能 (AI) 能力的下Armv9 架構。緊隨其后的是 推出的全新 Arm Total Comp
    發表于 08-12 15:50

    Arm架構的擴展詳解

    Arm架構的補充以版本增量的形式提供,稱為擴展。擴展允許我們根據合作伙伴的需求定期發布新功能,而無需制作主要架構的主要變化。 Arm每年都
    發表于 08-02 06:08

    ARM體系結構參考手冊ARMv7-AARMv7-R版本

    本手冊介紹ARM?架構v7、ARMv7的A和R配置文件。 其中包括以下內容的描述: ·處理器指令集: -原始ARM?指令集-高代碼密度Thu
    發表于 08-12 07:46

    ARM Cortex-A系列ARMv8-A程序員指南

    。 有關ARMv7-A架構般介紹,請參閱ARM?Cortex?-A系列程序員指南。 本指南還可以幫助您熟悉本卷
    發表于 08-22 07:22

    重磅!Arm正式推出Armv9架構

    當地時間3月30日,Arm宣布正式推出Armv9架構,以應對全球對無處不在的專業化處理的需求,這種處理具有越來越強大的安全性和人工智能(AI)能力。Armv9是
    發表于 03-31 09:43 ?2639次閱讀
    重磅!<b class='flag-5'>Arm</b>正式推出<b class='flag-5'>Armv</b>9<b class='flag-5'>架構</b>

    詳解ARM架構和處理器系列命名規則

    處理器的命名應該包含兩類:指令集架構命名規則和處理器系列規則。 ARM 架構是構建每個 ARM 處理器的基礎。ARM
    發表于 02-11 10:44 ?8次下載
    <b class='flag-5'>詳解</b><b class='flag-5'>ARM</b><b class='flag-5'>架構</b>和處理器系列命名規則

    Arm架構Armv9時代

    在介紹Armv9系列前,我們先看ARM的Cortex-X定制CPU計劃。Cortex-X方案先于Armv9發布,在Arm發布
    的頭像 發表于 02-06 14:43 ?9092次閱讀
    主站蜘蛛池模板: 久久99爰这里有精品国产| 日本视频一区在线观看免费| 久久久婷婷| aⅴ一区二区三区| 免费一级毛片私人影院a行| 国产一区二区丁香婷婷| 在线色色视频| 欧美极品在线观看| 国产亚洲卡二卡3卡4卡乱码 | 日日噜噜夜夜狠狠久久aⅴ| 国产成人精品视频一区二区不卡| 国产爽视频| 亚洲人成电影在线播放| 日韩成人黄色| 黄色一级片毛片| 天天做.天天爱.天天综合网| 亚洲一区毛片| 女人张腿让男桶免费视频观看| 桃花色综合影院| 久色tv| 日韩城人视频| 欧美一级特黄高清免费| 成人a区| 国产在线播| 欧美老汉色| 一级毛片q片| www.xxx.日本| 亚洲性一区| 久久久噜噜噜久久中文字幕色伊伊| 久久久午夜精品理论片| 亚洲综合色婷婷中文字幕| wwwwww日本| 美女露出尿口让男人桶爽网站| 经典三级一区二区三区视频| а中文在线天堂| 色女人在线视频| 人人操在线播放| 性生大片一级毛片免费观看| 亚洲精品视频在线| 一区二区三区四区国产精品| aaaa欧美高清免费|