從全面升級到Armv9架構,到公布Neoverse V1和N2平臺技術細節,再到推出三款基于Armv9架構的全新CPU內核,短短兩個月時間里,Arm全面計算(Arm Total Compute)戰略正在以令人難以置信的速度加速推進,密集,但有條不紊。
何為“全面計算”
其實在2019年,Arm就提出要在共同架構下推動全面計算,旨在解決單個IP與碎片化解決方案優化問題時面臨的重大挑戰,并隨后發布了Total Compute解決方案白皮書。這意味著,在解決系統創新設計的挑戰時,Arm需要將關注焦點逐漸從單一的產品演進,轉化為以應用場景與體驗為導向的系統解決方案,要對硬件IP、物理IP、軟件、工具、以及彼此間的協作進行全面優化。
這是在思考方式上做出的重大轉變。
Arm全新的IP設計思路可以歸納為兩點:一是以應用場景、消費者體驗與生態系統的需求為核心;二是深度聚焦在性能、安全性與開發人員介入權的優化,從而為未來的計算平臺提供安全的基礎,提升性能與效率,給予開發人員通過整個Arm生態系統獲取更多性能的機會。
Arm高級副總裁兼終端設備事業部總經理Paul Williamson表示,在全面計算的概念下,IP之間的PPA(性能、功率、面積)原則也許不再是最重要的,反而是系統級的性能更為重要。此外,要確保開發者擁有最佳的開發體驗、并且對每一臺設備的性能與安全功能都有更簡易的取用途徑。
來自Arm的最新統計數據顯示,僅在2020年Q4季度,Arm芯片合作伙伴就出貨了73億顆Arm架構芯片(年增22%),相當于每秒出貨超過900顆芯片、每日出貨7000萬顆芯片,創下出貨量歷史新高。而2020年的總出貨量更是高達250億顆(年增13%)累計總數已超過1,900 億。同時,Arm Mali GPU出貨量累計超過80億顆,其中2020年出貨超過10億,持續位居全球GPU出貨量榜首。
授權業務方面,2020財年,Arm與104家客戶簽署了162個授權協議,其中有超過一半的授權對象為首次與Arm合作的企業。Arm Flexible Access 目前已有 90 家合作伙伴,通過該計劃,這些合作伙伴可以更容易地獲取各項全球領先的 Arm IP、工具與支持。
按照Paul Williamson的說法,Armv9帶來了落實全面計算設計戰略的三大關鍵原則:首先是安全性,主要是引入內存標簽擴展(MTE)、指針驗證(pointer authentication, PA)等新的安全技術;其次是開發者可及性,例如在機器學習方面,通過支持BFloat16格式更好地去支撐Int8計算和BFloat16?的Matmul;第三是計算性能,通過提升可伸縮矢量擴展能力,能夠更好地幫助開發者對高階的應用場景進行開發,比如圖像信號處理。
“Arm正致力于將Armv9技術引入包括筆記本電腦、臺式機、云、5G網絡、數據中心、更多終端與車載架構計算在內的各個領域,借助移動生態系統的規模優勢,以系統級設計最大程度地提高性能。”Paul Williamson說,目前來看,全面計算在高性能應用場景(游戲生態、擁有豐富人工智能功能的應用)、涉及安全功能的應用場景(安全交易、銀行類應用、設備端個人數據保護等)中將會擁有更高的接受度。
例如在游戲中,“我們測量了整個游戲內容中全面計算系統優化的結果,每個系統組件都有助于性能的提升。Cortex-A710 CPU在運行驅動工作負載時,帶來了33%的性能提升;Mali-G710帶來了20%的性能提升,我們的系統級IP提供了15%的效率提升。”
再比如在AI中,“不同的Arm IP上運行多樣的AI工作服在帶來的巨大性能提升。這些性能提升各異,從Mali-G710平均35%的提升,到Cortex-M55的高達700%的提升,真是針對能耗有限制的工作負載,例如關鍵字偵測。”
在多種不同應用場景之間進行設計權衡是比較困難的。因此,Arm全面計算框架的推出為生態系統合作伙伴提供了跨多種應用的可擴展性,也為具體的場景用例提供了特定的加速或增強功能,既能針對應用場景構建優化的解決方案,同時也能平衡解決方案的性能和成本,這是下游設計真正需要的,在真實的用例中也非常有價值。
高筑墻,廣積糧
關于Armv9架構和Neoverse V1/N2平臺技術的更多內容,本刊此前曾進行過持續追蹤報道,有興趣的讀者可點擊《Armv9細節公布,Arm迎來十年最大架構革新》、《性能如此強悍的服務器CPU對Arm意味著什么?》等文章進行了解,本文將更多介紹最新推出的IP套件,包括:首批Armv9 Cortex CPU、Mali GPU和全新的CoreLink系統 IP,共計10款產品。
Arm Cortex CPU:全面計算解決方案的基石
三款Armv9架構的CPU核包括:旗艦級Cortex-X2、大核CPU Cortex-A710、高效率小核Cortex-A510。
其中,Cortex-X2主要面向智能手機市場,相比于Cortex-X1,性能提升16%,可將旗艦型安卓智能手機的性能在當前基礎上再提升30%。除了峰值性能外,Cortex-X2還可在旗艦智能手機和筆記本電腦之間擴展,使合作伙伴可以根據市場需求來設計基于不同場景的計算能力。
Cortex-A710是首款基于Armv9架構的大核CPU,與Cortex-A78相比,能效提升30%,性能提升10%。通過性能和效率的提升,當智能手機運行高要求的App時,用戶將獲得比以往更長的使用時間以及更優化的體驗。
Cortex-A510是Arm過去四年來推出的首款高效率小核,其性能提升35%,機器學習性能提升超過3倍。它所帶來的性能水平已經接近幾年前推出的上一代大核Cortex-A73,性能差距不到10%,但能效優化可達35%,適用于智能手機、家用設備和可穿戴設備。
Armv9-A CPU集群的支柱是新款的動態共享單元(DynamIQ Shared Unit)DSU-110,該組件可為不同的細分市場提供各種解決方案。DSU-110具備可擴展性,可支持多達八個Cortex-X2內核配置,也難怪Williamson在介紹中說,“一臺基于Cortex-X2的筆記本電腦比起2020年市場主流的筆記本,其單線程性能可領先40%。“
在2021年消費設備中常見的“1超大核+3大核+4小核,4MB L3(DSU)” Tri-Cluster CPU架構中,如果將X1替換為X2,A78替換為A710,A55替換為A510,DSU替換為DSU-110,4MB L3(DSU)替換為8MB L3(DSU-110),預計2022年終端設備的峰值性能將會提升30%,持續性能將會提升30%,小核性能將會提升35%。
面向細分市場的新款 Arm Mali GPU套件
視覺體驗仍然是消費者與設備交互、并享用設備的關鍵,Arm新推出面向廣泛應用的多款GPU,搭配Armv9 CPU,繼續提升用戶體驗。
最新的Arm Mali-G710是針對旗艦智能手機和Chromebook筆記本市場的高性能 GPU,在計算密集型體驗方面的性能提升20%(如AAA高保真游戲)。對于與機器學習有關的任務(如全新相機和視頻模式的圖像增強),Mali-G710也帶來35%的機器學習性能提升。
作為次旗艦GPU,Mali-G610繼承了Mali-G710 的功能,但價格更低,可將高階應用場景帶給更多的開發者和消費者。
Mali-G510實現了性能和效率的較好平衡,在中端智能手機、旗艦智能電視和機頂盒上,實現了100%的性能提升以及22%的節能優化,從而延長了電池續航時間,提升了100%的機器學習性能。
Mali-G310是Arm目前最高效的GPU,以最小的面積成本提供了最高的性能。通過Mali-G310,Valhall架構和高質量圖形技術將被引入到更低成本的設備中,例如入門級智能手機、AR設備和可穿戴設備。
提升系統性能的互連技術
互連技術對于提高系統性能至關重要。最新的CoreLink CI-700一致性互連技術和CoreLink NI-700片上網絡互連技術,可與Arm CPU、GPU和NPU IP無縫搭配,跨 SoC解決方案增強系統性能。CoreLink CI-700和CoreLink NI-700對新的Armv9-A功能提供硬件級支持,如內存標簽擴展(Memory Tagging Extension),支持更高的安全性、改進的帶寬和延遲。
可以看出,全新的全面計算解決方案是系統范圍內整體優化的思路,橫跨硬件 IP、物理 IP、軟件、工具和標準,能夠為合作伙伴提供更為廣泛的選擇,以滿足細分市場的應用場景和成本區間需求。同時,這也將解鎖整個生態系統的新體驗,例如,專為移動設備設計、支持 AI 功能的交互式應用場景,可以使用戶身臨其境觀看電視8K內容等體驗。
2023年移動應用產品僅提供64位大、小核
隨著IP戰略的升級,Arm宣布,將在2023 年面向移動應用僅提供64位的大核和小核。為此,Arm全球合作伙伴正在努力確保所有App都將在今年年底前支持64位。
據Paul Williamson介紹,Cortex-X2是完全面向智能手機市場的產品,預計在未來幾代手機產品中就能看到Cortex-X2的身影。對智能手機和其他終端計算設備而言,64位將提供終極的性能表現。Arm目前正與中國應用商店生態合作伙伴進行密切協作,確保主要App都能在今年年底前支持 64 位,從而為中國消費者提供Cortex-X2所帶來的性能提升體驗。
Arm方面透露,向64位過渡需要分階段實現,目前,Cortex-X2、Cortex-A510已經是64位CPU,A710仍然支持32位。預計到2023年,Arm在移動應用的大核跟小核都將僅支持64位。
結語:
Paul Williamson總結稱,Arm合作伙伴希望能夠將新品更快速地推向市場,而全面計算解決方案包含了SoC設計流程中所需要的一切組件:硬件 IP、軟件、物理IP、工具和標準,將使合作伙伴在應對所有終端市場上SoC復雜性時受益,讓他們能夠滿懷信心地通過最新的技術,將高性能的產品快速推向市場。
責任編輯:pj
-
芯片
+關注
關注
455文章
50816瀏覽量
423616 -
ARM
+關注
關注
134文章
9097瀏覽量
367556 -
cpu
+關注
關注
68文章
10863瀏覽量
211763 -
服務器
+關注
關注
12文章
9160瀏覽量
85421
發布評論請先 登錄
相關推薦
評論