蘋果今年的發布會三部曲終于落下了帷幕。這場壓軸大戲上,發布了蘋果自研芯片Apple Silicon的第一代產品:M1芯片。首批搭載M1芯片的Mac機器共有三款:MacBook Air、13寸MacBook Pro和MacMini。不管是發布會上公布的性能提升,還是這幾天關于這幾款機器的實際評測紛紛出爐,M1芯片的性能和功耗完全超出人們預期,用“顛覆”來形容也不為過。
今天的文章就來聊聊蘋果的M1芯片。我想從芯片設計的角度,和大家一起看看M1芯片為何如此牛逼的三個主要原因。
芯片設計的PPA優化
在設計芯片的時候,一個最重要的原則就是對PPA的優化,也就是盡可能的優化芯片的功耗(Power)、性能(Performance)和面積(Area)。通常情況下,這三點不能兼得。
比如,為了提升芯片的性能,我們可以加入多級流水線、增加總線寬度、或者增加各種硬核處理單元,但此時就很有可能會付出更高的功耗、以及更大的芯片面積作為代價。反之,如果我們想要設計低功耗的芯片,那也很有可能需要犧牲一部分芯片的性能。所以在實際工程實踐中,功耗、性能和面積往往都是相互折中、互相平衡的關系。 對于一個芯片來說,沒有完美的設計,只有完美的平衡。 這就像給你有限的預算去買食材做菜,那就很難既買到魚,又買到熊掌。
但是這次蘋果M1芯片的發布,給人最直觀的感受就是,在預算不變的情況下,你可以魚和熊掌,兩者兼得。
蘋果在發布會里放出了這張圖,它比較的是M1芯片和某個筆記本的CPU,但蘋果沒說是誰。為了方便敘述,這里姑且叫它“張三芯片”。在這張圖里,橫軸是功耗,縱軸是性能。可以看到,對于一個給定的功耗標準,M1的性能是張三的兩倍。對于一個給定的性能要求,M1的功耗是張三的四分之一。
也就是說,在高性能和低功耗這兩個往往此消彼長的維度里,M1芯片同時取得了極大的提升。除了CPU之外,M1里的GPU也取得了類似的性能提升和功耗下降。蘋果表示,M1有著當前世界上最好的CPU每瓦性能,以及當前世界上最快的集成顯卡。
在之前的文章 《英特爾11代酷睿TigerLake:全網最犀利點評》 里說過, 不管市場營銷用什么話術,跑分永遠是不可能被繞開的一關 。雖然蘋果官方沒說跑分的事情,但是各類評測已經給出了相當高的跑分結果。
從Geekbench的跑分來看,這次搭載了M1芯片的三款產品,不管單核還是多核,都跑出了相當高的分數:
Mac Mini: 1682 / 7097
MacBook Air: 1687 / 7433
MacBook Pro: 1714 / 6802
事實上,它們的單核跑分都超過了AMD剛剛發布的銳龍9 5950X,也超過了英特爾的TigerLake旗艦版,也就是11代酷睿的i7-1165G7。
此外,這三款產品的單核和多核跑分也超過了目前正在賣的2019款16寸MacBook Pro。也就是說,單從CPU的跑分來看,這個新款的macbook air比蘋果去年剛剛發布的旗艦筆記本還要快了。
不僅是性能,搭載M1芯片的筆記本續航時間也有了大幅提升,最高可以達到20小時。
在我看來,M1芯片取得如此巨大的能效提升,主要有三個原因: 一個是使用了5納米工藝,第二個是一些芯片架構創新,第三個則是軟硬件的深度優化 ,接下來我們一個一個說。
臺積電5納米工藝
制造工藝這一點,很多文章都沒有提及,或是沒有重視。事實上,先進工藝對于芯片的能效提升,起著非常重要的作用。 因為過去十年里芯片性能的提升,有超過60%直接或間接受益于半導體工藝的提升,而只有17%來自于芯片架構的升級 。AMD能“彎道超車”英特爾的最主要原因之一,就是拋棄格羅方德,轉向臺積電的懷抱。
M1應該是目前世界上第一個、也是唯一一個使用了臺積電5納米工藝的筆記本處理器芯片,其中包含了160億支晶體管。根據臺積電的數據,和前一代的7納米工藝相比,使用5納米工藝制造的晶體管:密度提升80%,速度提升15%,功耗降低30%。有了新的制造工藝,可以在芯片面積保持不變的情況下,往一顆芯片里塞進去更多的晶體管,而且這些晶體管的功耗更低、性能更高。
也就是說,即使蘋果什么都不做,單純把A13芯片用5納米工藝流片出來,理想情況下就能達到這些“免費”的性能、功耗和面積優化。當然實際情況要比這個復雜很多。
要知道,2019款16寸MacBook Pro用的還是英特爾的第九代CPU,使用的是英特爾14納米工藝,這和臺積電的5納米工藝至少有兩代的代差。所以也這也不難理解為什么從跑分來看,搭載M1的MacBook Air會降維打擊16寸MacBook Pro。
芯片架構創新
這里特別要說的是蘋果的UMA結構,也就是這次展示的統一內存架構。 設計芯片的一個大的原則就是,存儲數據的地方離使用數據的地方越近,性能就越高、功耗也越低 。所以蘋果就把原本在電路板上的內存顆粒,整合到芯片的封裝里。這樣最主要的好處就是讓芯片上的那些CPU、GPU、AI引擎都能夠更快的訪問到內存,同時也大幅降低了數據傳輸的功耗。此外,各個模塊之間可以共享內存,也省去了很多數據搬運、拷貝的開銷。
值得注意的是,這種架構設計和封裝方法其實并非蘋果獨有,其實在英偉達的A100GPU、AMD的Rome處理器,還有英特爾和賽靈思的高端FPGA芯片里,都使用了類似的方法,可以在同一個芯片封裝里集成了多個不同的計算和存儲單元。
這種封裝方式的具體的實現方式有很多種,比如AMD使用的芯粒chiplets,還有英特爾的EMIB技術,還有賽靈思在FPGA中使用的SSI,也就是堆疊硅片互聯技術等等。 業界把這些技術都稱為是2.5D封裝技術,也就是是在水平方向上連接多個小硅片,然后組成一個大的芯片 。關于EMIB和SSI技術的具體分析,可以看之前寫過的這兩篇文章 《3D FPGA技術 - 上篇》 《3D FPGA技術 - 下篇》 。
這里多提一句,英特爾還有一個名叫Foveros的3D封裝技術。Foveros來自于希臘語,本意是“牛逼”。 這個技術不是在水平方向上擴展,而是垂直擴展。 也就是說,它可以將內存顆粒、CPU、GPU、還有其他的芯片單元,像三明治一樣疊在一起,這樣就使得內存和CPU的距離減少到0.1毫米左右,所以會進一步增加內存帶寬、減少傳輸延時,同時不會增加芯片的面積。在英特爾的Lakefiled CPU里就使用了這種技術。關于Foveros技術的更多內容,也可以看一下之前的文章 《2019年會是10納米工藝的大年嗎》 。
蘋果生態的協同優化
蘋果的M1芯片取得能效大幅提升的第三個原因,就是蘋果軟硬件的協同深度優化,這一點我認為也是蘋果最大的競爭優勢。這是因為,前面說的5納米工藝,或者芯片架構和封裝技術的升級,其他廠商可能也會(或者必然會)掌握和采用這些技術。 但是只有結合軟硬件、操作系統和生態做深度優化,才是蘋果獨有的 。而且這也是為什么有且只有蘋果能將基于arm架構的CPU真正做成牛逼的產品賣出來的原因。
有人說,蘋果的M1芯片的面世證明了Wintel聯盟并不難破,這一點我并不認同?;赼rm架構的消費級CPU已經說了很多很多年了,但放眼目前除蘋果之外的軟硬件廠商有誰能堪此大任呢?英特爾amd肯定不會做這種自廢武功的事情,不用多說,微軟之前嘗試過做一下基于arm的生態,但是以失敗告終。那么是讓聯想、戴爾去做arm筆記本,還是讓高通英偉達這些非cpu廠商去做生態呢,其實目前來看都是很不現實的。
關于軟硬件協同優化這一點我很認同某乎大v木頭龍的回答,大家可以去看一下。只要pc的軟硬件廠商還是各自為戰,只要不同的軟硬件還需要相互兼容和適配,不管是操作系統、開發工具、驅動、CPU、GPU、內存等等,這個生態系統就很難破解。生態系統有時候就像一個從山頂滾落的雪球,你一旦被他卷進去就很難靠自己的力量逃脫,更不用說靠一己之力改變它的運行軌跡。
相比之下,蘋果有著自己的生態, 這次M1芯片的發布,也正式完成了這個生態的閉環 。 你可以說蘋果生態太封閉,或者有這樣那樣的問題,但只有這種封閉的生態才有可能產生像M1芯片這樣的東西。
從Anandtech的這里就能看到, 在過去的5年里,英特爾芯片的單線程性能提升了28%,而蘋果則提升了將近3倍 。所以,蘋果采用自研的Apple Silicon芯片,也是必然的選擇。
但是,與英特爾AMD不同的是,你不可能單獨去買這個M1芯片。為了使用M1的高能效,就必須買蘋果的整個生態。而且即使像蘋果這樣的閉環生態,全面轉向arm架構也需要兩年的時間,這里面會涉及大量的生態遷移工作,也勢必會給開發者造成很多額外的工作壓力。所以這個生態轉換并不容易。
結語
蘋果M1芯片的發布,也代表著基于arm架構的消費級處理器重新登上歷史舞臺,并且開始正面迎擊基于x86架構的傳統處理器。雖然目前說x86架構被arm取代還為時尚早,但在很多領域,比如mac電腦擅長的視頻和圖像等內容創作領域,M1芯片已經正式顛覆了人們對高能效的認知。相信隨著更多后續產品的出現,會有更多的顛覆發生。同時,x86陣營如何應戰,也是非常值得關注的重點。
責任編輯:tzh
-
芯片
+關注
關注
456文章
51059瀏覽量
425701 -
ARM
+關注
關注
134文章
9143瀏覽量
368334 -
cpu
+關注
關注
68文章
10892瀏覽量
212463 -
蘋果
+關注
關注
61文章
24443瀏覽量
199404
發布評論請先 登錄
相關推薦
評論