當下,寒武紀、Graphcore、Wave Computing 等 AI 芯片設計企業都想要以能耗優勢攻取市場,英特爾也拿出 Nervara 和 Lake Crest 架構想徹底取代 GPU,在業界看來, GPU 在 AI 計算領域的前景似乎已經不容樂觀了。
但 NVIDIA 則是拿出自 2014 年以來與 IBM 的技術合作成果向世界證明:你們錯了!
通過與 IBM 的合作,NVIDIA 證明只要通過正確的設計,GPU 還有許多計算潛力可以挖掘,尚無須畏懼新興 ASIC 架構的挑戰,而剛推出的 Power 9 在核心計算性能與 NVLINK 頻寬比 Power 8 更上一層樓。
?
事實上,IBM 基于新款處理器和 NVIDIA GPU 的組合也成為美國能源部超級計算機及 Google 新款資料中心服務器的架構基礎,可見過去由 X86 體系主導的高端計算架構版圖已經在二者的合力進擊下,開始出現松動。
IBM 欲借 AI 浪潮將 Power 架構重新推上高峰
Power 架構起源于 20 世紀 70 年代,原始設計目標是創建一個大型電話交換網絡,每秒處理至少 300 個呼叫,預計需要 2 萬個機器指令來處理每個呼叫,同時保持實時回應,因此認為有 12 MIPS 性能的處理器是必要的。這個規格要求在當時可以說是非常激進,主流的復雜指令集架構基本上不可能達到這個目標。
但后來開發者另辟蹊徑,因為這臺機器只需要執行 I / O,分支,添加寄存器,移動數據在寄存器和存儲器之間,并且不需要特別的指令來執行大量的計算,因此最終在架構設計方面省略了很多傳統處理器所需要的結構部分。
這種單純化的設計理念,把每個復雜操作的每個步驟都由一個機器指令明確指定,并且名確定義所有指令都需要在相同的恒定時間內完成,而這樣的架構后來也被稱為 RISC,沒錯,Power 架構正是所有 RISC 芯片的始祖。后續在核心設計的許多技術創新,比如說 Out of Order(亂序執行),以及寄存器重命名等特性,都被幾乎后來所有處理器架構所仿效。
到 1975 年,電話交換機項目被取消,但這個 RISC 處理器的架構概念留下來持續發展,最終在 1990 年推出了 Power 處理器。Power 架構曾是服務器主流架構之一,其特點就是計算能力特強,及擁有極高的帶寬表現,針對特定計算負載能夠有遠比同一代 X86 更好的效能表現。而后期 IBM 也曾開發出針對低功耗環境的嵌入式 Power 技術,甚至曾作為主流游戲機的核心,比如說索尼的 PS2、PS3,以及任天堂 N64、Game cube、wii、Wii U,都是基于 Power 架構,Power 架構可說風生水起,不可一世。
但后來在服務器領域,成本與兼容性取代了絕對性能,即便曾推出世界首款刀片服務器,曾以深藍的名號打敗世界圍棋冠軍,Power 架構也逐漸走入其他 RISC 高性能處理器的老路,步向衰亡,X86 架構幾乎一統服務器核心。
另外一方面,Power 架構在低功耗產品的發展受到 ARM 的狙殺,游戲機核心也被 X86 和 ARM 架構所取代,乍看之下,Power 架構曾經一度走上絕路,所有的客戶幾乎都喪失殆盡,只能在少數通信設備以及金融業高端服務器市場茍延殘喘。
但 IBM 并沒有像其他 RISC 公司一樣選擇直接放棄,而是通過完全開放的方式,意圖拯救即將完全死亡的生態,OpenPOWER 也就是在這個時代背景下產生的組織。
OpenPOWER 創始會員有 Google、Mellanox、NVIDIA,以及當時在服務器領域相當出名的泰安 (Tyan) 計算機,OpenPOWER 組織把相關的核心技術 IP 對外開放,提供會員一整套可參考的設計以及相關的軟硬件環境,會員可對 Power 架構深度定制化,滿足不同應用所需要的計算彈性,相關生態因此開始回溫。而 IBM 在開放 Power 架構的同時,也持續發展自有的 Power 架構,其最新的架構命名為 Power 9。
AI 時代所帶來的各種計算需求把目前的計算架構逼到極限,CPU 已經不敷使用,GPU 也正面臨瓶頸與挑戰,未來看似是 ASIC 的天下?但 IBM 和 NVIDIA 的合作向世界宣告,ASIC 要取代 GPU 沒有那么容易!當然,這是著眼于 NVIDIA 與 IBM 合作開發的 NVLINK 技術。
然而 Power 架構的優勢還不止于此,根據官方數據,IBM POWER9 的最大 I/O 帶寬是 Intel x86 處理器的 9.5 倍,可支持存儲器容量是 2.6 倍,高效能核心數量為 x86 的 2 倍,存儲器帶寬則是 x86 的 1.8 倍。更重要的是,通過 NVLINK 2.0,CPU 與 GPU 之間的互連帶寬達到 X86 服務器目前使用的 PCIe 3.0 的 9 倍,大大舒緩了 GPU 等待數據傳輸所造成的計算能力浪費。
Power 9 也不是指針對了 NVIDIA 的計算架構作優化,事實上,它針對的是所有平臺,包括 AMD、Xilinx,以及其他 AI 計算方案:IBM 與 AMD、ARM、華為等公司合作組件 CCIX 聯盟,推出集成了 CCIX 技術,為 Power 9 提供帶寬更高的總線加速器。就架構定義上來看,可以當作開放規格的 NVLINK,其最高帶寬表現也相近,IBM 也為此總線技術取名為 BlueLINK,以作為和 NVLINK 的區分。
另外,IBM 也針對 Power 9 環境推出了分布式深度學習軟件 (Distributed Deep Learning;DDL),可以讓處理器的 100% 擴容得到 95% 的效率增長,相較起一般公司,比如說 Facebook 的 89% 擴容效率明顯高出不少。
IBM Power 計算架構向世界展示了它的強大,而相較英特爾為主的 X86 體系逐漸走向封閉,其在支持 NVLINK 之類的獨家規格的同時,也和其他計算架構供應商合作推出了基于 CCIX 接口的 BlueLINK 開放架構,其欲取代 X86 成為 AI 計算領域通用平臺的的意圖非常明顯。
從 IBM 的技術布局看起來野心不小,且專有架構與開放架構兼容并蓄,最大化自己的應用格局,也明顯有向目前以 X86 為主的 AI 生態發起挑戰的意味。NVIDIA 與 IBM 這個組合在 Power 9 第一波攻勢中證明了架構的優勢,不僅彌補 GPU 架構在數據傳輸上的弱點,也更好的發掘了 GPU 的計算潛力。
依靠與 IBM 的合作而得以發揮計算實力的 GPU 架構,似乎又能重新站上競爭的風口,與即將到來的新架構一較高下,芯片成本的弱勢暫時也不是問題,畢竟專業計算注重的還是整體性能表現,而不是芯片本身的規模與成本。當然,GPU 架構本身的功耗表現和 ASIC 相較之下還是有落差,但若能針對軟硬件的統合與優化來大幅減少機器學習訓練過程所需要的時間,也等同節省了功耗,那么就整體來看,差別就不是那么明顯。
也因為 NVIDIA 和 IBM 在 NVLINK 技術的合作時程較早,其他計算架構就算依靠開放規格加入 Power 平臺,恐怕必須等到新一代產品才有辦法實現,在時程上也將落后 NVIDIA 和 IBM 的組合半年到一年以上。而這一年也就成為 NVIDIA 徹底改善產品設計的機會:不論是對現有 GPU 架構進行深度改造,亦或者是改變以 GPU 為核心的策略,針對 AI 計算領域推出專有計算架構。
但值得注意的是,IBM 提出的架構還是以服務器市場為主,諸如在汽車或者是其他終端的 AI 計算領域,Power 架構恐怕就幫不上忙。NVIDIA 雖可憑借與 IBM 的合作鞏固高效能計算市場,但是在嵌入式領域,恐怕就必須要提出更高效率的架構。
以汽車產業為例,其最新 Pegasus 自動駕駛平臺高達 500W 的功耗,恐怕就不是主流汽車廠能夠接受的程度,雖幸好 2020 年之前市場上還不會有可與目前 NVIDIA 相提并論的自動駕駛方案出現,且 L5 自動駕駛在未來幾年也難以普及,但 NVIDIA 仍須及早做好準備,借以應對未來的競爭。
英特爾與 NVIDIA 矛盾漸深,IBM 趁虛而入
英特爾從機器學習問世方法以來,就一直希望能夠以自家 X86 架構取代 GPU 計算,但 GPU 架構在學習方面的優勢太過強大,且英特爾本身的架構發展也陷入停頓,英特爾也只好看著 NVIDIA 在 AI 產業攻城掠地,自己只能一旁艷羨。
但后來英特爾先后并購了 Altera 以及 NERVANA 這兩家公司,欲以 FPGA 架構重新進入機器學習領域,且又強調 FPGA 的超低延遲推理性能優勢,一時之間 NVIDIA 也大為緊張。
英特爾對 AI 產業野心勃勃,不僅在計算架構,也針對自動駕駛領域買下 Mobileye,所有的商業決策幾乎都是針對 NVIDIA 而來,雙方雖仍是合作伙伴,但實際上已經勢同水火。
在此情形下,NVIDIA 轉向與 IBM 的合作也就順理成章,一方面,IBM 的 Power 架構與 NVIDIA 緊密合作,提供原生 NVLINK 支持,大幅強化 GPU 計算性能,另一方面,IBM 也憑借 GPU 的計算能力,打下 Google 和美國能源部這兩個大客戶,證明在高性能計算領域,Power 架構仍然寶刀未老,二者的結合正撼動著英特爾一手建立起的 X86 服務器帝國。
GPU 因本身架構與平臺限制被 ASIC 步步緊逼
GPU 在 AI 計算領域的優劣勢可以用個簡單的例子說明:GPU 進行機器學習的訓練時,就好像數千個小學生同時計算幾千道小學數學題目,而 CPU 則象是大學生,但一所學校只有幾個大學生,要同時做幾千道小學生題目,每道題目解題耗時雖短于 GPU,但因為題目數量太多,必須排序來做,導致實際解題時間其實遠短于解題后答案輸出以及等待下一道題目的耗時,整體訓練效率也明顯不如 GPU。
而在推理的場景上,通常來自終端的要求量要遠少于訓練時的計算量,幾千個小學生分搶題目后,通常最終只有幾個小學生能實際承擔到計算工作,那么問題來了,回歸到 GPU 本身的計算能力只有小學生的程度,在工作量不大的情況下,GPU 無從發揮大量平行計算的優勢,于是基本解題能力上的弱勢就顯現出來了。
事實上,在一般推理應用場景上,GPU 的推理能力在不少情況下可能要小于 CPU,更不用提基本設計就已經是完全神經網絡化的 ASIC 方案,以及可根據場景調整計算規模的 FPGA。雖然 NVIDIA 后來提出 TensorCore 來解決推理性能低下的問題,但這是額外的計算單元,而非原本 GPU 架構的能力,這個作法也等同額外增加了 GPU 計算功耗的負擔。
最后,GPU 原本就是設計給游戲圖像處理市場,而非純粹計算,所以在架構上必須考慮到圖像處理所需的計算彈性,這點導致近半晶體管無法被用在實際計算工作上。且因為要做到彈性、可編程設計,設計上就必須考慮到一定程度的可重構性。換言之,對 AI 計算而言“冗余”的部分太大,無法像 ASIC 僅需要針對特定的計算工作設計電路,因此可大幅“去蕪存菁”,只留下必要的部分。
半導體芯片設計中的晶體管規模不但代表了成本,也代表了功耗,額外的部分越多,消耗的電力和生產成本也越高,而規模數一數二,且近半晶體管無法投入到 AI 計算中的缺點,就成為 GPU 越來越被關注,并同時被新進 ASIC 架構攻擊的重點。
NVIDIA 推出 NVLINK 期望解決 GPU 計算的最大瓶頸
而 DT 君也曾經在之前的分析提到,未來 AI 計算芯片的方向,尤其是 ASIC 方面,都走向集成度更高且具備大量片上存儲器的方式,甚至在算法或模型設計上進行優化,盡量讓數據可以留在片上存儲器重復利用,避免數據傳輸過程中所導致的延遲——而這也是 GPU 架構設計上最被公認的弱點:考慮到芯片應用廣度,以及規模對成本及功耗的影響,NVIDIA 或 AMD 都不敢集成容量太大的片上緩存,更何況 GPU 早因大量計算單元的集成,規模之大已是數一數二。
所以 GPU 在進行大量平行計算時,無法把大部分計算完的數據暫存在芯片端,而是要通過總線與主系統來回溝通搬移數據,常常造成 GPU 需空轉等待數據送達。而目前的主流 PCIe 3.0 總線最大僅能提供 32GB/s 帶寬,剛宣布的 4.0 正式版本雖可達到 192GB/s 的整體帶寬,但標準才剛公布,相關方案也要 2018 年稍晚才會推出,對 NVIDIA 而言,可說遠水救不了近火。
而英特爾偏好開放標準,循著 PCIe 規格的演進改進自己的總線效率,而不想把 NVIDIA 的 NVLINK 技術放進自己的處理器架構中,考慮的因素包含了過去與 NVIDIA 在專利和架構授權上曾發生過的爭議,以及未來英特爾要推廣自有的 AI 計算架構,不希望讓 GPU 計算架構優勢持續下去,因此對 NVLINK 采冷處理的方式。
NVLINK 在 2014 年發表時,因為英特爾的冷處理,NVIDIA 后來便決定和 IBM 共同發展此界面規格,從 Power 8 架構開始支援 NVLINK 1.0 技術,而才剛推出的 Power 9 則是集成了速度更高的 2.0 版,其提供的總帶寬可高達 300GB/s,很大程度上解決了數據傳輸過程的瓶頸,且因為 NVLINK 支持了緩存一致性設計,也同時能夠有效提升 GPU 的計算性能。
IBM 打亂英特爾服務器生態,或將引爆 AI 芯片新戰局
目前在 X86 平臺上展開的 AI 芯片戰爭,GPU 目前遭受的挑戰越來越大,主要就是周邊的搭配未能如 NVIDIA 之意,導致計算效率無法完全發揮。但借原生 NVLINK 之助,NVIDIA 在 IBM 新的 Power 平臺上表現可說脫胎換骨,這不只是 Power 服務器本身硬件設計上的優勢,也同時是 IBM 配套軟件上的成功,比如說分布式深度學習軟件發揮了極大的功效,讓服務器規模的增加能帶來相對應的性能增長,而不是只增加了功耗,卻沒有增加效率。
當然,NVIDIA 和 IBM 的合作其實也是各有所圖,NVIDIA 借 BIM 之力大幅強化 GPU 計算架構的性能表現,要在包含英特爾等對手的方案正式面世前先穩住市場。IBM 則是想要在潛藏多年之后重新打進服務器市場,正面挑戰英特爾的 X86 生態霸權,因此在連接能力、各類標準的支持方面盡量做到完美,首波攻勢雖是和 NVIDIA 聯手,但長遠來看,還是希望能夠吸引到世界上各大主流計算方案,而非僅只 NVIDIA 一家。
至于英特爾要如何應對?如果未來主流計算架構轉而支持 IBM 體系,而非 X86,肯定傷害會很大,英特爾手握 FPGA 生態,未來完全封閉起來自己做也不是不可能的事情,但客戶的流失將是無可避免的后果,如此看來,IBM 的 Power 架構已可說立于不敗之地。
評論
查看更多