編者按算力網絡有一個美好的愿景,就是希望算力和算網,能像電力和電網一樣:
- 算力可以標準化,有統一的計量單位。類似電力計量的千瓦時,或稱為度數。
- 有很多算力中心生產算力,類似電廠生產電力。
- 生產出來的算力,通過接入算網,最終供應給算力的客戶。類似電廠的電力,通過電網接入千家萬戶。
- 算力“隨時隨地,無處不在”,算力客戶可以非常方便的隨時接入任何位置的算力,支撐自己的業務。類似無處不在的電源接口,方便我們隨時隨地使用電力。
- 從基礎設施的角度看,就是希望算力基礎設施也能像電力基礎設施一樣,通過更大規模的人力物力投入,實現算力基礎設施的領先。
但算力基礎設施,和我們的能源、電力、交通等傳統基礎設施相比,仍存在許多風險和挑戰。今天這篇文章,我們拋磚引玉。
1、算力基礎設施戰略價值巨大
本章節內容節選自《2022-2023全球計算力指數評估報告》,由IDC、浪潮信息、清華全球產業院。內容有調整。
通過數字技術推動業務變革,進而實現數字化轉型,已經成為傳統企業發展的必由之路。隨著數字技術的不斷進步和發展,以及數據量的爆發性增長,強大的算力,成為了創新和突破的關鍵要素。以人工智能領域為典型,人工智能大模型的發展,受算力發展的直接影響。人工智能算法和技術被應用于各種領域和行業(AI+),如自動駕駛汽車、醫療診斷、金融預測等。 算力的發展不僅激發數字技術的創新和突破,也推動了數字技術在各行各業的廣泛應用與深度融合,為各行業能夠實現科技創新提供了重要支撐。
在數字經濟時代,算力是國家經濟增長的關鍵驅動力之一。根據上圖可以看到,算力的提高對一國經濟增長的拉動效應非常顯著,且隨著計算力指數的增加,提升效應會越來越明顯。
評估結果顯示,十五個樣本國家的計算力指數平均每提高1點,國家的數字經濟和GDP將分別增長3.6‰和1.7‰。
總之,算力基礎設施支撐并加速新質生產力和千行百業的發展,算力基礎設施是整個國民經濟發展的重中之重。
2、算力基礎設施的風險和挑戰
雖然算力和我們的鐵路、公路、水利、電力等行業一樣,被稱為基礎設施。但算力是新型基礎設施,和這些傳統基礎設施相比,仍存在非常大的差異性。而這些差異性,也基本上就是算力基礎設施存在的風險和挑戰。
本章節,我們就算力基礎設施的風險和挑戰進行分析,無法面面俱到,僅限拋磚引玉。關于算力基礎設施的風險和挑戰,希望能夠得到全行業的重視。全行業一起努力,能夠構建符合技術和市場規律,并且能夠支撐國家數字經濟快速發展的新型算力基礎設施。
2.1 算力難以標準化
如果算力可以公平且標準化的度量,那么算力就可以像電力一樣,大規模生產和消費。但實際的情況,遠比想象的要復雜的多。
我們通過兩個案例進行分析。
首先是CPU處理器的案例。CPU是最通用的處理器,沒有之一。我們以CPU中兩個重要的部件進行分析:
- Cache,多核CPU中通常集成了L1-L3三級Cache。如果遇到流式數據處理,此刻Cache幾乎沒有價值;如果是循環等結構的業務算法,Cache的價值就非常大。反過來,流式數據處理,會優先選擇Cache盡可能小一些的處理器;而循環類結構的業務算法,會優先選擇大Cache的處理器。
- 協處理器,CPU內部也集成協處理器,如Intel AVX/AMX指令協處理器。如果是傳統的控制類任務,就不需要AVX/AMX協處理器。但如果是視頻、圖像等任務,就需要AVX;如果是AI類處理,就需要AMX。反過來說,如果是控制類的任務,AVX/AMX協處理器對我來說沒有價值,如果仍需要為這些協處理器的算力付費,則是相對不公平的。客戶會優選沒有AVX、AMX等協處理器的CPU處理器。
第二個案例,CPU vs 專用處理器。如果同樣的1000TOPS算力(折合成TOPS統一單位),CPU算力和專用處理器的算力哪個更好?一般來說,CPU算力更好,因為CPU算力更加通用,可以用在幾乎所有場景,并且對軟件和軟件開發者的要求更低。而專用處理器,僅能支持某個特定場景,甚至某個特定算法算力,對其他的業務場景來說,價值幾乎為零。這樣的話,這兩種算力,能賣相同的價格嗎?我們假設CPU 1000TOPS算力價格為1000元/月,那么,專用處理器 1000TOPS算力的價格10塊錢,都不一定能找到合適的客戶。
算力為什么難以標準化?本質的原因在于計算引擎和業務算法的耦合性。在加減乘數等基本指令的通用CPU基礎上,做的任何優化,其實都是面向某些特定規律的計算或算法優化。這些加速計算引擎只有找到匹配的業務算法,才能發揮價值;反過來,如果沒有匹配的業務算法,計算引擎的價值就很低很低。
簡單總結如下:
- 一方面,計算引擎微架構的復雜性,決定了計算性能的測量是一件非常復雜、難以面面俱到并且足夠公平的事情。
- 另一方面,計算的通用性,或者說對業務算法的廣泛覆蓋性,也是一個非常重要的維度。而這個維度,在算力計量之外。
- 此外,計算引擎和業務算法的耦合性,決定了算力的價值到底能發揮幾何。計算引擎大體上可以分為三類:通用的CPU、并行計算的GPU等、以及專用加速的各種DSA/ASIC,這些計算引擎的算力無法完全按照算力來折算,而要根據算法和計算引擎的匹配,來計算實際算力。
- 那么,我們是否可以以業務算法為基準,誰能夠更快速的完成一個特點單位的業務算法,誰的性能就好,誰的價值就高。答案也是否定的。因為業務算法千千萬,單個業務算法無法評價,所有的算法加權綜合評價也意義不大。對具體的業務客戶來說,自己的算法能不能更快速更低成本的計算,才是需要關心的事情。
- 還有一個重要的方面,業務算法本身的價值。比如,同樣的算力,如果用于AI計算,一般來說,價值要高一些。如果用于網絡 存儲計算,則價值要低一些。這些也會影響到專用加速器算力的價格定義。
- 等等。
總結一下,我們認為,計算是一件非常復雜的事情,算力(也即計算的能力)的標準化,幾乎是一個偽命題。
2.2 業務的算力需求指數級增長
從上圖可以看到,從2012年深度學習的興起,算力需求逐漸增強,跳脫摩爾定律約束,需要GPU加速處理器,以及Scale out的集群計算。這一時期,算力需求每3.4個月翻倍。從2018年開始,隨著大模型的流行,算力需求進一步加速,每2個月就會翻倍。與此同時,Scale Out也越來越難以為繼,集群規模從千卡到萬卡,再到十萬卡。集群規模的不斷擴大,使得AI計算的成本越來越成為天文數字。例如,微軟與OpenAI制定的新一代AI算力芯片和基礎設施項目星際之門,預計耗資1000億美元;目標參數規模為1000萬億,是GPT4的10000倍。業務需求和算力基礎設施的差距成指數級增長,兩者之間的矛盾進一步加劇。要想根本性的解決問題,一方面需要單節點的計算架構的創新(Scale Up創新),也需要更高效的集群網絡解決方案,進一步支持更大規模的集群計算(Scale Out創新)。
2.3 算力技術體系的門檻非常之高
算力涉及芯片、硬件及基礎設施、軟件以及業務四個主要的方案,每一項都非常的復雜,且有極高的技術門檻:
芯片,是計算(算力)的硬件載體。隨著芯片工藝進入10nm以內,逐漸接近物理極限,芯片制造的門檻越來越高,一代新工藝投入通常在千億美金級別。單芯片所能容納的晶體管數量已經達到數百億級,再加上Chiplet先進封裝的加持,未來,單個芯片的晶體管數量會突破萬億級大關。這么龐大的晶體管數量,如果進行芯片的系統架構和微架構設計,也是非常大的挑戰。
硬件設備和外圍基礎設施。在智算時代,硬件設備的功耗都非常的恐怖。傳統CPU服務器單臺功率在300W左右,而目前主流GPU服務器的功耗都達到了10KW左右,整整提升了30倍以上。于是,傳統的風冷散熱已經逐漸走出歷史舞臺,更高技術要求的液冷成為了主流。此外,數據中心的功耗越來越大,綠色數據中心越來越成為必然的要求。如何降低PUE,需要數據中心基礎設施統籌的技術革新和綜合能耗優化,甚至需要能源和電力產業的配合。
軟件,是計算的靈魂。系統級軟件如操作系統(如Linux)、集群操作系統(如Kubernetes),以及其他基礎軟件、數據庫軟件、中間件軟件,以及加速計算框架、業務框架等等,軟件生態五花八門。每一項都非常的復雜,每一項其生態的形成都經過了漫長而艱難的階段。
業務。新的技術、新的場景、新的業務落地,有非常大的難度。特別是跟硬件關聯度非常大,受硬件物理條件的約束的場景,如自動駕駛智能汽車、XR元宇宙、人形機器人等。如何實現軟硬件深度協同和融合的綜合算力技術體系,受到很多現實的約束,實現的難度巨大,需要更多的創新驅動。
總之,從算力芯片,到硬件以及相關軟件和開發框架,軟硬件體系極度龐大和復雜,技術門檻非常高。
2.4 算力技術迭代很快
TSMC 3nm工藝已經量產,2nm、1nm也都在未來幾年的路線圖中。并且,TSMC已經開始在攻關0.1nm工藝,半導體工藝即將進入亞納米(埃米)時代。在存儲領域,近些年來還興起了3D封裝技術,使得集成電路從二維進入三維。在封裝領域,Chiplet先進封裝機制,把多個芯片裸DIE集成到一起,從3D到4D,都進一步增強了單位面積的晶體管集成度。
隨著單芯片所能容納的晶體管數量逐漸增加,計算的架構也越來越復雜,逐漸從CPU同構、CPU+GPU的異構,走向了CPU+GPU+DSAs的異構融合。2023年9月15日,在湖南長沙的世界計算大會上,《異構融合計算技術白皮書》由工信部電子五所發布(關注軟硬件融合公眾號,回復“白皮書”,可下載此白皮書)。
算力芯片的設計模式,已經從“硬件定義軟件”轉向“軟件定義硬件”。傳統的算力芯片設計模式,是先有芯片,然后是驅動和開發框架,再然后是基于框架的軟件任務。但這種方式,每家芯片公司都是一個獨立的架構,獨立的生態。一方面,構建生態的門檻非常高,另一方面,這種方式對客戶非常不友好。特別是在計算的主流方式從單機走向大規模集群計算的當下,客戶既傾向于統一的計算平臺,又不想被特定的廠家綁定。軟件定義硬件的方式,是客戶和芯片供應商最大的公約數。
這里就計算的形態再做進一步展開。隨著大模型的發展,計算需求的規模越來越大,和單顆芯片所能提供的性能差距的數量級,也在不斷增加。千卡集群、萬卡集群,甚至十萬卡、百萬卡集群也已經在路上。超大規模集群計算,甚至跨云邊端的融合計算,已經成為了計算的主流形態。
摩爾定律告訴我們,每18-24個月芯片的性能就會翻倍。NVIDIA黃仁勛的黃氏定律告訴我們,計算性能會每一年翻一倍。這兩個定律意味著,算力芯片的迭代周期是1-2年一代。
軟件的迭代就更快了,軟件開發更是講究“小步快跑”,通常是2-3個月一個小迭代,一年一個大迭代,不然就趕不上業務快速發展的需要。
2.5 算力基礎設施的生命周期非常短
傳統基礎設施,技術更新換代較慢,傳統基礎設施的生命周期很長,通常在50年以上,有的甚至100年以上。
而受算力各項技術的快速更新迭代,特別是摩爾定律和黃氏定律的影響,算力基礎設施的生命周期通常4-5年。因為,4-5年時間之后,硬件的可靠性會越來越差,并且計算的各項支出越來越不夠經濟,必須要更換更加先進的計算設備和相應的軟硬件技術棧。
3、開放的技術棧,開放的產業鏈
國產算力芯片最大的困境在于生態:構建一個新的計算生態,門檻非常高,千億級投入都不一定成功。但行業除了NVIDIA CUDA生態之外,還有一個更加強大的生態,即全球幾乎所有互聯網公司(客戶)都支持的開源軟件生態。基于開源軟件,實現開源軟件定義的開放硬件,形成一個更加開放更加強大的開源的技術(棧)生態。
國家多個部委發文,說要構建全國一體化算力網。但一體化算力網,并不意味著是一家公司獨大,而是意味著算力的充分利用和價值的最大化發揮。我們認為,未來也是類似公有云的競爭態勢,最終形成5家左右具有全國甚至全球影響力的算力網公司,以及10家以上具有行業和領域特色的專業算力網公司。總之,整個產業鏈是開放的:
IDC,聚焦數據中心的基礎設施;自身的基礎設施可以服務公有云和算力中心等各類客戶。
算力中心,聚焦算力生產。通過融合計算的綜合算力創新優化,實現算力的最高性能和最低成本,以及超大規模。算力可以賣給任何一家算力網公司,以及直接賣給大客戶。
算力網,聚焦業務落地。主要聚焦PaaS服務和算力解決方案,服務好客戶業務落地。
業務客戶,可以從自建的私有云、公有云以及算力網獲得優質而低成本的且“無處不在,隨時隨地可獲取”的算力,服務好自身的業務。
只有開放,才能最大限度的發揮各自的創造力和和市場競爭價值,才能最大限度的實現技術的快速進步,才能實現算力芯片和算力產業鏈的獨立自主,甚至全球領先。
在線研討會 | 深入了解Imagination APXM-6200:全新性能密集型應用CPU
-
電網
+關注
關注
13文章
2071瀏覽量
59179 -
人工智能
+關注
關注
1791文章
47279瀏覽量
238511 -
算力
+關注
關注
1文章
977瀏覽量
14822
發布評論請先 登錄
相關推薦
評論