1 (背景)云計算復雜計算場景挑戰
云計算是由IaaS、PaaS以及SaaS組成的分層服務體系,計算、存儲和網絡是IaaS層核心的三類服務。
云計算的特點:
超大的規模、大量的數據、復雜的網絡以及無處不在的安全問題;
虛擬化、多租戶;
復雜系統解構以及可擴展性;
繁重的工作負載以及針對特定場景的服務;
可遷移性,和對設備和服務接口一致性的要求。
底層硬件架構挑戰:
如何兼顧性能和靈活性;
從業務異構加速、工作任務卸載,到業務和管理分離;
如何實現接口的標準化和彈性,以及硬件加速的虛擬化和個性化;
如何實現硬件加速的彈性和支持軟件的長期迭代;
如何硬件高可用;
最大挑戰:一個平臺應對上述所有挑戰。
2 (理論)軟硬件融合綜述
2.1 軟硬件融合的背景
軟件應用層出不窮,并且快速迭代。兩年一個新的軟件熱點,并且,已有熱點技術仍在快速演進和迭代。
而硬件越來越復雜,芯片工藝走向5nm以下,甚至即將進入亞納米,3D堆疊封裝,4D的Chiplet互聯。這都使得芯片規模越來越大。芯片如此復雜,越來越難以駕馭;同時,芯片的一次性成本及研發風險都變得越來越高。
CPU性能瓶頸,但服務器的工作負載數量和單個負載的算力消耗仍在增加,“摩爾定律”要想持續,必須需要更多更復雜的硬件加速。而ASIC/DSA的靈活性不夠,難以滿足應用的多樣和變化,也使得芯片越來越難以大規模落地。
軟硬件之間的鴻溝越拉越大:CPU軟件性能低下,定制ASIC難以大規模復制;軟件迭代越來越快,硬件迭代卻越來越慢。芯片高投入高風險,嚴重制約著軟件的發展。
2.2 軟件和硬件的定義
指令是軟件和硬件的媒介,指令的復雜度(也即單位計算的密度)決定了系統的軟硬件解耦程度。
按照指令的復雜度劃分,典型的處理器平臺大致分為CPU、協處理器、GPU、FPGA、DSA、ASIC等。從左往右,各個處理器平臺的單位指令越來越復雜,性能越來越好,而靈活性卻越來越低。
我們把任務在CPU運行,定義為軟件運行;把任務在協處理器、GPU、FPGA、DSA或ASIC運行,則定義為硬件加速運行。
2.3 軟硬件融合
均衡:根據任務特點,映射到CPU、GPU、DSA、ASIC等最合適的處理引擎。
動態:任務最合適的處理引擎,并非一成不變,而是隨著系統發展迭代有可能Offload/Onload。
復雜的系統,由分層分塊的各個組件有機組成。軟硬件融合,不改變系統層次結構和組件交互關系,但打破軟硬件的界限,通過系統級的協同,達成整體最優。
傳統分層很清晰,下層硬件上層軟件;軟硬件融合的分層分塊,每個任務模塊都是不同程度軟硬件解耦基礎上的軟硬件協同。整個系統呈現出:軟件中有硬件,硬件中有軟件,軟硬件融合成一體。
《軟硬件融合》圖書的副標題是“超大規模云計算架構創新之路”,來源是:①復雜分層的系統、②CPU性能瓶頸、③超大規模以及④特定場景服務,這些原因共同使得:軟硬件融合當前主要是系統不斷卸載。
“無規模,不卸載”。哪些任務適合卸載?
性能敏感,占據較多CPU資源;
廣泛部署,運行于眾多服務器。
宏觀的看,分層的系統,越上層越靈活軟件成分越多,越下層越固定硬件成分越多,根據這個特點,軟硬件融合卸載可以形成如下趨勢:
被動的趨勢。龐大的規模以及特定場景服務,使得云計算底層Workload逐漸穩定并且逐步Offload到硬件。
主動的趨勢。軟硬件融合架構,使得“硬件”更加靈活,功能也更加強大,使得更多的層次功能向“硬件”加速轉移。
2.4 軟硬件融合的應用領域
云計算的規模龐大,算力要求最高,系統也最復雜。所以,云計算最先遇到各種挑戰,最需要軟硬件融合。
未來,隨著其他領域的算力需求和系統復雜度也質的提升,必然也需要軟硬件融合相關技術。軟硬件融合,面向未來復雜計算場景,超異構混合計算,算力需求再上1-2個數量級。
軟硬件融合相關技術,從云計算抽象出來,反過來指引包括云計算在內的各種復雜計算場景的芯片及系統設計。
3(技術)軟硬件融合技術基礎
軟硬件融合相關的技術包括:
軟硬件接口。聚焦軟件和硬件高效的數據交互;
高性能網絡。例如RDMA和擁塞控制。
算法加速和任務卸載。算法硬件實現以及任務卸載框架。
虛擬化的硬件加速。虛擬化處理的高性能實現。
異構計算加速平臺。獨立/集成的GPU/FPGA/DSA異構加速平臺。
4(場景)DPU/IPU,云計算軟硬件融合的核心承載
4.1 CPU卸載視角:DPU是集成加速平臺
需要有獨立的加速平臺,不斷的把工作任務從CPU軟件卸載到硬件加速。因此,DPU/IPU主要用于底層通用任務加速,而GPU/FPGA/DSA用于應用層的業務加速。
NVIDIA 2020年5月發布DPU,10月份大張旗鼓宣傳;作者2020年8月份提出四階段論;Intel 2021年6月份發布IPU。
4.2 DPU的額外價值:業務管理分離,釋放AI強勁動力
業務和管理分離,有非常多的額外好處,如:
CPU資源完全交付;
傳統客戶方便上云;
主機側獨立安全域;
物理機+虛擬機的優勢合并;
統一公有云和私有云運維。
CPU性能瓶頸,IO帶寬持續增大,IO成為系統瓶頸。DPU/IPU增強了IO的功能,并且逐漸吞噬CPU和GPU的通用工作任務。
4.3 以數據為中心
大數據、AI等場景呈現“高數據量低計算量”的特點,并且“云原生”等趨勢使得云計算復雜系統解構,進一步增強了這一特點。
以計算為中心,指令控制流驅動計算;未來,以數據為中心,數據流驅動計算。
4.4 DPU/IPU典型案例
典型案例:AWS Nitro系統 (偏通用可編程)vs NVIDIA Bluefield DPU (偏定制極致性能)。
AWS Nitro系統包括:VPC加速卡、EBS加速卡、本地存儲加速卡、Nitro控制器、安全芯片以及Lite Hypervisor。
NVIDIA DPU-2的優勢:硬件網絡加速/RDMA網卡/單芯片SOC;劣勢:存儲軟件卸載/非標接口/難以差異化/網絡無法數據面編程。
5(本質)基于軟硬件融合的超異構計算
5.1 DPU成為計算的核心
CPU、GPU和DPU,既相互協作,又相互競爭。互聯網法則:得入口者得天下。DPU/IPU成為數據中心算力和服務的核心。
傳統的觀點,大家認為DPU是CPU的任務卸載。而從軟硬件融合觀點,則認為:DPU是包含嵌入式CPU/GPU在內的超異構計算平臺,而獨立CPU/GPU是DPU的擴展。
5.2 超異構和軟硬件融合
當前,大家對DPU的認識還沒有形成定論,從DPU到超異構計算,整個認識是逐級增強的:
Level 1:DPU是CPU的任務卸載/加速。
Level 2:IPU是基礎設施,支撐上層應用。
Level 3:DPU/IPU是計算的核心,CPU和GPU成為擴展。
Level 4:DPU/IPU的本質是超異構計算,需要在極致靈活性的基礎上,提供極致的性能。
要實現超異構計算,為什么需要軟硬件融合架構(Converged Architecture of Software and Hardware,CASH)?軟硬件融合能夠做到:
性能。相比GPGPU,性能再提升100+倍;相比DSA,性能再提升10+倍。
靈活性。接近于CPU的靈活性、通用可編程性。
資源效率。跟DSA接近的資源效率,單位晶體管消耗下最極致的性能。
設計規模。軟硬件融合,駕馭10+倍更大規模的設計。
架構?;谲浻布诤霞軜嫷某悩嬘嬎悖篊PU + GPU + DSA + ASIC + etc.。
生態。開放的平臺及生態,開放、標準的編程模型和訪問接口,融合主流開源軟件。
5.3 第四代算力革命:基于軟硬件融合的超異構計算
審核編輯:劉清
-
asic
+關注
關注
34文章
1205瀏覽量
120624 -
DPU
+關注
關注
0文章
365瀏覽量
24223 -
DSA
+關注
關注
0文章
49瀏覽量
15205
原文標題:軟硬件融合:從DPU到超異構計算
文章出處:【微信號:阿寶1990,微信公眾號:阿寶1990】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論