01
背景:算力需求暴漲、摩爾定律失效
當前,企業云上業務需求趨勢正在大幅增長,算力需求呈“爆炸式”遞增。
直播/短視頻行業每天有上億用戶產出UGC視頻內容發布在不同平臺,產生百萬核級視頻編碼算力需求和高業務成本。基因/制藥行業涉及到的分子動力學模擬、基因序列對比、蛋白結構分析,原來以實驗為主,今天計算機模擬為主,從原子-分子單位的行為進行計算,消耗大量的算力。電商行業從流量為主轉變為精益化運營過程中所需的AI推理、大數據畫像,智能精準推薦對算力需求也越來越旺盛。以AI為代表的算力規模每三個半月就會翻一倍。
然而,在算力需求暴漲的同時,摩爾定律演進速度卻在減慢,硬件技術進步的紅利見底。
如今,每迭代一代CPU,服務器和數據中心的功耗和成本攀升,每千瓦芯片功耗在生命周期內帶來上萬美金的成本;硬件和芯片的成本也在逐代上漲。
在云這類面向多租戶的場景下,超線程(HT)架構的問題逐漸暴露出來,面對一些高密計算任務時很難滿足業務需求,共享內存與物理核的機制導致租戶之間處理任務可能需要相互排隊,導致性能大幅下降;或者互相干擾的情況導致性能波動。
如何能在實現高性能(減少干擾)的同時實現低功耗、低成本?我們認為,以此前的技術方案,無法解決業務需求和痛點,需要設計一款云原生芯片,結合現有的阿里云軟硬件架構,才能更好地解決客戶應用的需求。
我們先來看下結果:在編解碼的場景下,ECS倚天實例和傳統實例相比,實現了80%的性價比提升,數據庫場景、AI推理場景、大數據場景也都分別有著30%、70%、50%的性價比有效提升。目前,ECS倚天實例已應用于阿里巴巴集團核心業務,并服務科學研究、智能手機行業和多家知名互聯網公司。2021 年雙 11 期間,天貓雙 11 核心交易系統平滑遷移至倚天 710 云實例,算力性價比提升30%;匯量科技廣告推理業務使用倚天 710 云實例,性能和網絡帶寬雙雙提升,性價比提升 40% 以上。
02
“倚天”利劍出鞘:軟硬一體的云原生ECS架構
ECS倚天實例是如何實現大幅的性價比提升的?我們從不同ECS產品架構層面,包括:云原生處理器倚天710、云計算基礎設施處理器CIPU、云原生應用優化方案ECS Booster?等不同層面,給大家分享。
倚天710:高性能、低功耗
我們先來看下倚天710處理器在設計上,是如何解決上述問題的。
從芯片層面看,主要影響應用性能的四大要素包括ALU(邏輯計算單元)、Cache、主頻、加速指令。
首先,倚天710 單顆CPU即實現了128核的高密度設計,高規格實例可以實現線性的性能增長;同時處理器無超線程概念,避免了性能爭搶的問題:獨享物理核,性能更強勁;獨享Cache,應用緩存更高效。
x86架構是兩個vCPU/HT共享一個物理核,1份ALU(算術邏輯運算單元)。ECS倚天實例采用的是獨享物理核心方式,這可以讓算力密集的計算指令不必排隊、不必爭搶,計算速度更快。
在Cache維度,過去兩個vCPU/HT共享一二級緩存,相互爭搶,性能波動較為嚴重。采用倚天CPU獨享Cache的設計,讓vCPU之間相互不影響,為重負載計算帶來更高性能。
影響算力性能的關鍵因素,除了核的資源,還有主頻。
大家知道為什么多數Web、App、DB的生產業務CPU使用率的安全水位線是50%,日常水位低于30%嗎?
以下圖中的視頻編碼為例,并發超過4路后,性能下降40%;再加上前面說到的核爭搶問題,如果客戶的實際業務超過50-60%水位,關鍵生產應用將響應放慢,客戶感知卡頓甚至超時問題。因此需要將CPU使用率安全水位壓低,犧牲成本保證安全,浪費了另外50%資源。
背后的原因是x86功耗大,高算力負載很容易造成功耗過大,溫度上升,因此采用降頻規避,進而影響了性能。而倚天710的功耗是主流x86的1/6,沒有任何降頻問題。同時也推薦倚天的安全水位可以提高到70-80%,減少資源浪費。
在云上多租戶共用平臺,即使用戶運行低負載應用,也存在相互影響的風險,倚天徹底解決了此問題。下圖展示的案例就可以看到,在視頻編解碼四路以上時,代表倚天的橙色部分基本保持恒定,x86則會降低幅度40%。
值得一提的是,倚天710還針對特定算法場景進行了加速與優化。比如像NEON、SVE等矢量計算技術,可以讓單條指令處理更長的數據,可以大幅提升機器學習、視頻編碼和高性能計算等場景性能;另外,倚天實例還支持BF16和INT8,在機器學習場景下,大幅提升計算效率,為客戶提供更多選擇。
以CIPU為中心的架構:高密、穩定、強勁
除了芯片本身能力,為了實現降本增效,倚天ECS實例基于云原生的硬件架構設計。
傳統的服務器常常設計為2路或4路,通過多NUMA互連的方式提升整機CPU密度,讓一個OS調度更多CPU算力,卻也增加了復雜度。在這種架構下,隨著核數增加,網絡和存儲IO也快速翻番,還要保持跨NUMA cache一致性,導致應用性能下降;同時也帶來爆炸半徑過大的問題,在云計算場景下,多路的設計會讓局部硬件故障的影響范圍更大。
阿里云采用云原生的思想重新設計。倚天710 CPU單顆CPU即實現了128核的高密度設計,同時以CIPU為中心的硬件架構,通過CIPU連接2顆或者更多倚天的芯片,去NUMA方案下實現整機核密度更高,避免了跨NUMA帶來的性能下降,同時由整機的高密度帶來了成本下降,使得倚天實例更有競爭力。同時,多單路的硬件機型設計,爆炸半徑減半,產品更穩定。
此外CIPU硬件本身也是創新性的設計,通過將虛擬化與IO轉發等數據面卸載到專用硬件上進行加速,消除了原來虛擬化損耗與性能爭搶,并大幅加速了IO,也會使得整體性能更高;VPC環境下支持彈性RDMA加速能力,相比TCP時延降低70%以上。
ECS Booster
ECS Booster是阿里云在倚天實例上提供的軟件性能優化方案,通過網絡中斷優化、操作系統優化、應用層優化等技術,針對web、APP、數據庫等主流場景進行優化,運行在倚天實例上阿里云PaaS產品的性能獲已經實現得顯著性能收益,相信也能給客戶業務場景帶來明顯受益。
03
全場景性能大幅提升
11月15日,ECS G8y(倚天實例)將正式上線,產品規格覆蓋1-128核,全面搭載eRDMA加速能力,可以大大提升軟件性能。
ECS G8y(倚天實例)有著性能卓越、生態豐富,綠色降本三個方向的業務價值,其中關于性能收益及增長方面有著很好的數據表現。
前文說到的云原生處理器和創新的硬件架構,最終在應用上有哪些性能收益?我們從Web、App、Media、DB、大數據、科學計算、AI推理等七個最廣泛場景來看產品性能表現。
Web場景:綜合性能提升30%
Web場景是互聯網中應用場景最多、消耗服務器資源最多的場景。為了解決移動場景流量和體驗問題,服務端常常采用網頁壓縮方案節約帶寬。但壓縮算法非常消耗CPU算力和時間,導致隊列中多客戶請求時延變長。
倚天擁有獨立CPU物理核,結合SVE指令加速,單vCPU數據壓縮性能翻倍,前面提到的體驗影響減半。Web場景包括Nginx、Apache、NodeJS、PHP等排名靠前的應用,倚天實例對比阿里云G7系列實例,綜合性能提升30%左右。
阿里云防火墻CFW已經實現倚天ECS遷移。CFW為客戶業務提供安全防護,需進行大量正則表達規則進行掃描,消耗大量算力,影響業務性能。采用獨享物理核的ECS倚天實例,實現安全和體驗收益兼得。在不同正則匹配性能優勢分別為23%、40%、28%。
App編程語言性能:多數性能提升40%
不管是編譯型語言C、Go等還是無需編譯的語言Java、Python等,都很好的平滑兼容ARM架構,我們可以看到,使用開源的Benchmark進行測試,應用運行在ECS倚天實例上獲得的性能提升多數有40%。
編解碼場景:20-40%性能提升
短視頻和直播是如今最火熱的應用,UGC時代內容指數級增長,編解碼算力消耗也隨之增長。如今最流行的H.264算法速度快,節約算力,但是編碼后的文件更大,消耗更多存儲和帶寬。H.265可以很好解決此問題,使用比重快速增長,但多消耗1倍算力成本。
無論是在哪種場景下,倚天的視頻編解碼性能均比x86實例更高,成本更低。
如圖,上述兩類視頻編碼規范的編碼器X.264、X.265運行在ECS倚天實例上,都收獲了20-40%性能提升;這個過程中我們進行了大量矢量指令優化,使性能大幅提高,優化軟件可以向客戶輸出。
數據庫場景:10-30%性能提升
數據庫場景下,運行在ECS倚天實例上,相較與G7實例,開源軟件Redis、Memcached有30%性能優勢,MySQL和PGSQL有10-20%性能優勢。
阿里集團電商業務所使用的Tair數據庫也已經遷移到倚天平臺,協議上兼容Redis,性能是開源Redis數據庫的3倍。Tair支撐了多年天貓雙11大促,有強大的緩存能力,需要把數據緩存到內存,消耗Memory資源。我們采用倚天強大的算力優勢進行數據壓縮,讓內存成本降低60%,疊加倚天實例自帶的eRDMA加速能力,可以提升吞吐量80%,時延降低15%以上。目前基于ECS倚天實例的Tair產品已經上線,大家可以在云上使用。
大數據場景:20-60%性能提升
在需要消耗大量IO、大量計算以及高內存帶寬的大數據場景中,ECS倚天實例由于擁有獨立物理核、Cache更大、網絡時延更低等特點,運行Spark應用性能收益20%以上,搜索Elastic Search和流計算Flink場景性能收益達到40%和60%。上述大數據開源軟件,直接編譯即可在倚天實例上運行,歡迎大家試用。
科學計算:20%以上性能提升
在科學計算等場景下,相比于同規格x86云實例,運行在倚天實例上的基因、制藥,汽車領域等方面的算法都有20%左右的收益,我們近期有兩個伙伴測試分子動力學和EDA應用,甚至實現了性能翻倍。這主要是由于科學計算場景使用的主要是物理核資源,倚天實例與同規格的x86實例相比,核物理核數量是后者的兩倍,計算性能更高。
阿里云彈性高性能計算平臺E-HPC、彈性伸縮等云上工具已經支持ARM平臺,主要科學算法也都可以平滑兼容。
AI推理:性能提升1倍
AI場景算力消耗增長飛快,成本占比急劇上升。推理場景下典型的搜推廣客戶都無法接受下調精度(影響模型準確度)降本。阿里云彈性計算團隊和達摩院合作,推出了HIE-Engine動態量化方案,利用倚天實例的INT8加速能力,可將RestNet和Bert場景性能提升1倍,且精度沒有損失。
04
降低碳排放、降低成本
對于企業客戶來說,除了業務性能表現,IT碳排放和成本也很重要的一環。今天的這款倚天處理器,可以在CPU負載30%的情況下,每vCPU功耗比x86降低6倍,整機功耗降低60%以上。碳排放也等比降低。全國IDC年耗電量約2000多億度,相當于兩個三峽大壩的發電量,采用倚天實例進行替換,可以省下一整個三峽的電量。
除了綠色低碳,企業還能降低IT成本,大家可以看圖中的定價,倚天實例對比最新一代主售實例定價是30%、23%、22%的降本幅度,將技術收益讓利給客戶。
使用這款產品會獲得更好的性價比。在前面提到的七大主要應用場景,平均性價比(性能÷價格)收益可達50-80%。
05
豐富的軟件生態及應用案例
下圖為ARM服務器軟件生態,包括主流OS、編程語言、Lib庫、開源應用。這些軟件我們都做過使用和測試,可以做到無需修改代碼即可運行。遷移文檔、遷移工具等方案可見以下鏈接:
https://help.aliyun.com/document_detail/462190.html
目前在阿里云產品中,RDS、容器、PAI、視頻云等多款PaaS產品接入倚天ECS;阿里集團電商業務也使用了倚天ECS,有效支撐阿里618、99大促以及雙11大促多個活動。外部有短視頻、Web、游戲、廣告等客戶提前使用了新產品。
最后總結一下關鍵詞。
技術關鍵詞:倚天710云原生處理器(獨立物理核、重新定義CPU水位)、CIPU為中心的硬件架構(業界最高密度、NUMA less提高穩定性、硬件加速)、ECS booster方案(加速應用性能);
關鍵數字:性能提升30%以上,性價比提升50%;節約用電1個三峽。
再次感謝各位見證硬核技術的倚天專場,今天倚天的一小步,將是改變未來IT歷史、改變云計算浪潮的一大步,感謝大家!
編輯:黃飛
?
評論
查看更多