在全球范圍內,數據科學和人工智能(AI)正在影響著現代數據中心的設計和發展。隨著每天數據量的激增,傳統的數據中心最終會變得越來越緩慢,致使輸出效率低下。將人工智能用于數據中心,可顯著改善現有的功能和流程,比如被用于故障預測,以及提前對尚未建成的數據中心進行建模和模擬。數據中心運營商是其中的直接受益者,除了大幅提高工作效率外,還能有效降低運營成本。
然而,要想從現有的深度學習模型中獲得有意義的結果,數據中心運營商需要不斷增加計算能力和內存帶寬。如今,強大的通用芯片(如CPU)已經無法支持如此復雜的深度學習模型。因此,能夠實現并行計算能力的AI芯片越來越受歡迎。
人工智能正在改變數據中心
多年來,谷歌、亞馬遜和Meta等數據中心和存儲提供商一直通過使用AI不斷改進在運營中面臨的問題,AI已經成為數據中心建設中的一種合理投資。下面我們就來看看有了AI加持的數據中心將有哪些改進。
一:能源效率
隨著數據中心變得越來越大、越來越復雜、越來越多地連接到云,AI正在成為防止設備過熱,同時節約能源的重要工具。根據美國能源部的《美國數據中心能源使用報告》,自2010年以來,美國數據中心的用電量每年增長約4%,到2020年達到了730億千瓦時,超過該國總用電量的1.8%。
此外,數據中心還貢獻了全球約2%的溫室氣體排放量。許多數據中心正在通過使用AI來提高運營效率,特別是在能源管理方面。在這里,AI可以自動監控和調整整個數據中心的電力和散熱需求。公開資料顯示,谷歌在其數據中心中通過AI控制其暖通空調系統(HVAC)后,可將總體能耗降低約30%~40%。
二:服務器優化
基于AI的預測分析可以幫助數據中心運營商在公司的許多服務器上智能分配工作負載。這樣,數據中心負載就變得可預測且易于管理。使用具有內置AI功能的負載平衡工具,就能從過去的數據中學習,并更有效地運行負載分配。
三:故障預測和排除
基于AI/ML的溫度警報系統在很多數據中心中得以部署,數百個溫度傳感器實時監測數據中心設備的健康狀況,如濕度、溫度和運行性能。此類系統收集的數據和結論非常有助于數據中心進行預測性維護,防止因緊急維修而導致大規模停機。
四:數據的智能監控和存儲
結合機器學習(ML),AI將取代監控大量數據的日常工作,并提高IT專業人員的任務處理質量和效率。現在,AI在數據中心有一個非常令人稱道的應用,那就是在巡檢機器人中的使用。AI驅動的機器人可以在沒有人為干預的情況下自動更換故障磁盤,整個更換過程包括自動檢查、故障磁盤定位、磁盤更換和充電等,一系列工作在四分鐘內就能順利完成。
從以上四個方面可以看出,人工智能正在滲透并深刻地改變著數據中心的運營。而更為重要的是——有了AI,數據中心運營商就能夠在同一物理硅架構上增加更多工作負載,快速匯總和分析數據,并產生生產性產出。
這些負載通常是數據密集型和計算密集型的,相應的應用程序需要大量的計算能力,這是由與其AI模型相關的訓練和推理工作負載驅動的。因此,數據中心的人工智能還必須要有巨大的計算能力的支持。而這一切單純依靠通用芯片幾乎是不可能實現的,而且擴展成本非常高昂。
若要在數據中心實現真正的人工智能,就必須利用高性能處理器(CPU)、高速內存和GPU等專用硬件的組合才能高效處理大量數據并支持人工智能工作負載。這些專用處理器被設計用于執行矩陣計算,使其在涉及并行處理大量數據的機器學習任務中特別高效,可以顯著加速人工智能工作負載的處理。
數據中心AI芯片的競爭格局
據Arizton分析,2021年全球數據中心市場規模為2,158億美元,并將以4.95%的復合年增長率增長,預計到2027年將達到2,883億美元。另一家市場分析機構P&S Intelligence預測,2021年全球數據中心市場規模估計為2,200億美元,復合年增長率為5.1%,到2030年將達到3,436億美元。盡管兩家機構的預測數據略有差異,但從中我們仍能看到這樣一個結果,那就是數據中心是一個有著數千億美元潛力的巨大市場。
數據中心是企業用來存放計算機、服務器和網絡系統以及滿足IT需求的組件或基礎設施的地方。作為數據中心重要組成部分的服務器將占有很大的市場份額。根據Industry Research的研究,2021年全球數據中心服務器市場規模約為339.86億美元,預計在預測期內將以12.69%的復合年增長率增長,到2027年將達到695.98億美元。
人工智能需要巨大的計算能力。隨著各類企業、終端用戶、云服務提供商甚至電信服務提供商的AI部署激增,2023年對專用AI處理器的需求將繼續飆升,AI芯片市場將延續過去幾年的增長勢頭。來自麥肯錫的分析數據表明,到2025年,預計數據中心將成為AI芯片的主要收入來源,達到150億美元,比2017年增長150%。
研究公司Omdia的分析師認為,2023年發貨的大約200萬臺服務器都將配備至少一個協處理器來加速計算工作負載,與2022年相比增長了53%,其中很大一部分將采用GPU、TPU和專用AI加速器。
在利潤豐厚的數據中心芯片市場,競爭異常激烈。這場競爭最初的核心是Intel與AMD之間有關CPU的競爭。隨著AI在數據中心的應用不斷擴大,數據中心芯片市場的競爭不斷外溢。因此,兩年前Intel推出了第一款用于數據中心的GPU——Intel服務器GPU。作為回應,GPU制造商NVIDIA也推出了代號為“Grace”的基于Arm的CPU芯片進入服務器CPU市場,預計將于2023年上市。蓬勃發展的數據中心行業正在深刻影響著Intel、AMD和NVIDIA的銷售前景和彼此的競爭關系。
Reportlinker在其發布的2023人工智能芯片報告中提出,全球AI芯片市場將從2022年的156.5億美元增長到2023年的232.9億美元,復合年增長率(CAGR)為48.8%。預計2027年人工智能芯片將增長到888.5億美元,CAGR為39.8%。現在,AI芯片市場的主要參與者包括NVIDIA、Intel、AMD、Alphabet、Mediatek、Qualcomm、NXP等。但在數據中心市場,競爭的焦點主要集中在NVIDIA、Intel和AMD之間。
1NVIDIA DGX A100
NVIDIA發明了GPU,并推動了AI、HPC、游戲、創意設計、自動駕駛汽車和機器人開發領域的進步,該公司的GPU一直保持著穩步迭代。2020年5月,NVIDIA公司推出了EGX A100和EGX Jetson,第一款基于NVIDIA Ampere架構的邊緣AI產品是EGX A10。2022年3月,NVIDIA發布了基于Volta GPU架構的新DGX Station、DGX-1和DGX-2。
這些AI超級計算機是為深度學習訓練、加速分析和推理而構建的。該系統包括為數據中心設計的NVIDIA旗艦芯片DGX A100,該芯片集成了8個GPU和高達640GB的GPU內存。DGX A100采用NVIDIA A100 Tensor Core GPU,是適用于各種AI工作負載的通用系統。目前炙手可熱的ChatGPT主要采用了NVIDIA A100,并利用了微軟Azure的基于云的資源和服務。如果將ChatGPT和微軟其他應用程序的需求結合起來,預計2023年微軟對AI服務器的需求總量將達到25,000臺左右。
圖1:NVIDIA數據中心旗艦GPU DGX A100
全新的NVIDIA H100 Tensor Core GPU,是NVIDIA新一代超高性能數據中心GPU,旨在為每個工作負載中實現出色性能、可擴展性和安全性。H100基于NVIDIA Hopper GPU架構構建,將加速云數據中心、服務器、邊緣系統和工作站中的AI訓練和推理、HPC以及數據分析應用,與上一代產品相比,可將大型語言模型的速度提高30倍。根據英偉達此前的信息,H100 Tensor Core GPU計劃于2023年推出。
2 Intel Habana Gaudi2
就在NVIDIA去年宣布Volta GPU架構計劃后,同年5月份,Intel Habana Lab與Habana Greco宣布推出用于訓練和推理的第二代深度學習處理器Habana Gaudi2。這款處理器是為AI深度學習應用而構建的,采用先進的7nm工藝。Gaudi 2包括24個Tensor核心,專門為訓練大規模深度學習模型而優化。在Habana Lab的上一代處理器中,只有八個Tensor核心。
此外,每個Gaudi 2芯片中包含的SRAM和HBM2E存儲器的數量分別增加了兩倍和三倍。Intel聲稱Gaudi2提供的吞吐量是Habana第一代AI訓練芯片的三倍。在內部基準測試中,該芯片的吞吐量是英偉達數據中心旗艦A100-80GB GPU的兩倍。
Gaudi 2芯片的關鍵特征之一是某些網絡組件直接集成到處理器中。這減少了數據中心運營商必須購買的額外網絡硬件數量,從而降低了成本。Gaudi 2配備了24個100千兆以太網端口,比其前身多了14個。Intel的第一款真正的數據中心GPU,代號Ponte Vecchio,預計將在2023年上半年推出。
圖2:Intel深度學習處理器Habana Gaudi2
(圖源:Intel)
3AMD Instinct MI250X
2022年可謂是AI芯片的發展之年,同年9月份,AMD發布了基于5nm架構的Zen微架構Zen 4的更新版本。AMD是一家主要專注于圖形卡和GPU的芯片制造商,盡管在開發專門用于AI的硬件方面并沒有太多聲音,但該公司在5月份推出了Ryzen 7000系列,這是一款專為機器學習能力而打造的新系列PC處理器,并有望隨著Zen 4的推出而進一步發展。
當然,AMD在數據中心AI芯片上并不是完全沒有聲音。AMD Instinct MI200 系列加速器就是AMD新推出的數據中心GPU,它采用創新性AMD CDNA 2架構、AMD Infinity Fabric技術以及先進的封裝技術。對于高性能計算工作負載,AMD Instinct MI250X有著出色的GPU性能,高達47.9 TFLOPS雙精度(FP64),結合FP?64 Matrix Core技術,可實現高達95.7 TFLOPS的雙精度(FP64矩陣)峰值理論性能。對于機器學習和深度學習工作負載,MI250X可提供高達383 TFLOPS峰值理論半精度(FP16)性能。
圖3:有著出色GPU性能的AMD Instinct MI250X
(圖源:AMD)
數據中心AI趨勢展望
人工智能正在成為各個行業現代技術背后的驅動力,在優化、預防性維護、虛擬助理、欺詐檢測和異常檢測等方面都有應用。有人甚至說,如果沒有人工智能,許多數據中心在經濟上或運營上都不可行。與此同時,數據中心也必須提供巨大的計算能力和存儲資源,人工智能才能實時地處理大量數據集并進行訓練和推理。通過GPU和TPU等專用硬件,數據中心可以加速復雜的計算,支持人工智能應用程序和工作負載。
TrendForce數據顯示,2022年,配備通用GPU(GPGPU)的AI服務器僅占全球服務器年出貨量的1%。預計從2022年到2026年,人工智能服務器的出貨量將以10.8%的復合年增長率增長。四家主要的北美服務提供商(谷歌、AWS、Meta和微軟)在2022年的年度人工智能服務器總需求中占據了很大份額,約占全球采購量的66.2%。在用于AI相關計算的服務器GPU市場上,主流產品有NVIDIA的H100、A100和A800以及AMD的MI250和MI250X系列。其中,A800是專為中國市場設計的產品。就服務器GPU的市場份額而言,NVIDIA控制著約80%,而AMD控制著約20%。
根據IDC報告,2023年全球人工智能支出將增長26.9%,達到1,540億美元。2026年,以人工智能為中心的系統支出預計將超過3,000億美元。展望未來,人工智能在數據中心的未來應用和趨勢將非常突出。人工智能通過提高運營效率、性能和安全性來振興數據中心。數據中心可以通過多種方式從將人工智能集成到其組織和運營中獲益。
2023年將是人工智能領域取得重大進展的一年。在未來的幾年里,人工智能在整個數據中心自動化方面的能力將得到改善。屆時,數據中心AI芯片的競爭將更加激烈,除了三家基礎雄厚的企業,預計很多創新公司亦將加入競爭隊伍。
-
數據中心
+關注
關注
16文章
4778瀏覽量
72126 -
AI
+關注
關注
87文章
30896瀏覽量
269087 -
貿澤電子
+關注
關注
16文章
1114瀏覽量
96617
原文標題:千億數據中心市場,正在因AI而改變!
文章出處:【微信號:貿澤電子,微信公眾號:貿澤電子】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論