從古代的算盤到如今的超級計算機,人類計算能力的承載形式在不斷演化。
隨著以ChatGPT為代表的生成式AI席卷全球,大模型已經成為推動技術創新的關鍵驅動力。無論是自然語言處理中的GPT系列、BERT等預訓練模型,還是計算機視覺領域的ViT和SWIN Transformer,這些模型的參數量往往以數十億甚至數萬億計,對計算資源的需求呈指數級增長。
面對如此巨大的算力需求,企業如何在平衡算力與能耗開支的前提下,高效地利用和管理算力資源,是實現降本增效的重要命題。這其中,對算力基礎設施和軟件平臺的精細化運營管理成為破題的關鍵。
全球AI持續井噴 大模型與智算共振
超大基礎模型的訓練需要多項關鍵技術作為支撐,其中算力、算法和數據被喻為驅動人工智能向前的“三駕馬車”。
自生成式人工智能服務(AIGC)和GPT大模型訓練爆火后,圍繞算力、算法和數據相關的討論此起彼伏,國產大模型應用更是呈現出“千模大戰”的狀態。
眾所周知,大模型是一項“燒錢”的業務,而“燒錢”的最主要原因由于大模型的計算復雜度很高,每次訓練都需要使用大量的算力來進行計算和推理。
根據阿伯丁大學、MIT等機構的研究者對算力需求的研究發現,在2010年之前訓練所需的算力增長符合摩爾定律,大約每20個月翻一番。自2010年初深度學習問世以來,訓練所需的算力快速增長,大約每6個月翻一番。2015年末,隨著大規模機器學習模型的出現,訓練算力的需求提高了10到100倍,出現了一種新的趨勢。
根據OpenAI公開數據推測,如果按照每秒1000萬億次的計算,每次模型訓練需3640天的計算能力,且全球AI訓練所用的計算量,平均每3.43個月便會翻一番,算力需求的指數級增長曲線將更加陡峭。
大模型對算力的需求是顯而易見的,但更關鍵的點可能在于能否把算力更高效地挖掘出來。在不同的階段,企業對于算力需求也不盡相同。在訓練階段,企業對算力的追求可能是“大”,這一方面能夠做出更大的模型,另一方面也能夠進行更快速的迭代。但到用戶開始接受這個效果的時候,就要涉及到怎樣做才能更劃算的問題,也就是說在部署階段,可能要更關注“精”的問題,盡可能用相對少的算力實現最大程度的作用。
與算力需求一路高歌猛進形成鮮明對比的是,當前在算力使用上仍面臨許多挑戰,存在著利用率低、混合算力協同調度難等問題。《中國算力發展觀察報告》顯示,有些算力中心整體算力利用率不足30%,大量的算力資源在沉睡中等待被喚醒,算力供需矛盾凸顯。
在此背景下,如何汲取硬件資源提供的每一滴能力、加速模型的訓練速度成為行業首要考慮的問題。為此,智能算力作為新型算力服務模式的重要性愈加突顯,其不僅可以實現算力資源的最優利用,還能夠靈活地適應不同業務場景的需求,提高整體效率。
當前,人工智能技術在多模態感知、決策規劃、自主控制等多個特定領域突破,向更開放的通用場景加速融合,以創造能在復雜、多元開放環境中不斷重構的超級智能算力場景。這種演進使智能算力變得不可或缺,且不再局限于簡單的算力疊加或升級,而是在多元重構驅動下實現算力的極致拓展與躍遷。
智能算力作為新型基礎設施,已是萬千行業智能化變革的核心驅動力,智算服務由此也將成為重要的IT基礎服務,將重塑整個IT基礎設施領域的市場格局。根據IDC預測,中國智算服務市場2023-2028年復合增長率達56.2%,這反映出中國智算服務市場的巨大潛力。
智算服務市場未來增長潛力一方面在于智能算力供給提升背景下,智算中心加碼建設,基于其配套的智算服務也將迎來發展基礎。另一方面,生成式AI正從單模態向多模態升級、從訓練向推理落地、從通用向垂直行業滲透,智算服務需求尤其是生成式AI IaaS的服務需求也將不斷高增。
2024年出現一個明顯的轉折,隨著國內互聯網大廠在算力基礎設方面資本支出的不斷增加,云時代的數據中心已經基本消化完畢,或者無法滿足現有的智能算力要求,而新購買的大量智能算力設備又需要放到擁有更大規模綠色電力供應和更大規模機柜的智算中心里,這也在很大程度上刺激了2024年以來國內智算中心的建設熱潮。
據IDC圈不完全統計,截至2024年11月20日,中國智算中心項目已經達到634個,大規模集群數量也不斷增加。
2025年,大模型將繼續向生產場景深度滲透。在這一過程中,大模型尤其是垂類大模型應用的發展,對智算中心提出了更高要求,精細化、綠色化是智算算力高質量發展的必然方向,投建邏輯將進入服務為主的2.0時代。
全棧智算新引擎 軟硬協同一站式按需服務
如果將大模型的運行環境比喻成一幢房屋,那么這幢房屋的居住品質直接關系到大模型的運行效率。
談到居住品質,必然涉及到其中的裝修質量。通常,裝修分為三步:基裝、硬裝、軟裝。
“基裝”就像蓋房子打地基一樣,是裝修的第一步,包括了房屋結構的改造、水電改造、墻面處理等,讓房子“骨骼”更結實,為后續的裝修打下堅實基礎。
“硬裝”是基裝之上的進一步施工,涉及到房屋的固定裝飾,比如地板、墻面磚、天花板、櫥柜等,決定了房屋的風格,是裝修中的中堅力量。
“軟裝”是裝修中的點睛之筆,包括了家具、窗簾、床品、裝飾品等物品,展現房屋的品味。
總體來說,基裝要牢固,硬裝要風格統一,軟裝要個性鮮明,切換到智算領域亦是如此。
在2024世界互聯網大會期間,寧暢在業內首次創新性地提出了“精裝算力”概念,并引發媒體和行業的熱議解讀。所謂“精裝算力”,就是依托寧暢定制化與全棧全液能力,以算力棧為交付形態,從用戶需求與體驗出發,提供全體系軟硬協同的精細化算力服務。
這一概念的提出,也讓寧暢成為了“智算領域裝修公司”,通過提供從基裝、硬裝到軟裝的一站式全棧智算服務,滿足不同行業客戶對算力服務的需求,加速業務效率。
從概念來看,“定制化”和“全棧全液”可以視為寧暢的兩大“基裝”能力基石。定制化方面,寧暢圍繞用戶實際應用場景和算力需要,可以為用戶定制對應各種算力需求的解決方案,方案完整覆蓋用戶交付、部署、應用、運維體驗和業務需求,本身就涵蓋了硬件、軟件平臺搭建、算法模型優化、應用場景定制等內容,最終實現算力資源不浪費、使用成本更節省。
在大模型復雜的訓練過程中,軟硬件的全盤適配至關重要,寧暢的“全棧全液”AI基礎設施解決方案便是基于這一思路打造。寧暢將場景、業務、中臺再到硬件資源的能力進行全面整合,全面滿足大模型對于計算、網絡、存儲等全面需求。作為業內少數能夠實現“全棧全液”的智算基礎設施方案,該方案不僅涵蓋了從底層硬件到上層軟件的全方位支持,還通過全液冷技術的應用,幫助智算中心實現高效與綠色并行。
基于堅實的底座能力,寧暢為客戶提供符合需求的“硬裝”和“軟裝”智算服務。從“硬裝”層面,算力、存儲、網絡這類基礎設施要標準規范、布局合理、節能低碳,做到對硬件設施的管理省時省錢。
一直以來,硬件都是寧暢擅長并且專業的部分,產品體系覆蓋云邊端全場景,涵蓋通用、人工智能、高密度、存儲、整機柜等多種類型服務器,及AI工作站等邊端產品,可實現多種交付形態靈活組合。為兼顧綠色低碳,寧暢依托液冷領域的諸多首創性先進技術,提供全時全域液冷方案,不論是液冷服務器,還是液冷基礎設施產品應有俱有,可以完全滿足不同業務場景的算力建設需求。
在服務器方面,寧暢突破性實現標準化、可移植、大解耦全冷板液冷服務器技術,冷板形式覆蓋CPU、內存、硬盤、GPU、各種形態PCIe設備以及PSU等服務器內全部散熱單元,實現了無風扇形態的原生全液冷服務器。
在智算中心方面,寧暢提供了液冷、風冷或風液混冷等多種定制化建設方案,可以根據實際需求,靈活選擇最適合的散熱方式,從而有效控制能耗。同時,還確保了芯片在長時間高負載運行下的性能穩定輸出,為大模型的訓練和推理提供了堅實的支撐。
在“軟裝”層面,寧暢提供從集群、算子再到模型軟件優化的全局服務和涵蓋算存網管用全體系優化。也就是說從算力集群環境搭建,到AI開發算力調度,再到集群運維和算力運營,都有相對應的軟件提供支持。
NEX AIOM和NexData可將分散的硬件整合為統一的算力和存儲資源池;AI Manager人工智能平臺能夠幫助用戶實現AI開發的全鏈路業務覆蓋;NVIDIA AI Enterprise平臺可加速數據科學工作流,加速生成式AI的部署和應用,大幅度降低用戶AI開發門檻;運維方面有NCenter智能運維工具集,實現全生命周期的運維管理。此外,針對大型企業級用戶,SIMS算力互聯云平臺還可助力實現本地資源與云端資源的融合調度及統一管理,協助客戶高效構建更適合自己的算力平臺,讓大模型的運行管理更加省心省力省時省錢,從而讓客戶更關注于應用層面的落地。
“精裝算力”概念的提出,不僅從服務模式上縮短了企業與智算之間的路徑,還幫助企業最大限度降本增效,實現了從效率到經濟性的精益管理。
比如在液冷領域,寧暢原生全液冷技術,不僅液冷成本可控、運維方式與風冷無異,數據中心運行PUE值更可低至1.09,遠低于業內風液混合形態冷板式服務器平均水平,致力于實現數據中心能效極致、最大限度釋放冷空調電力加速算力提升。
在“增效”方面,以某三甲醫院為例,在引入寧暢算力棧后,該醫院的醫學影像處理與分析的速度和精度得到顯著提升,醫學影像處理速度相較于之前提升688%,效率提升7倍,幫助醫生更快地識別病變區域,提高了診斷效率。
在科研領域,某大學在寧暢算力棧助力下,不僅在物理模擬和氣象預報中顯著提高了運算速度,還在藥物分子模擬研究中大幅縮短了計算時間,寧暢算力棧支持復雜的深度學習模型訓練,加快了自然語言處理、圖像識別等領域的研究進度,將計算時間最高節省了82%,科研工作效率提升20%,直接推動了科研成果的快速轉化。
可以預見的是,隨著人工智能技術的不斷創新,算力應用場景的日益豐富,企業對高質量算力需求將會持續激增,靠不計成本、堆算卡、堆規模就期望能做好算力服務的日子已經一去不復返了。而寧暢的“精裝算力”概念不僅是對智算服務的一次大膽創新,更是為企業適應未來智算時代發展的一次積極探索。
面對未來行業發展的諸多不確定性因素,寧暢這類創新型的AI基礎設施服務商為大模型的持續發展提供確定性的技術支撐,讓企業能夠從容應對時刻變化的市場行情,不斷穿越一個又一個市場周期。
【關于科技云報到】
企業級IT領域Top10新媒體。聚焦云計算、人工智能、大模型、網絡安全、大數據、區塊鏈等企業級科技領域。原創文章和視頻獲工信部權威認可,是世界人工智能大會、數博會、國家網安周、可信云大會與全球云計算等大型活動的官方指定傳播媒體之一。
審核編輯 黃宇
-
AI
+關注
關注
87文章
31292瀏覽量
269644 -
算力
+關注
關注
1文章
1007瀏覽量
14882 -
大模型
+關注
關注
2文章
2514瀏覽量
2928
發布評論請先 登錄
相關推薦
評論