摩爾線程重磅宣布其AI旗艦產品夸娥(KUAE)智算集群解決方案實現重大升級,從當前的千卡級別大幅擴展至萬卡規模。摩爾線程夸娥(KUAE)萬卡智算集群,以全功能GPU為底座,旨在打造國內領先的、能夠承載萬卡規模、具備萬P級浮點運算能力的國產通用加速計算平臺,專為萬億參數級別的復雜大模型訓練而設計。這一里程碑式的進展,樹立了國產GPU技術的新標桿,有助于實現國產智算集群計算能力的全新跨越,將為我國人工智能領域技術與應用創新、科研攻堅和產業升級提供堅實可靠的關鍵基礎設施。
此外,摩爾線程聯合中國移動通訊集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司(排名不分先后)分別就三個萬卡集群項目進行了戰略簽約,多方聚力共同構建好用的國產GPU集群。
摩爾線程創始人兼CEO張建中表示:“當前,我們正處在生成式人工智能的黃金時代,技術交織催動智能涌現,GPU成為加速新技術浪潮來臨的創新引擎。摩爾線程矢志投身于這一歷史性的創造進程,致力于向全球提供加速計算的基礎設施和一站式解決方案,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。夸娥萬卡智算集群作為摩爾線程全棧AI戰略的一塊重要拼圖,可為各行各業數智化轉型提供澎湃算力,不僅有力彰顯了摩爾線程在技術創新和工程實踐上的實力,更將成為推動AI產業發展的新起點。”
AI主戰場,萬卡通用算力是標配
大模型自問世以來,關于其未來的走向和發展趨勢亟待時間驗證,但從當前來看,幾種演進趨勢值得關注,使得其對算力的核心需求也愈發明晰。
首先,Scaling Law將持續奏效。Scaling Law自2020年提出以來,已揭示了大模型發展背后的“暴力美學”,即通過算力、算法、數據的深度融合與經驗積累,實現模型性能的飛躍,這也成為業界公認的將持續影響未來大模型的發展趨勢。Scaling Law將持續奏效,需要單點規模夠大并且通用的算力才能快速跟上技術演進。
其次,Transformer架構不能實現大一統,和其他架構會持續演進并共存,形成多元化的技術生態。生成式AI的進化并非僅依賴于規模的簡單膨脹,技術架構的革新同樣至關重要。Transformer架構雖然是當前主流,但新興架構如Mamba、RWKV和RetNet等不斷刷新計算效率,加快創新速度。隨著技術迭代與演進,Transformer架構并不能實現大一統,從稠密到稀疏模型,再到多模態模型的融合,技術的進步都展現了對更高性能計算資源的渴望。
與此同時,AI、3D和HPC跨技術與跨領域融合不斷加速,推動著空間智能、物理AI和AI 4Science、世界模型等領域的邊界拓展,使得大模型的訓練和應用環境更加復雜多元,市場對于能夠支持AI+3D、AI+物理仿真、AI+科學計算等多元計算融合發展的通用加速計算平臺的需求日益迫切。
多元趨勢下,AI模型訓練的主戰場,萬卡已是標配。隨著計算量不斷攀升,大模型訓練亟需超級工廠,即一個“大且通用”的加速計算平臺,以縮短訓練時間,實現模型能力的快速迭代。當前,國際科技巨頭都在通過積極部署千卡乃至超萬卡規模的計算集群,以確保大模型產品的競爭力。隨著模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層算力的訴求進一步升級,萬卡甚至超萬卡集群成為這一輪大模型競賽的入場券。
然而,構建萬卡集群并非一萬張GPU卡的簡單堆疊,而是一項高度復雜的超級系統工程。它涉及到超大規模的組網互聯、高效率的集群計算、長期穩定性和高可用性等諸多技術難題。這是難而正確的事情,摩爾線程希望能夠建設一個規模超萬卡、場景夠通用、生態兼容好的加速計算平臺,并優先解決大模型訓練的難題。
夸娥:國產萬卡萬P萬億大模型訓練平臺
夸娥(KUAE)是摩爾線程智算中心全棧解決方案,是以全功能GPU為底座,軟硬一體化、完整的系統級算力解決方案,包括以夸娥計算集群為核心的基礎設施、夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務平臺(KUAE ModelStudio),旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。
基于對AI算力需求的深刻洞察和前瞻性布局,摩爾線程夸娥智算集群可實現從千卡至萬卡集群的無縫擴展,旨在滿足大模型時代對于算力“規模夠大+計算通用+生態兼容”的核心需求,通過整合超大規模的GPU萬卡集群、極致的計算效率優化以及高度穩定的運行環境,以萬卡智算集群的新超級工程,重新定義國產集群計算能力的新標準。
夸娥萬卡智算解決方案具備多個核心特性:
超大算力,萬卡萬P:在集群計算性能方面,全新一代夸娥智算集群實現單集群規模超萬卡,浮點運算能力達到10Exa-Flops,大幅提升單集群計算性能,能夠為萬億參數級別大模型訓練提供堅實算力基礎。同時,在GPU顯存和傳輸帶寬方面,夸娥萬卡集群達到PB級的超大顯存總容量、每秒PB級的超高速卡間互聯總帶寬和每秒PB級超高速節點互聯總帶寬,實現算力、顯存和帶寬的系統性協同優化,全面提升集群計算性能。
超高穩定,月級長穩訓練:穩定性是衡量超萬卡集群性能的關鍵。在集群穩定性方面,摩爾線程夸娥萬卡集群平均無故障運行時間超過15天,最長可實現大模型穩定訓練30天以上,周均訓練有效率在99%以上,遠超行業平均水平。這得益于摩爾線程自主研發的一系列可預測、可診斷的多級可靠機制,包括:軟硬件故障的自動定位與診斷預測實現分鐘級的故障定位,Checkpoint多級存儲機制實現內存秒級存儲和訓練任務分鐘級恢復以及高容錯高效能的萬卡集群管理平臺實現秒級納管分配與作業調度。
極致優化,超高MFU:MFU是評估大模型訓練效率的通用指標,可以直接反應端到端的集群訓練效率。夸娥萬卡集群在系統軟件、框架、算法等層面一系列優化,實現大模型的高效率訓練,MFU最高可達到60%。其中,在系統軟件層面,基于極致的計算和通訊效率優化等技術手段,大幅提升集群的執行效率和性能表現。在框架和算法層面,夸娥萬卡集群支持多種自適應混合并行策略與高效顯存優化等,可以根據應用負載選擇并自動配置最優的并行策略,大幅提升訓練效率和顯存利用。同時,針對超長序列大模型,夸娥萬卡集群通過CP并行、RingAttention等優化技術,有效縮減計算時間和顯存占用,大幅提升集群訓練效率。
全能通用,生態友好:夸娥萬卡集群是一個通用加速計算平臺,計算能力為通用場景設計,可加速LLM、MoE、多模態、Mamba等不同架構、不同模態的大模型。同時,基于高效易用的MUSA編程語言、完整兼容CUDA能力和自動化遷移工具Musify,加速新模型“Day0”級遷移,實現生態適配“Instant On”,助力客戶業務快速上線。
萬眾一芯,共建大模型應用生態
萬卡集群的建設需要產業界的齊心協力,為實現大模型創新應用的快速落地,讓國產算力“為用而建”。發布會現場,摩爾線程攜手中國移動通訊集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司(排名不分先后),分別就青海零碳產業園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目進行了戰略簽約。
借助摩爾線程先進的夸娥全棧智算解決方案,各方將攜手共建強大的全國產智算平臺,以加速產業數字化轉型和高質量發展。夸娥萬卡智算集群項目標志著國產AI算力基礎設施的又一重大進展,將為各地的數字經濟發展注入新活力。
發布會后,無問芯穹、清程極智、360、京東云、智平方等五家合作伙伴代表紛紛登臺,分享了摩爾線程夸娥智算集群如何助力其在大模型訓練、大模型推理、具身智能等不同場景和領域的創新,展現了夸娥智算集群在實際應用中的巨大潛力與廣泛適用性。
摩爾線程愿與廣大行業伙伴并肩同行,發揮全棧AI的力量,加速推動一個由萬卡智算集群為強大底座,多領域伙伴共建、廣泛賦能數字經濟的國產智算生態,共同開啟一個屬于大模型與生成式人工智能的新時代,為美好世界加速。在WAIC期間,摩爾線程將在上海世博展覽館(H2館D616)開展“全棧AI 為美好世界加速”的主題成果展示,包括加速卡、服務器、超融合一體機和AIGC應用在內的摩爾線程全棧AI產品悉數亮相,并攜手眾多行業合作伙伴聯合展示基于夸娥智算集群的豐富行業大模型與應用方案。
關于摩爾線程
摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。
我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。
-
gpu
+關注
關注
28文章
4740瀏覽量
128951 -
AI
+關注
關注
87文章
30896瀏覽量
269108 -
人工智能
+關注
關注
1791文章
47279瀏覽量
238511 -
摩爾線程
+關注
關注
2文章
200瀏覽量
4570
原文標題:萬卡萬P萬億參數通用算力!摩爾線程夸娥智算中心解決方案重磅升級
文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論