在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解析DeepSeek MoE并行計算優化策略

奇異摩爾 ? 來源:奇異摩爾 ? 2025-02-07 09:20 ? 次閱讀

本期Kiwi Talks將從集群Scale Up互聯的需求出發,解析DeepSeek在張量并行及MoE專家并行方面采用的優化策略。DeepSeek大模型的工程優化以及國產AI 產業鏈的開源與快速部署預示著國產AI網絡自主自控將大有可為。

DeepSeekMoE架構融合了專家混合系統(MoE)、多頭注意力機制(Multi-Head Latent Attention, MLA)和RMSNorm三個核心組件。通過專家共享機制、動態路由算法等緩存技術,該模型在保持性能水平的同時,實現了相較傳統MoE模型40%的計算開銷降低。該技術在模型規模與計算效率之間找到了新的平衡點,其在降低計算成本的同時保持了領先的性能水平,為大規模AI系統的可持續發展提供了新的思路。

92903a80-e46a-11ef-9310-92fbcf53809c.png

(來源:DeepSeek-V3 Technical Report) Scale Up互聯源頭:張量并行與專家并行

Scale Up互聯需求源頭:張量并行與專家并行

在大規模 AI 訓練中,GPU 通常使用各種并行技術協同工作。其中張量并行是指將大型張量分散到多個 GPU 上進行計算,這種技術對互聯帶寬和時延特別敏感。

92b7e67a-e46a-11ef-9310-92fbcf53809c.png

(來源:Semi analysis) 簡單來說,張量是人工智能模型中用來表示輸入、權重和中間計算的基本數據結構。在訓練大型 AI 模型時,這些張量可能會變得非常龐大,以至于無法放入單個 GPU 的內存中。為了解決這個問題,張量被拆分到多個 GPU 上,每個 GPU 處理一部分張量。這種劃分允許模型跨多個 GPU 擴展,從而能夠訓練比原本更大的模型。然而,分割張量需要 GPU 之間頻繁通信以同步計算并共享結果。這時互聯速度就變得至關重要。

92d30446-e46a-11ef-9310-92fbcf53809c.png

(來源:Deepgram.com)

另一方面,MoE模型本身適合大規模、復雜任務、計算效率要求高且訓練復雜程度高。DeepSeek MoE多模態模型涉及專家并行,它將復雜的模型分解為多個專家模型,并在這些專家模型之間進行并行計算。在專家并行中,不同GPU負責不同的專家模型,同時Attention模塊在每個GPU上復制,由于每個專家模型需要單獨加載數據,因此對每個token施加了額外的內存帶寬需求。此外專家并行需要網絡支持高并發、有效的負載均衡機制以及故障容錯性等一系列復雜需求。

因此在Scale-up網絡中,張量并行和專家并行的策略對于大模型訓推的效率至關重要,也是AI網絡互聯網絡帶寬(TB級)和極低時延需求的源頭。

H800 中 NVLink 帶寬的降低會減慢此階段 GPU 之間的通信速度,從而導致延遲增加并降低整體訓練效率。在涉及具有數十億個參數的大型模型的場景中,這種瓶頸變得更加明顯,因為 GPU 之間需要頻繁通信來同步張量并行和專家并行。

在并行策略上,DeepSeek-V3使用64路的專家并行,16路的流水線并行,以及數據并行(ZeRO1)。其中,專家并行會引入all-to-all通信,由于每個token會激活8個專家,這導致跨節點的all-to-all通信開銷成為主要的系統瓶頸。

那么DeepSeek是如何通過算法工程優化來解決這些瓶頸并提升大模型訓推效率?

DeepSeek V3集群互聯框架概述

從DeepSeek公開的論文中數據來看: Scale Inside單個芯片使用英偉達H800,共計2048張計算卡。集群組網使用Infiniband網絡,Scale Up每個節點內通過NVLink互聯。GPU之間的帶寬是160GB,節點之間的帶寬是50GB。Scale Out網絡據推測,每個節點包含8個400Gb/s的智能網卡(H100/H800 上后向網絡通常都會采用 400 Gb/s網卡)。

路由優化策略降低TP開銷

在其公布的V3技術論文中所提及網絡集群中路由的優化策略:跨節點 GPU 與 IB 完全互連,節點內通信通過 NVLink 處理。NVLink 提供 160 GB/s 帶寬,大約是 IB(50 GB/s)的 3.2倍。為了有效利用IB和NVlink的帶寬差異,DeepSeek限制每個token最多分派到4個GPU節點,從而限制IB網絡的傳輸流量。當網絡路由決策確定后,它將首先通過IB傳輸到目標節點上具有相同節點內索引的GPU。一旦到達目標節點,努力確保它通過NVLink瞬時轉發到托管其目標專家的特定GPU,而不被隨后到達的token阻塞。這樣,通過IB和NVLink的通信完全重疊,每個token可以高效地在每個節點上選擇平均3.2個專家,而不會產生來自NVLink的額外開銷。這意味著,盡管DeepSeek-V3在實際中只選擇8個路由專家,但它可以將其數量擴大到最多13個專家(4個節點×每個節點3.2個專家),同時保持相同的通信成本。

92ed9022-e46a-11ef-9310-92fbcf53809c.png

(來源:公眾號AI閑談)

這樣做是因為高性能 GPU 訓練集群往往會采用軌道優化,同號 GPU 在一個 Leaf Switch 下,如上圖所示,因此可以利用高速的 NVLink 來代替從 Leaf Switch 到 Spine Switch 的流量,從而降低 IB 通信時延,并且減少 Leaf Switch 和 Spine Switch 之間的流量。總體而言,在這種通信策略下,僅20個SM就足以充分利用IB和NVLink的帶寬,這種路由的優化策略達到了減少張量并行通信開銷的目的。

FP8與冗余專家技術減少MoE內存與通信開銷

92f9d792-e46a-11ef-9310-92fbcf53809c.png

(來源:DeepSeek-V3 Technical Report)

為了進一步減少MoE訓練中的內存和通信開銷,DeepSeek在FP8中緩存和分發激活值,同時以BF16存儲低精度優化器狀態。在兩個與DeepSeek-V2-Lite和DeepSeek-V2相似規模的模型上驗證了提出的FP8混合精度框架,訓練了大約1萬億個Token。這一設計理論上使計算速度較原 BF16 方法提升一倍。此外,FP8 Wgrad GEMM 允許激活值以 FP8 存儲,供 Backward 使用,從而顯著降低內存消耗。

93088436-e46a-11ef-9310-92fbcf53809c.png

(來源:DeepSeek-V3 Technical Report)

為了在MoE部分的不同專家間實現負載均衡,需要確保每個GPU處理大概相同數量的Token。DeepSeek MoE引入了冗余專家部署策略,對高負載專家并行進行復制并冗余部署。根據在線服務中的專家負載統計信息,在一定間隔內定期確定冗余專家集,通過探索解碼階段的動態冗余策略優化各GPU負載,減少all-to-all通信開銷。在實際處理大規模文本生成任務時,DeepSeek MoE可以通過動態分配專家資源,實現高效的文本生成,而不需要像傳統模型那樣進行大規模的全模型計算。

DeepSeek MLA KV Cache壓縮優化

Multi-Head Latent Attention (MLA) 是 DeepSeek-V3 模型中用于高效推理的核心注意力機制。MLA 通過低秩聯合壓縮技術,減少了推理時的鍵值(KV)緩存,從而在保持性能的同時顯著降低了內存占用。這類創新技術一方面減少了KV緩存的需求,加快了數據訪問速度,從而全面提升了模型的推理速度。

KV緩存技術注解:

大語言模型通常是通常自回歸的方式產生輸出序列,后序生成的詞塊依賴與前序的所有詞塊,這些詞塊包括輸入的詞塊以及前面已經生成的詞塊。因此隨著輸出序列的增長,推理過程的開銷顯著增大。為了解決上述問題,KV Cache的技術被提出,該技術通過存儲和復用前序Token產生的Key值和Value值,極大減少了計算上的冗余,用存儲開銷換取顯著的加速效果,但同時增加的存儲開銷和帶寬需求也對AI Data Center的設計提出了挑戰。

國產AI網絡自主自控未來可期

DeepSeek 模型的成功預示著AI大模型系統驗證了新的Scaling Law,AI能力邊界將引來新一輪的擴張。在全球地緣政治日趨復雜的背景下,構建國產算力閉環系統已成為當務之急。然而,算力芯片始終是大模型系統算力的堅實基石。 DeepSeek憑借其開源和低成本的優勢,將顯著提升國產GPU在推理任務中的性價比和ROI。近期,眾多GPU廠商和云服務提供商紛紛宣布已完成與DeepSeek的適配部署,為國產AI產業的蓬勃發展注入了強勁動力。

目前,Scale Up網絡受限于PCIe總線的速率,僅支持傳統的八卡GPU互聯。而基于私有協議的GPU超帶寬域,由于缺乏成熟的生態產業鏈支持,難以實現大規模集群的高性能互聯。DeepSeek模型的出現,預示著國產芯片將在其引領的AI大模型新紀元中迎來廣泛機遇。

在這一背景下,作為助力國產GPU 實現自主自控的參與者,奇異摩爾自研的網絡加速芯粒GPU Link Chiplet——NDSA-G2G,以其極高的靈活性和可擴展性為Scale-up互聯生態提供了強有力的支撐。NDSA -G2G以IO Chiplet芯粒形式集成在GPU加速卡內,并利用UCIe D2D接口與GPU互聯,NDSA-G2G能夠實現高性能的數據流,從而全面加速分布式計算網絡,最終實現TB級別的GPU互聯。

奇異摩爾作為國產AI網絡生態鏈的一份子,將持續與大模型廠商、運營商/云廠商及國產GPU廠商共同探索AI系統的優化潛力,持續推動生態適配工作,為國產AI早日實現算力閉環、邁向自主自控新紀元貢獻堅實力量。

關于我們

AI網絡全棧式互聯架構產品及解決方案提供商

奇異摩爾,成立于2021年初,是一家行業領先的AI網絡全棧式互聯產品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創新性地構建了統一互聯架構——Kiwi Fabric,專為超大規模AI計算平臺量身打造,以滿足其對高性能互聯的嚴苛需求。我們的產品線豐富而全面,涵蓋了面向不同層次互聯需求的關鍵產品,如面向北向Scale out網絡的AI原生智能網卡、面向南向Scale up網絡的GPU片間互聯芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產品共同構成了全鏈路互聯解決方案,為AI計算提供了堅實的支撐。

奇異摩爾的核心團隊匯聚了來自全球半導體行業巨頭如NXPIntel、Broadcom等公司的精英,他們憑借豐富的AI互聯產品研發和管理經驗,致力于推動技術創新和業務發展。團隊擁有超過50個高性能網絡及Chiplet量產項目的經驗,為公司的產品和服務提供了強有力的技術保障。我們的使命是支持一個更具創造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創新為驅動力,技術探索新場景,生態構建新的半導體格局,為高性能AI計算奠定穩固的基石。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 并行計算
    +關注

    關注

    0

    文章

    28

    瀏覽量

    9496
  • 大模型
    +關注

    關注

    2

    文章

    2824

    瀏覽量

    3470
  • DeepSeek
    +關注

    關注

    1

    文章

    656

    瀏覽量

    501

原文標題:Kiwi Talks | 解析DeepSeek MoE并行計算優化策略 國產AI網絡自主自控大有可為

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    arm系統中并行計算優化

    fpga的硬件換成我們自己的arm設備。不過經過研究這種設想不可行。個人看法,也許不對哦。!!!!arm是一款多核心,單進程處理器,目前為止arm處理器都不支持多線程。所以多線程概念不能將并行計算優化
    發表于 12-30 14:33

    什么是異構并行計算

    先了解什么是異構并行計算同構計算是使用相同類型指令集和體系架構的計算單元組成系統的計算方式。而異構計算主要是指使用不同類型指令集和體系架構的
    發表于 07-19 08:27

    可擴展并行計算技術、結構與編程

    可擴展并行計算技術、結構與編程
    發表于 03-25 16:43 ?61次下載

    區域分解對氣象模式并行計算速度的影響

    通過數值試驗分析了區域分解策略對ARPS 氣象模式并行計算速度的影響,發現無論是否使用編譯優化技術,均以分解后數據區域近似為正方形時具有最大的加速比和并行效率。在
    發表于 04-16 11:30 ?6次下載

    THE MATHWORKS推出新版并行計算工具箱

    THE MATHWORKS推出新版并行計算工具箱 The MathWorks 近日宣布推出新版 Parallel Computing Toolbox(并行計算工具箱),該版本提供了改進的分布式數組,可以讓 MATLAB 用戶直接訪
    發表于 11-25 09:17 ?1141次閱讀

    并行計算和嵌入式系統實踐教程

    Linux微機應用十分普遍. 高性能并行計算機數量多. 并行計算,我國有自己的理論. 對并行計算的基本原理,算法,程序設計與實現,優化,成熟軟件應用的推廣不夠. 制約
    發表于 05-09 15:54 ?48次下載

    并行計算和分布式計算的區別和聯系

    并行計算或稱平行計算是相對于串行計算來說的。所謂并行計算可分為時間上的并行和空間上的并行。 時間
    發表于 12-08 09:59 ?3.7w次閱讀

    基于Matlab和GPU的BESO方法的全流程并行計算策略

    針對傳統并行計算方法實現結構拓撲優化快速計算的硬件成本高、程序開發效率低的問題,提出了一種基于Matlab和圖形處理器(GPU)的雙向漸進結構優化(BESO)方法的全流程
    發表于 12-21 15:04 ?2次下載
    基于Matlab和GPU的BESO方法的全流程<b class='flag-5'>并行計算</b><b class='flag-5'>策略</b>

    基于異構并行計算的兩個子概念異構和并行的簡單分析

    異構并行計算包含兩個子概念:異構和并行。 1異構是指異構并行計算需要同時處理多個不同架構的計算平臺的問題。 2并行是指異構
    的頭像 發表于 01-25 16:37 ?6717次閱讀
    基于異構<b class='flag-5'>并行計算</b>的兩個子概念異構和<b class='flag-5'>并行</b>的簡單分析

    基于云計算的電磁問題并行計算方法

    針對電工裝備性能分析與優化所需的易用高性能計算問題,使用云計算技術搭建了彈性集群,實現了典型電磁問題在彈性集群中的并行計算。使用虛擬化技術將計算
    發表于 03-20 13:56 ?1次下載
    基于云<b class='flag-5'>計算</b>的電磁問題<b class='flag-5'>并行計算</b>方法

    C編程的并行計算詳細資料說明

    在過去的幾十年間,人們對并行計算產生了越來越多的興趣。并行計算的主要目標是提高運算速度。從純粹的計算視角來看,并行計算可以被定義為計算的一種
    發表于 08-02 17:34 ?2次下載
    C編程的<b class='flag-5'>并行計算</b>詳細資料說明

    CUDA的異構并行計算詳細資料介紹

    從程序員的角度來說,一個很自然的疑問,就是如何將并發計算映射到計算機上。假設你有許多計算資源,并行計算可以被定義為同時使用許多計算資源(核心
    發表于 07-04 17:41 ?0次下載
    CUDA的異構<b class='flag-5'>并行計算</b>詳細資料介紹

    并行計算的黃金時代到了?

    “未來幾十年將進入并行計算黃金時代,并行計算軟件和算法的開發將從技術驅動轉向應用驅動,需要計算與應用等不同領域的專家共同合作開發。”中國工程院院士李國杰日前表示。
    的頭像 發表于 04-03 17:18 ?2366次閱讀

    淺析云計算并行計算

    并行計算可以劃分成時間并行和空間并行。時間并行即流水線技術,空間并行使用多個處理器執行并發計算
    的頭像 發表于 05-03 12:01 ?4795次閱讀
    淺析云<b class='flag-5'>計算</b>和<b class='flag-5'>并行計算</b>

    xgboost的并行計算原理

    在大數據時代,機器學習算法需要處理的數據量日益增長。為了提高數據處理的效率,許多算法都開始支持并行計算。XGBoost作為一種高效的梯度提升樹算法,其并行計算能力是其受歡迎的原因
    的頭像 發表于 01-19 11:17 ?582次閱讀
    主站蜘蛛池模板: 钻石午夜影院 | 8x8x极品国产在线 | www.亚洲日本| 99热久久久久久久免费观看 | 午夜小视频免费观看 | 偷偷操不一样的久久 | 青草青视频在线观看 | 欧美日韩一区二区视频图片 | 亚洲国产一区二区三区在线观看 | 国产精品第一页在线观看 | 久久777国产线看观看精品卜 | 亚洲3级| 色综合天天综久久久噜噜噜久久〔 | 好紧好爽的午夜寂寞视频 | 四虎海外在线永久免费看 | 久久精品免费看 | 久久人人青草97香蕉 | 亚洲国产精品丝袜在线观看 | 在线天堂中文新版www | 三级欧美视频 | 又黄又湿又爽 | 一级毛片在播放免费 | 日本www高清 | 牛仔裤美女国产精品毛片 | 视频免费在线 | bt天堂中文在线 | 亚洲精品色一区色二区色三区 | 在线观看不卡一区 | 亚洲欧美一区二区三区四区 | 四虎影院色 | 亚洲香蕉久久一区二区三区四区 | 色多多视频成人影院 | 狠狠色狠狠色综合 | 成人永久免费视频 | 97色噜噜 | 在线观看免费观看 | 九九精品国产兔费观看久久 | 67pao强力打造高清免费 | 国产精品推荐天天看天天爽 | 爱我免费视频观看在线www | 神马电影天堂网 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品