摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

自DeepSeek啟動“開源周”以來，已陸續開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構，可提供原生FP8計算能力，同時升級了高性能線性代數模板庫MUTLASS，快速支持了FlashMLA。不僅如此，摩爾線程還基于MUTLASS在全新GPU架構上優化實現了FP8矩陣乘法，支持DeepGEMM的相應功能，充分展示了摩爾線程MUSA架構和全功能GPU在生態兼容與快速適配上的強大優勢。

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理內核開源倉庫，旨在加速MLA機制的計算，特別適用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，為 V3/R1的訓練與推理提供強大動力。這兩個重要的開源倉庫均基于高性能通用矩陣乘法（GEMM）的C++模板庫進行開發。

摩爾線程基于新一代計算架構MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計算引擎及數據搬運引擎，能夠提供原生FP8計算能力。升級的MUTLASS高性能線性代數模板庫支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優化參考實現，包括基于FlashAttention3思想實現的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內核函數。得益于全新的Tensor計算引擎，FP8計算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅實基礎。

借助MUTLASS 0.2.0，摩爾線程發布開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進行兼容部署。同時摩爾線程MUTLASS提供了一個全新的參考實現，充分汲取FlashAttention3的先進算法思想，針對摩爾線程GPU設計了全新的計算流水線。這一設計能夠有效掩藏數據搬運的延遲和Softmax計算的開銷，充分發揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。

作為國內率先原生支持FP8計算精度的國產GPU企業，摩爾線程迅速響應，并快速適配DeepSeek的各個開源倉庫，旨在為更多GPU開發者賦能。摩爾線程始終致力于推動開源生態的發展，通過技術開放與生態共建，加速國產全功能GPU在AI計算領域的規模化應用，為更多用戶提供更智能、高效的解決方案。

關于摩爾線程

摩爾線程成立于2020年10月，以全功能GPU為核心，致力于向全球提供加速計算的基礎設施和一站式解決方案，為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業，為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4844

瀏覽量
129919
開源

開源

+關注

關注
3

文章
3492

瀏覽量
43040
摩爾線程

摩爾線程

+關注

關注
2

文章
215

瀏覽量
4844
DeepSeek

DeepSeek

+關注

關注
1

文章
680

瀏覽量
521

原文標題：原生FP8計算 + MUTLASS｜摩爾線程高效完成DeepSeek開源庫FlashMLA和DeepGEMM的適配

文章出處：【微信號：moorethreads，微信公眾號：摩爾線程】歡迎添加關注！文章轉載請注明出處。

摩爾線程全面支持DeepSeek開源周成果

DeepSeek開源周正式收官，作為國內率先原生支持FP8計算精度的國產GPU企業，摩爾線程迅速響應，并在短時間內，成功實現對DeepSeek

發表于 03-04 10:06 ?237次閱讀

摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe

DeepSeek開源周第四日，摩爾線程宣布已成功支持DeepSeek開源通信

發表于 02-28 15:58 ?247次閱讀

云天勵飛DeepEdge10適配DeepSeek開源周“首個大招”：FlashMLA

2 月 24 日，DeepSeek"開源周"正式啟動，并發布首個代碼庫FlashMLA……

發表于 02-27 11:06 ?183次閱讀

DeepSeek宣布開源DeepGEMM

DeepGEMM 是一個專為簡潔高效的 FP8 通用矩陣乘法（GEMM）設計的庫，具有細粒度縮放功能，在Deepseek開源周的第三天Deepsee

發表于 02-26 15:33 ?727次閱讀

DeepSeek扔的第二枚開源王炸是什么

。 DeepSeek在其開源周活動中連續扔出了兩枚震撼業界的“開源王炸”--FlashMLA與DeepEP。 ? 在25日，也就是DeepSeek

發表于 02-26 11:05 ?435次閱讀

沐曦GPU跑通DeepSeek開源代碼庫FlashMLA

今日，DeepSeek正式啟動"開源周"計劃，首發代碼庫FlashMLA一經開源即引發全網關注。截至發稿，該項目已在GitHub斬獲超7.2

發表于 02-25 16:25 ?482次閱讀

摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

。據悉，DeepSeek開源模型在多語言理解與復雜推理任務中一直表現出卓越的性能，其V3、R1等系列模型更是備受業界關注。而此次摩爾線程所實現的D

發表于 02-06 13:49 ?537次閱讀

摩爾線程開源高性能線性代數模板庫MUTLASS

近日，摩爾線程宣布開源高性能線性代數模板庫MUTLASS，以便開發者能夠更高效針對摩爾線程全功能

發表于 11-13 11:53 ?523次閱讀

摩爾線程完成股改，籌備上市

近日，摩爾線程智能科技（北京）股份有限公司（簡稱“摩爾線程”）宣布已完成股改，并正積極籌備上市。據國家企業信用信息公示系統最新查詢結果顯示，

發表于 11-12 14:15 ?850次閱讀

摩爾線程與超圖軟件完成產品兼容認證

10月24日，摩爾線程官方正式對外宣布，其MTT S/X系列全功能GPU已成功與超圖軟件最新發布的大模型系列產品完成產品兼容認證。這一消息的發布標志著雙方在GPU與軟件適配方面的合作取

發表于 10-24 10:25 ?717次閱讀

摩爾線程與羽人科技完成大語言模型訓練測試

近日，摩爾線程與羽人科技攜手宣布，雙方已成功實現夸娥（KUAE）千卡智算集群與羽人系列模型解決方案的訓練兼容適配。在本次測試中，羽人科技通過摩爾線程

發表于 08-27 16:19 ?657次閱讀

摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

近日，摩爾線程與北京智源人工智能研究院（簡稱：智源研究院）已順利完成基于Triton語言的高性能算子庫FlagGems的適配工作。得益于

發表于 08-02 11:06 ?1090次閱讀

摩爾線程與智譜AI完成大模型性能測試與適配

近日，摩爾線程與智譜AI在人工智能領域開展了一輪深入的合作，共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力，還涉及了基于摩爾

發表于 06-14 16:40 ?1273次閱讀

摩爾線程和滴普科技完成大模型訓練與推理適配

近日，摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥（KUAE）千卡智算集群與滴普科技的企業大模型Deepexi已完成訓練及推理

發表于 05-30 10:14 ?661次閱讀

摩爾線程千卡智算集群與滴普企業大模型已完成訓練及推理適配

近日，摩爾線程與國內領先的數據智能服務商滴普科技共同宣布，摩爾線程夸娥（KUAE）千卡智算集群與滴普企業大模型Deepexi已完成訓練及推理

發表于 05-29 10:28 ?572次閱讀

摩爾線程
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 摩爾線程MTT S系列GPU與愛特云V2.0完成適配
Hot 摩爾線程與鹽南高新區、東華軟件達成戰略合作，共拓長三角算力產業發展機遇

New 摩爾線程發布圖形顯卡驅動v290.100.1
New 摩爾線程與當虹科技達成深度合作

精選推薦
更多

文章

資料

帖子

安森美SiC JFET共源共柵結構詳解

安森美
11小時前

234 閱讀

YXC低抖動HCSL差分晶振助力PCIE 5.0

揚興科技
12小時前

234 閱讀

SiC MOSFET的動態特性

三菱電機半導體
12小時前

212 閱讀

基于小華HC32F334的兩路交錯無橋圖騰柱TCM PFC參考設計

小華半導體有限公司
16小時前

286 閱讀

芯對話 | “魚與熊掌”兼得，小尺寸+高速=芯佰微CBM14AD125Q

芯佰微電子
18小時前

406 閱讀

iec標準與gb標準對照表

遠風
165

10積分

66下載

傳感器技術總覽

李艷
964

10積分

441下載

Xilinx UltraScale架構打造高性能智能系統（EN）

Kelly Yang
704.0 KB

免費

55下載

Ringdroid Android音頻工具

灑下墨色
0.42 MB

2積分

1下載

高效快速響應，1A，28V輸入同步降壓調節器YS1601數據手冊

楊豐奎
0.48 MB

2積分

0下載

ADS8699芯片參考電壓引腳輸出電壓不正常

啃胡蘿卜第一名
1天前

311 閱讀

【積分免費】數字電子仿真實驗從入門到精通！附SD01~SD09完整資料

yuu_cool
1天前

160 閱讀

單片機ST控制lan8651的示例

感謝相遇
1天前

564 閱讀

5V供電的STC單片機串口引腳（TX/RX）接到快充適配器的D+/D-上面后，導致快充適配器輸出9V電壓，這是什么原因導致的？

hty345
1天前

510 閱讀

怎么利用電路現這種臺階式波形

Bob_60250730
1天前

497 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

評論

摩爾線程全面支持DeepSeek開源周成果

摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe

云天勵飛DeepEdge10適配DeepSeek開源周“首個大招”：FlashMLA

DeepSeek宣布開源DeepGEMM

DeepSeek扔的第二枚開源王炸是什么

沐曦GPU跑通DeepSeek開源代碼庫FlashMLA

摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

摩爾線程開源高性能線性代數模板庫MUTLASS

摩爾線程完成股改，籌備上市

摩爾線程與超圖軟件完成產品兼容認證

摩爾線程與羽人科技完成大語言模型訓練測試

摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配

摩爾線程與智譜AI完成大模型性能測試與適配

摩爾線程和滴普科技完成大模型訓練與推理適配

摩爾線程千卡智算集群與滴普企業大模型已完成訓練及推理適配