沐曦GPU跑通DeepSeek開源代碼庫FlashMLA

DeepSeek 開源周

今日，DeepSeek正式啟動"開源周"計劃，首發代碼庫FlashMLA一經開源即引發全網關注。截至發稿，該項目已在GitHub斬獲超7.2K Star!

沐曦技術團隊在FlashMLA開源后迅速響應，僅用2小時即完成與沐曦GPU的適配工作，并于當日將代碼提交至開源社區。本次適配成功后，MXMACA平臺也可完美運行FlashMLA，這充分驗證了沐曦GPGPU架構與MXMACA軟件平臺在生態兼容性方面的先天優勢!

FlashMLA通過MLA解碼優化與分頁KV緩存技術等顯著提升硬件利用率，可加速大語言模型解碼過程，有效提升響應速度與吞吐量，尤其適用于聊天機器人等實時生成場景。沐曦在適配中應用矩陣吸收算法將低秩投影融入Flash Attention 2核函數，在保證計算效率的同時顯著降低顯存占用。同步構建了MXMACA自動化測試體系覆蓋常規及邊界場景，確保功能準確性與數值穩定性，為長文本生成等顯存敏感場景提供顯著性能增益。沐曦本次提交的代碼不僅突破了官方實現中對Hopper架構的依賴，還新增支持64以外的多樣化page size配置，大幅提升框架適用性，為開源社區帶來實質性技術貢獻。

明天，DeepSeek開源計劃第二彈即將揭曉，敬請期待后續動態!

關于沐曦

沐曦致力于為異構計算提供安全可靠的GPU芯片及解決方案，打造全棧GPU芯片產品，推出曦思N系列GPU用于智算推理，曦云C系列GPU用于通用計算，以及曦彩G系列GPU用于圖形渲染，滿足“高能效”及“高通用性”的算力需求。沐曦產品均采用完全自主研發的GPU IP，擁有完全自主的指令集和架構，配以兼容主流GPU生態的完整軟件棧(MXMACA)，具備高能效和高通用性的天然優勢，能夠為客戶構建軟硬件一體的全面生態解決方案，是“雙碳”背景下推動數字經濟建設和產業數字化、智能化轉型升級的算力基石。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4841

瀏覽量
129893
開源

開源

+關注

關注
3

文章
3486

瀏覽量
43021
沐曦

沐曦

+關注

關注
0

文章
30

瀏覽量
1263
DeepSeek

DeepSeek

+關注

關注
1

文章
658

瀏覽量
501

原文標題：2小時極速適配！沐曦GPU率先跑通DeepSeek開源代碼庫FlashMLA！

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關注！文章轉載請注明出處。

沐曦加速DeepSeek滿血版單卡C500異構推理

近日，基于開源KTransformers架構的 CPU/GPU 異構推理能力，沐曦在曦云C500單卡GP

發表于 03-20 15:52 ?178次閱讀

壁仞科技支持DeepSeek-V3滿血版訓練推理

DeepSeek在開源周開源了部分關鍵模塊的代碼及推理系統參考架構，再次引發行業震動，但目前尚未開源De

發表于 03-04 14:01 ?475次閱讀

摩爾線程全面支持DeepSeek開源周成果

DeepSeek開源周正式收官，作為國內率先原生支持FP8計算精度的國產GPU企業，摩爾線程迅速響應，并在短時間內，成功實現對DeepSeek各個開

發表于 03-04 10:06 ?225次閱讀

摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe

DeepSeek開源周第四日，摩爾線程宣布已成功支持DeepSeek開源通信庫DeepEP和并行算法DualPipe，并發布相關

發表于 02-28 15:58 ?227次閱讀

摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

自DeepSeek啟動“開源周”以來，已陸續開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構，

發表于 02-27 14:40 ?324次閱讀

云天勵飛DeepEdge10適配DeepSeek開源周“首個大招”：FlashMLA

2 月 24 日，DeepSeek"開源周"正式啟動，并發布首個代碼庫FlashMLA……

發表于 02-27 11:06 ?172次閱讀

DeepSeek宣布開源DeepGEMM

DeepGEMM 是一個專為簡潔高效的 FP8 通用矩陣乘法（GEMM）設計的庫，具有細粒度縮放功能，在Deepseek開源周的第三天Deepseek正式宣布

發表于 02-26 15:33 ?715次閱讀

DeepSeek扔的第二枚開源王炸是什么，跟第一枚有何不同？強烈引發外媒熱議

與DeepEP。這兩大開源項目的發布，不僅引發了國內外媒體的廣泛關注與熱議，更在AI社區內掀起了軒然大波。 2025年2月25日，DeepSeek在開源周的第二天，正式發布了名為DeepEP的

發表于 02-26 11:10 ?516次閱讀

DeepSeek扔的第二枚開源王炸是什么

。 DeepSeek在其開源周活動中連續扔出了兩枚震撼業界的“開源王炸”--FlashMLA與DeepEP。 ? 在25日，也就是DeepSeek

發表于 02-26 11:05 ?426次閱讀

開源大模型DeepSeek的開放內容詳析

代碼、數據到模型的完全開源是人們渴求的方向。那么 DeepSeek 的開源究竟開放了什么？開放到了何種程度？本文作者——資深程序員+資深律師，一起為大家拆解

發表于 02-19 09:48 ?746次閱讀

了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

方案：微調CodeLlama-34B（基于電子工程代碼庫）。 3. 物理設計輔助 Cadence Modus （商業化工具）集成AI的PCB布局工具，可自動優化走線阻抗、散熱設計等（非開源模型，需

發表于 02-14 02:08

Gitee AI 聯合沐曦首發全套 DeepSeek R1 千問蒸餾模型，全免費體驗！

-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個較小尺寸的 DeepSeek 模型。值得關注的是，本次上線的四個模型

發表于 02-10 09:56 ?276次閱讀

深度解析deepseek開源是什么意思

Deepseek開源是指Deepseek項目的源代碼被公開，允許任何人免費查看、使用、修改和分發。

發表于 02-06 09:29 ?2819次閱讀

澎峰科技與沐曦完成聯合測試，實現全面兼容

近日，澎峰科技與沐曦科技宣布，雙方已完成對PerfXLM推理引擎、PerfXCloud大模型服務平臺與沐曦曦云系列通用計算

發表于 01-21 15:20 ?392次閱讀

澎峰科技計算軟件棧與沐曦GPU完成適配和互認證

?近期，澎峰科技與沐曦完成了對PerfXLM（推理引擎）、PerfXCloud（大模型服務平臺）與沐曦的曦云系列通用計算

發表于 01-21 09:51 ?313次閱讀

沐曦MetaX
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 沐曦基于曦云C500發布國產首臺GPU千億參數大模型訓推一體機
Hot 完成適配！曦云C500在智譜AI升級版大模型上充分兼容、高效穩定運行

New 沐曦曦云C550通用計算GPU完成DeepSeek R1-671B大模型適配
New 沐曦加速DeepSeek滿血版單卡C500異構推理

发布文章

精選推薦
更多

文章

資料

帖子

汽車BMS的ESD防護方案

晶揚電子
11分鐘前

24 閱讀

開關電源中壓敏電阻和氣體放電管的作用

發燒友研習社
31分鐘前

75 閱讀

東芝在線電路仿真器的核心優勢

東芝半導體
34分鐘前

76 閱讀

基于Verilog語言實現CRC校驗

FPGA設計論壇
48分鐘前

84 閱讀

普源精電MIPI D-PHY一致性測試方案

普源精電RIGOL
55分鐘前

85 閱讀

Mentor WG原理圖繪制教程

catdown
90 KB

免費

0下載

車載無線射頻識別系統

yezi888
878 KB

免費

160下載

建筑工程測量教材

yezi888
1.44 MB

免費

73下載

基于openharmony適配移植可從后臺動態變更頁面的組件

姚小熊27
4.52 MB

免費

4下載

Legado開源電子書閱讀器

劉偉
5.62 MB

免費

0下載

美光公司DDR，絲印4BC77 D8CJN，是什么型號

NAN6
11小時前

10 閱讀

《DNESP32S3使用指南-IDF版_V1.6》第五十八章人臉檢測實驗

jf_85110202
11小時前

97 閱讀

【幸狐Omni3576邊緣計算套件試用體驗】使用rkllm運行DeepSeek的服務模式體驗

cszzlsw
11小時前

62 閱讀

【「芯片通識課：一本書讀懂芯片技術」閱讀體驗】初識芯片樣貌

jf_87445960
1天前

640 閱讀

克拉克變換&帕克變換：電機界的“變形金剛”雙人組

李旭昂
2天前

539 閱讀

推薦專欄
更多