DeepSeek 開源周
今日,DeepSeek正式啟動"開源周"計劃,首發代碼庫FlashMLA一經開源即引發全網關注。截至發稿,該項目已在GitHub斬獲超7.2K Star!
沐曦技術團隊在FlashMLA開源后迅速響應,僅用2小時即完成與沐曦GPU的適配工作,并于當日將代碼提交至開源社區。本次適配成功后,MXMACA平臺也可完美運行FlashMLA,這充分驗證了沐曦GPGPU架構與MXMACA軟件平臺在生態兼容性方面的先天優勢!
FlashMLA通過MLA解碼優化與分頁KV緩存技術等顯著提升硬件利用率,可加速大語言模型解碼過程,有效提升響應速度與吞吐量,尤其適用于聊天機器人等實時生成場景。沐曦在適配中應用矩陣吸收算法將低秩投影融入Flash Attention 2核函數,在保證計算效率的同時顯著降低顯存占用。同步構建了MXMACA自動化測試體系覆蓋常規及邊界場景,確保功能準確性與數值穩定性,為長文本生成等顯存敏感場景提供顯著性能增益。沐曦本次提交的代碼不僅突破了官方實現中對Hopper架構的依賴,還新增支持64以外的多樣化page size配置,大幅提升框架適用性,為開源社區帶來實質性技術貢獻。
明天,DeepSeek開源計劃第二彈即將揭曉,敬請期待后續動態!
關于沐曦
沐曦致力于為異構計算提供安全可靠的GPU芯片及解決方案,打造全棧GPU芯片產品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用計算,以及曦彩G系列GPU用于圖形渲染,滿足“高能效”及“高通用性”的算力需求。沐曦產品均采用完全自主研發的GPU IP,擁有完全自主的指令集和架構,配以兼容主流GPU生態的完整軟件棧(MXMACA),具備高能效和高通用性的天然優勢,能夠為客戶構建軟硬件一體的全面生態解決方案,是“雙碳”背景下推動數字經濟建設和產業數字化、智能化轉型升級的算力基石。
-
gpu
+關注
關注
28文章
4841瀏覽量
129893 -
開源
+關注
關注
3文章
3486瀏覽量
43021 -
沐曦
+關注
關注
0文章
30瀏覽量
1263 -
DeepSeek
+關注
關注
1文章
658瀏覽量
501
原文標題:2小時極速適配!沐曦GPU率先跑通DeepSeek開源代碼庫FlashMLA!
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
沐曦加速DeepSeek滿血版單卡C500異構推理
壁仞科技支持DeepSeek-V3滿血版訓練推理
摩爾線程全面支持DeepSeek開源周成果
摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe
摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配
DeepSeek宣布開源DeepGEMM
DeepSeek扔的第二枚開源王炸是什么,跟第一枚有何不同?強烈引發外媒熱議

了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇
Gitee AI 聯合沐曦首發全套 DeepSeek R1 千問蒸餾模型,全免費體驗!

評論