DeepGEMM 是一個專為簡潔高效的 FP8 通用矩陣乘法(GEMM)設計的庫,具有細粒度縮放功能,在Deepseek開源周的第三天Deepseek正式宣布開源DeepGEMM。
據悉GEMMs同時支持普通的和專家混合(MoE)分組的GEMM運算。而且代碼庫非常簡潔,只有一個核心內核函數,代碼量約為300行。DeepGEMM采用CUDA編寫,這使得DeepGEMM在安裝過程中無需編譯,通過在運行時使用輕量級即時編譯模塊來編譯所有內核。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
DeepSeek
+關注
關注
1文章
659瀏覽量
501
發布評論請先 登錄
相關推薦
【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試
、RKLLM 庫、編譯和運行、效果演示等。
簡介
介紹了板端部署的 DeepSeek 模型及其部署方案。
DeepSeek
DeepSeek 是由杭州深度求索公司自主研發的高性能大語言模型,以其
發表于 03-21 19:31
晶振:DeepSeek背后的“隱形基石”
2025年初,AI領域迎來了一場顛覆性的變革,DeepSeek以其卓越的性能和開放的模式,引起了全球的關注,DeepSeek以其與OpenAI相當的技術性能、較低的訓練成本和開源特性,迅速在市場上

摩爾線程全面支持DeepSeek開源周成果
DeepSeek開源周正式收官,作為國內率先原生支持FP8計算精度的國產GPU企業,摩爾線程迅速響應,并在短時間內,成功實現對DeepSeek各個開源項目的全面支持,涵蓋FlashML
摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe
DeepSeek開源周第四日,摩爾線程宣布已成功支持DeepSeek開源通信庫DeepEP和并行算法DualPipe,并發布相關
摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配
自DeepSeek啟動“開源周”以來,已陸續開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構,可提供原生FP8計算能力,同時升級了高性能線性代數模板庫
沐曦GPU跑通DeepSeek開源代碼庫FlashMLA
今日,DeepSeek正式啟動"開源周"計劃,首發代碼庫FlashMLA一經開源即引發全網關注。截至發稿,該項目已在GitHub斬獲超7.2K Star!
鴻蒙原生應用開發也可以使用DeepSeek了
近期DeepSeek火爆全球,那一樣很火的開發鴻蒙原生應用的DevEco Studio如果把它接入,會發生什么“化學反應”呢?下面我們將詳細分享如何在DevEco Studio中利用CodeGPT
發表于 02-20 18:06
開源大模型DeepSeek的開放內容詳析
當大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關鍵詞之一,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型開源一

了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇
DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的兩個不同定位的大模型,其核心差異主要體現在目標場景、能力側重和技術優化方向上。以下是二者的實質性
發表于 02-14 02:08
deepseek國產芯片加速 DeepSeek的國產AI芯片天團
,從而紛紛繼續“卷”起來,效仿DeepSeek的“開源”模式。 對于DeepSeek本身,人們關注其如何在有限算力實現強大性能,更關注其在重重條令圍城之下的未來之路。而在最近,全世界的芯片廠商集體出動,紛紛

摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務
近日,摩爾線程智能科技(北京)有限責任公司在其官方渠道發布了一則重要消息,宣布公司已經成功實現了對DeepSeek蒸餾模型推理服務的部署。這一技術突破,標志著摩爾線程在人工智能領域邁出了堅實的一步
評論