魔天记忘语小说,天蚕土豆,完结小说排行榜

近日，基于開源KTransformers架構的 CPU/GPU 異構推理能力，沐曦在曦云C500單卡GPU上成功實現DeepSeek-R1-671B滿血版單并發解碼吞吐16.5 tokens/s的優異成績，相比社區官方數據提升20%以上。

相比國際高端GPU八卡滿血版部署方案，本項目在單并發性能上具有極高的性價比。

KTransformers項目介紹

KTransformers （https://github.com/kvcache-ai/ktransformers）是由清華大學 KVCache.AI 團隊聯合趨境科技開源的一套輕量化高性能模型推理框架，能夠在計算資源受限的場景下，通過 CPU/GPU 異構推理的方式更快速、更高效地實現大模型的本地推理。KTransformers旨在作為一個開放的平臺，用于試驗創新的大型語言模型（LLM）推理優化方案。同時，KTransformers也計劃演進成本地化中小并發場景下針對稀疏MoE模型最具性價比的開源推理引擎，以及成為一個算子級優化的集成實驗平臺。沐曦正在做的工作非常符合開源社區和KTransformers開源項目的發展。

開源合作內容介紹

沐曦和KVCache.AI團隊合作，通過對KTransformers模型框架進行細致的分析和調整，團隊成功達成了曦云C500與KTransformers的無縫對接，為進一步性能優化奠定了堅實的基礎。

完成基本功能適配后，沐曦研發團隊繼續對整個框架進行了優化。在深入研究了DeepSeek R1滿血版模型的計算特點和性能瓶頸，結合曦云C500的優勢，采用了一系列先進的技術和算法，詳細如下：

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能；

2加入了GPU fused MoE功能，該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運算能力，提升推理性能；

3配合自動/手工算子融合技術，高效的FP16/BF16精度Marlin算子（W4A16），以及經過深度優化的mcBLAS、PyTorch庫、FlashInfer庫。

此次合作不僅為KTransformers帶來了性能上的提升，更體現了開源共創的價值：不同的團隊和開發者通過資源共享、經驗交流，共同推動技術的進步。沐曦和清華大學KVCache.AI團隊的合作就是很好的例子，通過開源倉庫匯聚了各自的優勢，實現了技術上的突破，也為后續持續在開源社區推理優化提供了合作基礎。

通過開源社區的共同努力，KTransformers將不斷提升其性能和功能，為更多的用戶提供優質的服務。同時，這也將促進整個人工智能行業的發展，推動技術的不斷創新。單卡打開DeepSeek R1滿血版并不斷地提升性能只是一個開始，在開源共創的道路上，我們將迎來更多的驚喜和突破，共同開創國產算力生態和人工智能的無限未來。

關于沐曦

沐曦致力于為異構計算提供安全可靠的GPU芯片及解決方案，打造全棧GPU芯片產品，推出曦思N系列GPU用于智算推理，曦云C系列GPU用于通用計算，以及曦彩G系列GPU用于圖形渲染，滿足“高能效”及“高通用性”的算力需求。沐曦產品均采用完全自主研發的GPU IP，擁有完全自主的指令集和架構，配以兼容主流GPU生態的完整軟件棧（MXMACA），具備高能效和高通用性的天然優勢，能夠為客戶構建軟硬件一體的全面生態解決方案，是“雙碳”背景下推動數字經濟建設和產業數字化、智能化轉型升級的算力基石。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4844

瀏覽量
129922
開源

開源

+關注

關注
3

文章
3492

瀏覽量
43041
沐曦

沐曦

+關注

關注
0

文章
30

瀏覽量
1267
DeepSeek

DeepSeek

+關注

關注
1

文章
680

瀏覽量
521

原文標題：開源賦能：沐曦聯合清華大學KVCache.AI團隊加速DeepSeek滿血版單卡C500異構推理

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

沐曦加速DeepSeek滿血版單卡C500異構推理

評論

聆思CSK6大模型語音開發板接入DeepSeek資料匯總（包含深度求索/火山引擎/硅基流動華為昇騰滿血版）

在采用異構模式推理時，如何檢查每層使用的設備是什么？

壁仞科技支持DeepSeek-V3滿血版訓練推理

RK3588開發板上部署DeepSeek-R1大模型的完整指南

沐曦GPU跑通DeepSeek開源代碼庫FlashMLA

Infinix AI接入DeepSeek-R1滿血版

省內領先!南京率先引入DeepSeek滿血版

黑芝麻智能芯片加速DeepSeek模型推理

探討DeepSeek-R1滿血版的推理部署與優化策略

了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

Gitee AI 聯合沐曦首發全套 DeepSeek R1 千問蒸餾模型，全免費體驗！

DeepSeek-R1全尺寸版本上線Gitee AI

摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

澎峰科技與沐曦完成聯合測試，實現全面兼容

澎峰科技計算軟件棧與沐曦GPU完成適配和互認證

電子發燒友