在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

沐曦加速DeepSeek滿血版單卡C500異構推理

沐曦MetaX ? 來源:沐曦MetaX ? 2025-03-20 15:52 ? 次閱讀

近日,基于開源KTransformers架構的 CPU/GPU 異構推理能力,沐曦在曦云C500單卡GPU上成功實現DeepSeek-R1-671B滿血版單并發解碼吞吐16.5 tokens/s的優異成績,相比社區官方數據提升20%以上。

相比國際高端GPU八卡滿血版部署方案,本項目在單并發性能上具有極高的性價比。

KTransformers項目介紹

KTransformers (https://github.com/kvcache-ai/ktransformers)是由清華大學 KVCache.AI 團隊聯合趨境科技開源的一套輕量化高性能模型推理框架,能夠在計算資源受限的場景下,通過 CPU/GPU 異構推理的方式更快速、更高效地實現大模型的本地推理。KTransformers旨在作為一個開放的平臺,用于試驗創新的大型語言模型(LLM)推理優化方案。同時,KTransformers也計劃演進成本地化中小并發場景下針對稀疏MoE模型最具性價比的開源推理引擎,以及成為一個算子級優化的集成實驗平臺。沐曦正在做的工作非常符合開源社區和KTransformers開源項目的發展。

開源合作內容介紹

沐曦和KVCache.AI團隊合作,通過對KTransformers模型框架進行細致的分析和調整,團隊成功達成了曦云C500與KTransformers的無縫對接,為進一步性能優化奠定了堅實的基礎。

完成基本功能適配后,沐曦研發團隊繼續對整個框架進行了優化。在深入研究了DeepSeek R1滿血版模型的計算特點和性能瓶頸,結合曦云C500的優勢,采用了一系列先進的技術和算法,詳細如下:

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能;

2加入了GPU fused MoE功能,該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運算能力,提升推理性能;

3配合自動/手工算子融合技術,高效的FP16/BF16精度Marlin算子(W4A16),以及經過深度優化的mcBLAS、PyTorch庫、FlashInfer庫。

此次合作不僅為KTransformers帶來了性能上的提升,更體現了開源共創的價值:不同的團隊和開發者通過資源共享、經驗交流,共同推動技術的進步。沐曦和清華大學KVCache.AI團隊的合作就是很好的例子,通過開源倉庫匯聚了各自的優勢,實現了技術上的突破,也為后續持續在開源社區推理優化提供了合作基礎。

通過開源社區的共同努力,KTransformers將不斷提升其性能和功能,為更多的用戶提供優質的服務。同時,這也將促進整個人工智能行業的發展,推動技術的不斷創新。單卡打開DeepSeek R1滿血版并不斷地提升性能只是一個開始,在開源共創的道路上,我們將迎來更多的驚喜和突破,共同開創國產算力生態和人工智能的無限未來。

關于沐曦

沐曦致力于為異構計算提供安全可靠的GPU芯片及解決方案,打造全棧GPU芯片產品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用計算,以及曦彩G系列GPU用于圖形渲染,滿足“高能效”及“高通用性”的算力需求。沐曦產品均采用完全自主研發的GPU IP,擁有完全自主的指令集和架構,配以兼容主流GPU生態的完整軟件棧(MXMACA),具備高能效和高通用性的天然優勢,能夠為客戶構建軟硬件一體的全面生態解決方案,是“雙碳”背景下推動數字經濟建設和產業數字化、智能化轉型升級的算力基石。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4844

    瀏覽量

    129922
  • 開源
    +關注

    關注

    3

    文章

    3492

    瀏覽量

    43041
  • 沐曦
    +關注

    關注

    0

    文章

    30

    瀏覽量

    1267
  • DeepSeek
    +關注

    關注

    1

    文章

    680

    瀏覽量

    521

原文標題:開源賦能:沐曦聯合清華大學KVCache.AI團隊加速DeepSeek滿血版單卡C500異構推理

文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    聆思CSK6大模型語音開發板接入DeepSeek資料匯總(包含深度求索/火山引擎/硅基流動華為昇騰滿血版)

    deepseek-r1-250120 可選擇,若要更換其他模型,可自行添加。調用其他模型可參考DeepSeek官方文檔 Doubao API 調用指南--火山方舟大模型服務平臺-火山引擎 自定義推理點模型名字要通過設置
    發表于 03-06 17:02

    在采用異構模式推理時,如何檢查每層使用的設備是什么?

    異構模式推理時,無法檢查每層使用的設備是什么
    發表于 03-06 06:49

    壁仞科技支持DeepSeek-V3滿血版訓練推理

    DeepSeek在開源周開源了部分關鍵模塊的代碼及推理系統參考架構,再次引發行業震動,但目前尚未開源DeepSeek-V3 滿血版完整訓練代碼。壁仞科技憑借八大自主創新技術,實現
    的頭像 發表于 03-04 14:01 ?498次閱讀

    RK3588開發板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作為國產AI大數據模型的代表,憑借其卓越的推理能力和高效的文本生成技術,在全球人工智能領域引發廣泛關注。DeepSeek-R1作為該系列最新迭代版本,實現了長文本處理效能躍遷、多模態
    發表于 02-27 16:45

    GPU跑通DeepSeek開源代碼庫FlashMLA

    今日,DeepSeek正式啟動"開源周"計劃,首發代碼庫FlashMLA一經開源即引發全網關注。截至發稿,該項目已在GitHub斬獲超7.2K Star!
    的頭像 發表于 02-25 16:25 ?483次閱讀

    Infinix AI接入DeepSeek-R1滿血

    傳音控股旗下Infinix品牌正式宣布接入DeepSeek-R1滿血版,2月26日起支持XOS 14.5及以上版本的Infinix機型可通過升級使用,3月份將發布的全新NOTE系列也將接入DeepSeek-R1,開啟“Infin
    的頭像 發表于 02-21 16:08 ?295次閱讀

    省內領先!南京率先引入DeepSeek滿血

    近期 “國民級AI”DeepSeek 正憑借低成本高性能的優勢 激發一波新的創新浪潮 2025年2月14日,南京市數據局在南京市政務云的華為昇騰 910B虛擬化AI算力資源池內,成功部署上線滿血
    的頭像 發表于 02-19 13:55 ?450次閱讀
    省內領先!南京率先引入<b class='flag-5'>DeepSeek</b><b class='flag-5'>滿血</b>版

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武當C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也將全面支持基于DeepSeek的多模態大模型
    的頭像 發表于 02-14 15:04 ?330次閱讀

    探討DeepSeek-R1滿血版的推理部署與優化策略

    TL;DR 春節假期開始, 好像很多人都在開始卷DeepSeek-R1的推理了. 渣B也被兄弟團隊帶著一起卷了一陣, 其實推理中還有很多約束, 比較認同的是章老師的一個觀點: “推理
    的頭像 發表于 02-14 10:19 ?828次閱讀
    探討<b class='flag-5'>DeepSeek</b>-R1<b class='flag-5'>滿血</b>版的<b class='flag-5'>推理</b>部署與優化策略

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    功能對比: 1. 核心定位差異 維度 DeepSeek-V3 DeepSeek-R1 目標場景 通用型任務(文本生成、多輪對話等) 復雜推理與數學能力優先(如STEM領域) 優化方向 平衡性能與成本,覆蓋廣泛
    發表于 02-14 02:08

    Gitee AI 聯合首發全套 DeepSeek R1 千問蒸餾模型,全免費體驗!

    -R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個較小尺寸的 DeepSeek 模型。值得關注的是, 本次上線的四個模型
    的頭像 發表于 02-10 09:56 ?287次閱讀
    Gitee AI 聯合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首發全套 <b class='flag-5'>DeepSeek</b> R1 千問蒸餾模型,全免費體驗!

    DeepSeek-R1全尺寸版本上線Gitee AI

    DeepSeek 全套蒸餾模型以及 V3 版本上線后,經過 Gitee AI 和團隊兩天緊鑼密鼓的適配和機器籌備,DeepSeek-R1全尺寸版本現在已上線 Gitee AI
    的頭像 發表于 02-07 15:25 ?685次閱讀

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

    近日,摩爾線程智能科技(北京)有限責任公司在其官方渠道發布了一則重要消息,宣布公司已經成功實現了對DeepSeek蒸餾模型推理服務的部署。這一技術突破,標志著摩爾線程在人工智能領域邁出了堅實的一步
    的頭像 發表于 02-06 13:49 ?537次閱讀

    澎峰科技與完成聯合測試,實現全面兼容

    近日,澎峰科技與科技宣布,雙方已完成對PerfXLM推理引擎、PerfXCloud大模型服務平臺與
    的頭像 發表于 01-21 15:20 ?401次閱讀

    澎峰科技計算軟件棧與GPU完成適配和互認證

    ?近期,澎峰科技與完成了對PerfXLM(推理引擎)、PerfXCloud(大模型服務平臺)與
    的頭像 發表于 01-21 09:51 ?329次閱讀
    主站蜘蛛池模板: 色午夜在线 | 丁香花在线 | 男人的天堂久久精品激情 | 久操免费在线 | 国产三级日本三级在线播放 | 国产资源网 | 久久精品男人的天堂 | 日本黄色免费在线观看 | 天天色色网 | 天天舔天天操 | 国产男女免费视频 | 国产精品网址你懂的 | 午夜在线观看免费 | 四虎国产精品永免费 | 老司机51精品视频在线观看 | 性欧美护士18xxxxhd视频 | 老色批午夜免费视频网站 | 天天视频官网天天视频在线 | 亚洲天堂第一页 | www.91久久| 91大神网址 | 狠狠色狠狠色综合日日小蛇 | 午夜精品网站 | 磁力bt种子搜索在线 | 色婷婷综合网 | 日本美女视频网站 | 小屁孩cao大人免费网站 | 男女交性视频播放视频视频 | 色吧五月婷婷 | 久久国产成人午夜aⅴ影院 久久国产福利 | 在线免费日韩 | 久久99精品久久久久久野外 | 日韩一级欧美一级一级国产 | 男人边吃奶边爱边做视频日韩 | 操亚洲| 亚洲婷婷在线视频 | 天天色天天做 | tom影院亚洲国产一区二区 | 国产香蕉视频在线播放 | 欧美日韩高清一本大道免费 | 国产三级视频在线播放 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品