電子發燒友網報道(文/黃晶晶)自DeepSeek推出以來,最火的硬件產品非DeepSeek一體機莫屬。DeepSeek大模型的應用和部署設計需要計算設備的支持,根據不同的大模型參數版本,例如DeepSeek-R1目前已經發布了1.5B/7B/8B/14B/32B/70B/671B共7類,選擇不同規格的硬件配置。
自2月份以來,已有多家芯片廠商宣布支持DeepSeek模型,包括華為昇騰、海光、沐曦、昆侖芯、壁仞科技、天數智芯、摩爾線程、燧原科技、云天勵飛等等。許多產品已經在DeepSeek一體機中得以廣泛應用。例如,聯想聯合沐曦發布基于DeepSeek大模型的首個國產一體機解決方案,發布一個月以來,累計發貨量已突破千臺,配備沐曦國產GPU卡近萬張,覆蓋醫療、教育、制造等十余個核心行業。
昇騰910
軟通動力旗艦版超強A800I A2服務器,基于鯤鵬920處理器、昇騰910 AI處理器,8模組高效推理,支持PFLOPS FP16超高算力和高速NPU互聯技術,支持DeepSeek全量版本適配。
優刻得 DeepSeek 滿血版大模型一體機支持沐曦、壁仞、昇騰、天數智芯等國產 AI 芯片全適配,以軟硬一體化的交付模式,提供從底層算力獲取、模型微調和推理能力、AI 應用開發的全棧式解決方案。結合云計算平臺,提供靈活的 DeepSeek 模型部署與管理服務,支持彈性擴展。
據外媒報道,華為計劃在今年量產最新AI芯片昇騰910C,其制良品率已升至40%,相比于一年前的20%(昇騰910B的良品率)已翻了一倍。華為計劃今年量產10萬塊昇騰910C芯片,及30萬塊昇騰910B芯片。2024年,華為共生產20萬塊910B芯片。
根據Tom's Hardware報道,昇騰910C芯片是華為最新推出的AI芯片,采用了chiplet封裝,晶體管數量達530億個。實際應用方面,據稱910C的推理性能相當于Nvidia H100 GPU的60%。
海光DCU
海光信息技術團隊成功完成DeepSeek V3和R1模型與海光DCU(深度計算單元)的國產化適配。DCU是海光信息推出的高性能GPGPU架構AI加速卡,致力于為行業客戶提供自主可控的全精度通用AI加速計算解決方案。憑借卓越的算力性能和完備的軟件生態,DCU已在科教、金融、醫療、政務、智算中心等多個領域實現規模化應用。
海光DCU技術團隊表示,將持續推動大模型迭代適配與優化更新,攜手更多優秀大模型企業為行業客戶提供更高效、更經濟、更安全的AI解決方案。同時,團隊也將積極探索更多應用場景,推動AI技術在更多行業的落地與普及。
沐曦曦思N260、曦云C500
聯想聯合沐曦發布基于DeepSeek大模型的首個國產一體機解決方案。面向敏捷部署的DeepSeek智能體一體機,采用ThinkStation PX工作站為載體,搭載沐曦曦思N260國產GPU,可支持本地部署DeepSeek各種參數蒸餾模型推理。面向更廣泛場景的DeepSeek訓推一體機,基于聯想問天WA5480 G3 AI服務器,搭載8張曦云C500國產GPU,可為大模型訓練和推理提供強大的算力支撐。
據悉,發布一個月以來,累計發貨量已突破千臺,配備沐曦國產GPU卡近萬張,覆蓋醫療、教育、制造等十余個核心行業。搭配沐曦曦思N260國產GPU的一體機可支持在本地部署DeepSeek各種參數蒸餾模型,實測數據顯示,在相同并發條件下,DeepSeek-R1-Distill-Qwen-14B模型推理性能達到國際主流GPU的110%-130%。
浪潮云聯合沐曦股份、銓興科技等生態伙伴,發布預置DeepSeek-R1和DeepSeek-V3模型的海若一體機,率先實現671B DeepSeek大模型國產GPU單機推理服務,為行業客戶提供大模型智能應用落地的一體化解決方案。
另外,Gitee AI在2月2日宣布上線1.5B、7B、14B、32B四個尺寸的DeepSeek R1模型并均部署在國產沐曦曦云GPU上。2月5日,Gitee AI再度發文,宣布經測試已確認DeepSeek-V3全精度滿血版(671B)可以成功運行在沐曦訓推一體GPU上,并將V3滿血版上線到平臺上。
昆侖芯P800
DeepSeek的推理模型,通過蒸餾模型(如DeepSeek-R1-Distill-Qwen和DeepSeek-R1-Distill-Llama)、MoE(專家混合系統)、MLA(多頭潛在注意力機制)等創新技術,顯著降低了計算開銷,同時維持了模型的高性能。這使得國產AI芯片廠商能夠在推理任務中與英偉達GPU競爭,甚至在某些場景中表現更好。
以百度昆侖芯P800為例,其XPU-R架構將通用計算單元和專用AI加速單元進行了融合,算力水平達到了僅次于昇騰910的水平,支持訓練、推理和虛擬化等多模式任務,能夠靈活適配AI算法的快速迭代需求。昆侖芯P800特別適用于需要大吞吐量的AI應用,單卡即可支撐高并發、高計算量的實時計算需求。
憑借昆侖芯P800強大的算力,對于DeepSeek R1/V3滿血版的本地化部署,只需要8張基于昆侖芯P800的加速卡,即一臺8卡的服務器就能夠完成,部署起來非常的便捷。
壁仞科技壁礪系列訓推產品
壁仞科技自主研發的壁礪TM系列產品完成對DeepSeek-R1全系列蒸餾模型的支持,涵蓋了從1.5B到70B各等級參數版本,包括LLaMA蒸餾模型和千問蒸餾模型,為開發者提供高性能、低成本的大模型部署與開發解決方案。
壁仞科技已聯合上海智能算力科技有限公司、中興通訊、科華數據、無問芯穹、開源中國(Gitee AI)、UCloud優刻得、一驀科技等戰略伙伴,基于壁礪系列訓推產品106M、106B、106E、110E,全面開展DeepSeek全系列模型的適配與上線。
天數 BI-V150
天數智芯成功完成了對DeepSeek R1千問蒸餾模型的適配,為開發者提供了更多靈活選擇算力的機會。借助天數智芯強大的算力,DeepSeek模型能夠提供更為高效且穩定的推理服務,從而更好地適應不同規模和多樣化需求的應用場景。
長城擎天 GF7280 V5 AI 訓推一體機配置了雙路 S5000C 處理器,CPU 核心數量高達 128 個,并配備了 16 個 DDR5 內存條,總內存容量達到 1024GB。可驗證搭配 NV L20 和國產天數 BI-V150 和沐曦C500 三種不同 GPU 算力卡適配 DeepSeek R1 私有化部署情況,具有 “開箱即用、經濟高效、持續更新與支持” 三大優勢。
摩爾線程KUAE集群
摩爾線程實現了對 DeepSeek 蒸餾模型推理服務部署。DeepSeek-R1-Distill-Qwen系列模型在摩爾線程KUAE集群上成功部署與應用。KUAE(夸娥)智算中心,是摩爾線程首個全國產千卡千億模型訓練平臺,是國內首個以國產全功能GPU(圖形處理器)為底座的大規模算力集群。
DeepSeek 開源模型(如 V3、R1 系列)在多語言理解與復雜推理任務中展現了卓越性能。通過 DeepSeek 提供的蒸餾模型,能夠將大規模模型的能力遷移至更小、更高效的版本,在國產 GPU 上實現高性能推理。
燧原科技第三代推理卡S60
太湖億芯智算中心采用燧原科技生產的第三代推理卡S60,完成DeepSeek在太湖億芯智算中心的部署上線。弘信電子戰略合作伙伴燧原科技完成對DeepSeek全量模型的高效適配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。整個適配進程中,燧原AI加速卡的計算能力得以充分利用,能夠快速處理海量數據,同時其穩定性為模型的持續優化和大規模部署提供堅實的基礎。
申威AI加速卡
申威DeepSeek大模型一體機將中國電科新一代服務器CPU申威威鑫H8000與DeepSeek深度兼容,實現從硬件到算法完全自主創新,規避數據外泄風險、滿足合規要求,通過可視化管控平臺與智能運維體系,適配智能辦公、寫作翻譯等基礎場景,以及內容創作、文獻解讀、數學推理、代碼生成等專業場景,有效縮短運維周期、降低人力成本,加速智能化升級進程。申威DeepSeek大模型一體機采用輕量化拓撲設計,單機即可運行,并支持平滑擴展,在維持高性能前提下降低硬件成本,實現降本增效與資源集約化利用。
申威一體機搭載的申威威鑫H8000芯片及申威AI加速卡性能強大,以往需要專門建一個智算中心才能完成的計算任務,如今只要部署一兩臺內置DeepSeek的一體機就能實現。
云天勵飛DeepEdge10
云天勵飛DeepEdge10系列芯片是專門針對大模型時代打造的芯片,支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各類不同架構的主流模型;基于自主可控的先進國產工藝打造,采用獨特的“算力積木”架構,可靈活滿足智慧城市、智慧交通、智能制造、智慧倉儲、機器人、邊緣智算中心等不同場景對算力的需求,為大模型推理提供強大動力。目前,DeepEdge10芯片平臺已成功適配DeepSeek R1系列模型及國產鴻蒙操作系統。
景嘉微JM 系列、景宏系列
景嘉微JM系列、景宏系列與DeepSeek R1系列成功適配,進一步推動 DeepSeek 在云邊端等各類場景的應用。
景嘉微JM系列完成了DeepSeek-R1-Distill-Qwen-1.5B模型和DeepSeek-R1-Distill-Qwen-7B模型的適配。
同時,景宏系列已全面兼容并適配DeepSeek R1全系列模型,覆蓋從1.5B至70B參數規模的LLaMA及千問模型架構。基于vLLM推理框架的部署方案,實現了高效推理性能與經濟性的雙重優勢,為開發者提供了便捷的開發支持。該方案支持快速啟動和使用,無需復雜配置,助力AI技術的規模化落地應用。
太初元碁 T100加速卡
龍芯中科聯合太初元碁等產業伙伴,在太初T100加速卡上完成DeepSeek-R1系列模型的適配工作,采用龍芯3A6000處理器的誠邁信創電腦和望龍電腦已實現本地部署DeepSeek。
DeepSeek R2發布在即,一體機市場前景樂觀
據浙商證券測算,預期DeepSeek快速部署需求有望帶動一體機需求增長,2025年到2027年一體機需求量將分別達到15萬臺、39萬臺、72萬臺,對應市場空間分別為1236億元、2937億元、5208億元。
中金認為,當前DeepSeek一體機的軟硬件協同仍面臨一些挑戰,一是主流國產AI芯片缺少對FP8 精度的支持,如果采用FP16 或BF16 精度,硬件效率將下降;二是為了在單臺8卡服務器上實現全參數DeepSeek-R1 模型的部署,一體機廠商需要進行定點量化,需在算力效率和模型效果間尋求平衡。
我們此前報道過,面對DeepSeek市場爆發,英偉達H20成為熱門選擇,不少互聯網大廠加大采購英偉達H20。
此外英偉達A100、4090等也都有不小的需求。例如一些企業要完成深度學習、復雜數據分析和高級圖像處理等功能,需要選擇高性能70B模型,或者適用于氣候建模、基因組分析等更加高精尖的場景,選擇滿血版671B模型版本。而一般來說,進行本土化部署的電腦配置,70B模型需要擁有2個A100 80G顯卡或4個RTX4090顯卡并行,配備32核CPU和128G的內存。更大規模的DeepSeek-R1 671B(滿血版)則需8個A100或H100顯卡并行,配備64核CPU及512GB內存。
預計很快,DeepSeek R2人工智能模型將發布,公司最初計劃于五月推出,但目前正在努力加快進度。此前,有知情人士表示,希望新模型能生成更好的代碼,并能夠用英語以外的語言進行推理。業界預估,DeepSeek R2將進一步降低AI算力成本,緩解AI堆算力的路徑依賴。這或許將帶給國產算力芯片更大的機會。
-
算力芯片
+關注
關注
0文章
48瀏覽量
4637 -
算力
+關注
關注
1文章
1048瀏覽量
15168 -
DeepSeek
+關注
關注
1文章
656瀏覽量
501
發布評論請先 登錄
相關推薦
中軟國際推出DeepSeek生態環境綜合執法大模型一體機
格靈深瞳發布全國產超融合大模型一體機
華為推出昇騰DeepSeek大模型一體機
澎峰科技發布萬元級DeepSeek智算一體機
梯度科技推出DeepSeek智算一體機
DeepSeek一體機發布!四大廠商入局,加速AI應用落地

澎峰科技發布DeepSeek智算一體機
寧暢推出DeepSeek大模型一體機
曙光云推出DeepSeek大模型一體機
云從科技從容大模型訓推一體機成功適配DeepSeek
拓維信息與整數智能聯合推出智能數據標注一體機
拓維信息×整數智能:聯合首發搭載DeepSeek的智能數據標注一體機

評論