在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

信而泰CCL仿真:解鎖AI算力極限,智算中心網(wǎng)絡(luò)性能躍升之道

1092769615 ? 來源:1092769615 ? 作者:1092769615 ? 2025-02-24 17:34 ? 次閱讀

引言

隨著AI大模型訓(xùn)練和推理需求的爆發(fā)式增長(zhǎng),智算中心網(wǎng)絡(luò)的高效性與穩(wěn)定性成為決定AI產(chǎn)業(yè)發(fā)展的核心要素。信而泰憑借自主研發(fā)的CCL(集合通信庫)評(píng)估工具DarYu-X系列測(cè)試儀 ,為智算中心RoCE網(wǎng)絡(luò)提供精準(zhǔn)評(píng)估方案,助力企業(yè)突破算力瓶頸,釋放AI澎湃動(dòng)力!

什么是智算中心

智算中心(AIDC,Artificial Intelligence Data Center)是專門為人工智能應(yīng)用提供算力支持的高性能數(shù)據(jù)中心,是人工智能技術(shù)與云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等現(xiàn)代信息技術(shù)深度融合的產(chǎn)物。它基于最新的人工智能理論,采用前沿的計(jì)算架構(gòu),為AI模型的訓(xùn)練、推理和應(yīng)用提供強(qiáng)大的算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)。

  • 智算中心可以分為狹義和廣義兩種定義:

狹義定義: 智算中心是“機(jī)房+網(wǎng)絡(luò)+GPU服務(wù)器+算力調(diào)度平臺(tái)”的融合基礎(chǔ)設(shè)施,是傳統(tǒng)數(shù)據(jù)中心的增值性延伸。

廣義定義: 智算中心是“算力+數(shù)據(jù)+算法”的融合服務(wù),是推動(dòng)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的重要引擎,也是傳統(tǒng)云數(shù)據(jù)中心的智能化升級(jí)。

  • 智算中心的核心功能包括:

算力服務(wù): 提供高性能的計(jì)算能力,支持GPU、FPGAASIC等異構(gòu)計(jì)算芯片,滿足AI模型訓(xùn)練和推理的高并發(fā)需求。

數(shù)據(jù)服務(wù): 提供數(shù)據(jù)治理、存儲(chǔ)和優(yōu)化服務(wù),支持大規(guī)模數(shù)據(jù)的高效處理。
算法服務(wù): 提供預(yù)訓(xùn)練大模型、行業(yè)算法庫等,支持機(jī)器學(xué)習(xí)深度學(xué)習(xí)等AI應(yīng)用。

資源調(diào)度: 通過智能調(diào)度平臺(tái),實(shí)現(xiàn)算力資源的靈活分配和高效利用。

為什么必須評(píng)估智算中心網(wǎng)絡(luò)

對(duì)智算中心的RoCE網(wǎng)絡(luò)進(jìn)行評(píng)估測(cè)試,是為了確保其能夠高效、穩(wěn)定地支持大規(guī)模AI訓(xùn)練任務(wù)。具體原因包括:

驗(yàn)證性能: 確保網(wǎng)絡(luò)具備低延遲、高吞吐量,滿足智算中心對(duì)高性能的需求。

優(yōu)化可靠性: 通過測(cè)試發(fā)現(xiàn)潛在問題,提升網(wǎng)絡(luò)的穩(wěn)定性和容錯(cuò)能力。

成本效益: 評(píng)估RoCE網(wǎng)絡(luò)的性價(jià)比,選擇最優(yōu)方案。

支持分布式訓(xùn)練: 驗(yàn)證網(wǎng)絡(luò)在大規(guī)模分布式AI任務(wù)中的表現(xiàn),優(yōu)化數(shù)據(jù)傳輸效率。

指導(dǎo)運(yùn)維: 提前發(fā)現(xiàn)問題,優(yōu)化運(yùn)維策略,減少故障風(fēng)險(xiǎn)。

智算心網(wǎng)絡(luò)評(píng)估工具-CCL

使用集合通信流量來評(píng)估智算中心網(wǎng)絡(luò)的RoCE(RDMA over Converged Ethernet)性能,主要有以下幾個(gè)原因:

? 集合通信是智算中心的關(guān)鍵特征 智算中心的業(yè)務(wù)(如AI大模型訓(xùn)練)依賴于高度同步的集合通信操作(如AllReduce、Broadcast),這些操作要求低延遲和高帶寬的網(wǎng)絡(luò)支持。

? 集合通信對(duì)網(wǎng)絡(luò)性能要求極高 集合通信操作(如AllReduce)需要高吞吐量和低延遲,RoCE通過RDMA機(jī)制能夠顯著降低通信延遲并提高帶寬利用率。

? RoCE性能直接影響智算中心效率 RoCE網(wǎng)絡(luò)的性能直接影響分布式訓(xùn)練任務(wù)的通信效率,進(jìn)而影響整個(gè)智算中心的加速比和效率。

? 集合通信流量能夠全面評(píng)估RoCE性能 集合通信涵蓋了多種通信模式(如點(diǎn)對(duì)點(diǎn)、廣播、多點(diǎn)通信),能夠全面測(cè)試RoCE網(wǎng)絡(luò)的帶寬、延遲、擁塞控制和負(fù)載均衡能力。

? RoCE在智算中心的廣泛應(yīng)用 RoCE技術(shù)因其開放性、互操作性和成本效益,在智算中心中廣泛應(yīng)用。評(píng)估其性能有助于優(yōu)化配置,提升整體性能。

如何使用儀表CCL評(píng)估智算網(wǎng)絡(luò)

使用信而泰Renix軟件平臺(tái)提供的CCL Traffic Emulation向?qū)В瑴y(cè)試配置實(shí)現(xiàn)通過向?qū)渲茫蓮?fù)雜的訓(xùn)練流量。針對(duì)不同AI訓(xùn)練數(shù)據(jù)包,評(píng)估在非擁塞網(wǎng)絡(luò)、擁塞網(wǎng)絡(luò)各項(xiàng)指標(biāo)。對(duì)比網(wǎng)絡(luò)正常和網(wǎng)絡(luò)故障情況下各項(xiàng)組網(wǎng)指標(biāo),比如任務(wù)時(shí)間、訓(xùn)練時(shí)間、算法帶寬、總線帶寬、收發(fā)報(bào)文數(shù)量、時(shí)延、抖動(dòng)、亂序等關(guān)鍵數(shù)據(jù)。
image.png

通過使用儀器儀表模擬GPU通信,可以有效降低測(cè)試成本,同時(shí)簡(jiǎn)化AI測(cè)試的復(fù)雜性和維護(hù)難度。這種方法使AI測(cè)試從傳統(tǒng)的搭建真實(shí)服務(wù)器和使用價(jià)格高昂的GPU來測(cè)試RoCE交換機(jī),轉(zhuǎn)變?yōu)槔猛ㄓ脙x表儀器進(jìn)行測(cè)試。這一轉(zhuǎn)變不僅大幅節(jié)省了測(cè)試成本,還統(tǒng)一了驗(yàn)證規(guī)范,為國(guó)產(chǎn)AI的崛起提供了有力支持。

以下以8卡400G GPU模型訓(xùn)練為例,對(duì)比Ring Allreduce模型在非擁塞和擁塞網(wǎng)絡(luò)環(huán)境下不同數(shù)據(jù)量(Data Size)的參數(shù)表現(xiàn)。通過實(shí)際數(shù)據(jù)對(duì)比,可以直觀地體現(xiàn)CCL(Collective Communication Library,集合通信庫)在評(píng)估網(wǎng)絡(luò)性能方面的重要意義。

? CCL指標(biāo)

如下圖所示,使用Ring Allreduce在不同訓(xùn)練任務(wù)在非擁塞網(wǎng)絡(luò)中體現(xiàn)
image.png

如下圖所示,使用Ring Allreduce不同訓(xùn)練任務(wù)在擁塞網(wǎng)絡(luò)(PFC)中體現(xiàn)

image.png

如下圖所示,使用Ring Allreduce不同訓(xùn)練任務(wù)在擁塞網(wǎng)絡(luò)(ECN+DCQCN)中體現(xiàn)

image.png

? Latency and Jitter by Data Size指標(biāo)

如下圖所示,使用Ring Allreduce在不同訓(xùn)練任務(wù)在非擁塞網(wǎng)絡(luò)中體現(xiàn)
image.png
如下圖所示,使用Ring Allreduce不同訓(xùn)練任務(wù)在擁塞網(wǎng)絡(luò)(PFC)中體現(xiàn)
image.png

如下圖所示,使用Ring Allreduce不同訓(xùn)練任務(wù)在擁塞網(wǎng)絡(luò)(ECN+DCQCN)中體現(xiàn)
image.png
? 對(duì)比不同場(chǎng)景下訓(xùn)練時(shí)間(無擁塞/擁塞+PFC/擁塞+ECN/DCQCN)

image.png
image.png
image.png
? 對(duì)比不同場(chǎng)景下算法帶寬(無擁塞/擁塞+PFC/擁塞+ECN/DCQCN)

image.png
image.png
image.png
? 對(duì)比不同場(chǎng)景下總線帶寬(無擁塞/擁塞+PFC/擁塞+ECN/DCQCN)

image.png
image.png
image.png
通過信而泰Renix軟件平臺(tái)的CCL Traffic Emulation功能,能夠精確評(píng)估RoCE網(wǎng)絡(luò)的關(guān)鍵指標(biāo),為AI網(wǎng)絡(luò)的評(píng)估提供精細(xì)化數(shù)據(jù)支持。對(duì)比實(shí)驗(yàn)的結(jié)果可全面評(píng)估RoCE交換機(jī)的性能。該方案通過模擬真實(shí)AI工作負(fù)載,能夠在復(fù)雜流量和大規(guī)模組網(wǎng)場(chǎng)景下,全面測(cè)試RoCE交換機(jī)的性能表現(xiàn),并精準(zhǔn)識(shí)別組網(wǎng)瓶頸,提升評(píng)估的精確性和實(shí)用性。

高密度智算網(wǎng)絡(luò)測(cè)試解決方案
信而泰推出的X2-100GFP28、X5-400G高密度智算非擁塞網(wǎng)絡(luò)(ROCEv2)測(cè)試儀是一款專為高端路由器、交換機(jī)以及數(shù)據(jù)中心交換機(jī)設(shè)計(jì)的高密度測(cè)試平臺(tái)。該測(cè)試平臺(tái)充分滿足運(yùn)營(yíng)商、網(wǎng)絡(luò)設(shè)備制造商和企業(yè)用戶在高速以太網(wǎng)和智能計(jì)算網(wǎng)絡(luò)測(cè)試業(yè)務(wù)中對(duì)增長(zhǎng)和未來發(fā)展的需求。其高密度設(shè)計(jì)使得它在有限的空間內(nèi)提供強(qiáng)大的測(cè)試能力,是應(yīng)對(duì)未來網(wǎng)絡(luò)挑戰(zhàn)的理想選擇。

客戶價(jià)值

超高密度: 單機(jī)支持400G/200G/100G多速率,12端口靈活配置;

全協(xié)議兼容: 支持RoCEv2、標(biāo)準(zhǔn)以太網(wǎng),適配異構(gòu)網(wǎng)絡(luò)環(huán)境;

智能化測(cè)試: 一鍵生成復(fù)雜流量模型,3分鐘完成網(wǎng)絡(luò)健康度診斷。

image.png
X2-100G RoCE測(cè)試板卡

image.png
高密度400G測(cè)試儀一體機(jī)

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    16

    文章

    5001

    瀏覽量

    72767
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    32823

    瀏覽量

    272265
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2840

    瀏覽量

    3481
收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    DeepSeek推動(dòng)AI需求:800G光模塊的關(guān)鍵作用

    數(shù)據(jù)傳輸速率,減少帶寬瓶頸,成為數(shù)據(jù)中心AI集群架構(gòu)優(yōu)化的重點(diǎn)。光模塊速率的躍升不僅提升了傳輸效率,也為大規(guī)模并行計(jì)算任務(wù)提供了必要的帶寬保障。 800G光模塊如何解決DeepSeek大規(guī)模
    發(fā)表于 03-25 12:00

    AI需求激增,數(shù)據(jù)中心如何應(yīng)對(duì)能源挑戰(zhàn)

    ? “AI的爆發(fā)帶來了巨大的需求,為了滿足AI大模型的訓(xùn)練和應(yīng)用推理,智中心的建設(shè)將加速。
    的頭像 發(fā)表于 02-22 09:49 ?253次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>需求激增,數(shù)據(jù)<b class='flag-5'>中心</b>如何應(yīng)對(duì)能源挑戰(zhàn)

    中心的核心硬件是什么?

    中心,作為人工智能時(shí)代的關(guān)鍵基礎(chǔ)設(shè)施,其核心硬件的構(gòu)成與性能直接影響著智能計(jì)算的效率與質(zhì)量。以下是對(duì)智中心核心硬件的詳細(xì)闡述:一、
    的頭像 發(fā)表于 02-17 14:42 ?622次閱讀
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的核心硬件是什么?

    中心如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運(yùn)行。以下是對(duì)智中心衡量的詳細(xì)闡述:一、
    的頭像 發(fā)表于 01-16 14:03 ?1107次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b><b class='flag-5'>中心</b>的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    融合 南京易達(dá)發(fā)布全新“智能融合平臺(tái)”

    1月7日,南京易達(dá)發(fā)布了旗下最新平臺(tái)“C-MOM智能融合平臺(tái)V3.0”,并更新了全新的UI視覺與交互系統(tǒng)。 該平臺(tái)集成了HPC超
    的頭像 發(fā)表于 01-08 10:56 ?331次閱讀
    超<b class='flag-5'>算</b>智<b class='flag-5'>算</b>融合 南京<b class='flag-5'>信</b>易達(dá)發(fā)布全新“智能<b class='flag-5'>算</b><b class='flag-5'>力</b>融合平臺(tái)”

    中心會(huì)取代通用中心嗎?

    隨著人工智能(AI)技術(shù)的飛速發(fā)展,計(jì)算需求不斷攀升,數(shù)據(jù)中心行業(yè)正經(jīng)歷著前所未有的變革。傳統(tǒng)的通用中心與新興的智
    的頭像 發(fā)表于 01-06 14:45 ?312次閱讀
    智<b class='flag-5'>算</b><b class='flag-5'>中心</b>會(huì)取代通用<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>嗎?

    企業(yè)AI租賃模式的好處

    構(gòu)建和維護(hù)一個(gè)高效、可擴(kuò)展的AI基礎(chǔ)設(shè)施,不僅需要巨額的初期投資,還涉及復(fù)雜的運(yùn)維管理和持續(xù)的技術(shù)升級(jí)。AI
    的頭像 發(fā)表于 12-24 10:49 ?721次閱讀

    企業(yè)AI租賃是什么

    企業(yè)AI租賃是指企業(yè)通過互聯(lián)網(wǎng)向?qū)I(yè)的提供商租用所需的計(jì)算資源,以滿足其AI應(yīng)用的需求。
    的頭像 發(fā)表于 11-14 09:30 ?1771次閱讀

    億鑄科技熊大鵬探討AI芯片的挑戰(zhàn)與解決策略

    在SEMiBAY2024《HBM與存儲(chǔ)器技術(shù)與應(yīng)用論壇》上,億鑄科技的創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬博士發(fā)表了題為《超越極限:大芯片的技術(shù)挑戰(zhàn)與解決之道》的演講,深入剖析了
    的頭像 發(fā)表于 10-25 11:52 ?641次閱讀

    大模型時(shí)代的需求

    現(xiàn)在AI已進(jìn)入大模型時(shí)代,各企業(yè)都爭(zhēng)相部署大模型,但如何保證大模型的,以及相關(guān)的穩(wěn)定性和性能,是一個(gè)極為重要的問題,帶著這個(gè)極為重要的問題,我需要在此書中找到答案。
    發(fā)表于 08-20 09:04

    力系列基礎(chǔ)篇——與計(jì)算機(jī)性能解鎖超能力的神秘力量!

    在《力系列基礎(chǔ)篇——101:從零開始了解》中,相信各位粉絲初步了解到人工智能的“發(fā)動(dòng)機(jī)”和核心驅(qū)動(dòng)力:
    的頭像 發(fā)表于 07-11 08:04 ?104次閱讀
    <b class='flag-5'>算</b>力系列基礎(chǔ)篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>與計(jì)算機(jī)<b class='flag-5'>性能</b>:<b class='flag-5'>解鎖</b>超能力的神秘力量!

    打造新型智中心,神州鯤中標(biāo)中移動(dòng)智中心采購(gòu)

    5月16日,中國(guó)移動(dòng)采購(gòu)與招標(biāo)網(wǎng)發(fā)布了《中國(guó)移動(dòng)2024年至2025年新型智中心采購(gòu)中標(biāo)候選人公示》,神州數(shù)碼集團(tuán)股份有限公司下屬控股子公司神州鯤(廈門)信息技術(shù)有限公司(以下簡(jiǎn)稱“神州鯤
    的頭像 發(fā)表于 05-17 15:54 ?380次閱讀
    打造新型智<b class='flag-5'>算</b><b class='flag-5'>中心</b>,神州鯤<b class='flag-5'>泰</b>中標(biāo)中移動(dòng)智<b class='flag-5'>算</b><b class='flag-5'>中心</b>采購(gòu)

    有方數(shù)據(jù)存儲(chǔ)產(chǎn)品服務(wù)新疆移動(dòng)智中心,推動(dòng)數(shù)字生產(chǎn)全面躍升

    近日,有方數(shù)據(jù)為新疆移動(dòng)智中心項(xiàng)目建設(shè)提供了NeoVast 2300分布式海量存儲(chǔ)系統(tǒng)、NeoHyper 2500分布式全閃存存儲(chǔ)產(chǎn)品及服務(wù),保障智中心的高效運(yùn)行和數(shù)據(jù)安全,助力新
    的頭像 發(fā)表于 04-28 14:10 ?680次閱讀

    中心:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎

    、建設(shè)與發(fā)展,并分析其對(duì)數(shù)字經(jīng)濟(jì)發(fā)展的影響。01、中心的定義與概述中心是指具備高
    的頭像 發(fā)表于 04-13 08:27 ?2168次閱讀
    <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>中心</b>:數(shù)字經(jīng)濟(jì)發(fā)展的新引擎
    主站蜘蛛池模板: 999伊人| 国内黄色一级片 | 成人高清毛片a | 国产精品久久久久久久久久妇女 | 天天爽天天爽天天片a久久网 | 欧美色图在线观看 | 给个网站可以在线观看你懂的 | 天天做.天天爱.天天综合网 | 丁香亚洲综合五月天婷婷 | 国产精品久久久久久久成人午夜 | 99热最新在线 | 免费在线视频播放 | 日产精品卡二卡三卡四卡无卡乱码 | 久久久久久久网站 | 免费一级成人毛片 | 日本69sex护士xxx| 天堂在线视频精品 | 亚洲综合一区二区 | 永久免费看毛片 | 丁香综合激情 | 视频免费在线 | 老色批网站 | 日本xxxx18vr69| 欧美三级中文字幕hd | 欧美a免费 | 国产高清视频在线播放www色 | 日韩种子| 天天操天天干天天做 | 福利一级片 | 色香欲综合成人免费视频 | 久青草视频在线 | 色多多视频在线播放 | 日日干狠狠操 | 欧美极品一区 | 在线天堂中文字幕 | 在线欧美激情 | 精品女同| 五月激情五月婷婷 | 国产精品永久免费自在线观看 | 国产拍拍| 欧美成人黄色 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品