ic設(shè)計(jì)現(xiàn)面臨算力需求不均勻的行業(yè)特點(diǎn),以一個(gè)為期18月的芯片設(shè)計(jì)為例,涉及前端,驗(yàn)證,后端三個(gè)周期: 前4個(gè)周,只涉及到前端布局以及架構(gòu),對(duì)算力需求不高,因此月度需求較少; 從5月開始,前端,驗(yàn)證,后端均開始工作,算力開始逐步提升,第11個(gè)月達(dá)算力小高峰,在第16個(gè)月達(dá)算力最高峰,月度調(diào)月度調(diào)度峰值達(dá)到百萬級(jí)核時(shí)以上; 算力波峰和波谷的核數(shù)差距在20倍以上; 算力在第16個(gè)月達(dá)到最高峰后,迅速下降。
北鯤云提供混合云部署、云上一體化部署等多種部署模式 ,北鯤云用多種方式助力企業(yè)大大提高工作效率。
多地域資源調(diào)度防止Job Pending:對(duì)SLURM開源集群調(diào)度系統(tǒng)進(jìn)行二次開發(fā):一個(gè)SLURM集群可同時(shí)使用華為云多個(gè)地域的資源, 按照設(shè)定的優(yōu)先級(jí)進(jìn)行資源調(diào)度, 防止由于單地域資源不足導(dǎo)致的Job Pending
指定周期鎖定資源(Pre-alloc)防止Job Pending:用戶也可以使用SLURM命令提前鎖定資源,在資源鎖定成功后,再運(yùn)行任務(wù),如salloc –N 100 –p c-32-2 –t 1-00:00:00 鎖定100臺(tái)32核64G資源,鎖定期為1天
隊(duì)列集(partition-set)支持大規(guī)模資源使用:在大規(guī)模資源調(diào)度的場(chǎng)景如千臺(tái)規(guī)模時(shí),單個(gè)實(shí)例類型(隊(duì)列)容易缺貨導(dǎo)致調(diào)度失敗,北鯤云對(duì)SLURM進(jìn)行二次開發(fā),實(shí)現(xiàn)隊(duì)列集功能,可在一個(gè)Job中指定多個(gè)隊(duì)列按優(yōu)先級(jí)調(diào)度資源
資源彈性溢出與調(diào)度:在絕大部分場(chǎng)景下,用戶無需關(guān)注資源本身,只需要提交作業(yè),平臺(tái)會(huì)自動(dòng)根據(jù)作業(yè)申請(qǐng)的資源數(shù)量,自動(dòng)彈性申請(qǐng)?jiān)粕腺Y源,并在作業(yè)結(jié)束后5分鐘自動(dòng)釋放資源
以國內(nèi)某芯片設(shè)計(jì)企業(yè)為例子,本地集群無法在業(yè)務(wù)高峰期(年底、年中)滿足仿真計(jì)算需求,作業(yè)排隊(duì)情況嚴(yán)重; 原有云上解決方案嚴(yán)重改變了芯片設(shè)計(jì)工程師線下操作方式,降低了工作效率; 云上資源調(diào)度策略不靈活,導(dǎo)致Job pending,影響仿真工作穩(wěn)定性; 原有云上資源價(jià)格偏貴,成本控制不靈活;
使用專業(yè)解決方案,深度整合無感化上云。本地建立專門的上云節(jié)點(diǎn),用于仿真數(shù)據(jù)自動(dòng)同步; 將云上資源與virtuoso軟件ade_L、ade_XL、maestro等提交作業(yè)方式深度整合,芯片設(shè)計(jì)工程師僅需切換環(huán)境變量即可無感化上云; LSF-Slurm Wrapper讓工程師按原有命令習(xí)慣提交作業(yè),不改變操作習(xí)慣,降低使用成本; 多地域資源調(diào)度已經(jīng)華為云云上資源的豐富,保證了業(yè)務(wù)高峰能夠預(yù)留、隨需調(diào)度充足的計(jì)算資源。
審核編輯 黃昊宇
-
IC設(shè)計(jì)
+關(guān)注
關(guān)注
38文章
1302瀏覽量
104217 -
芯片設(shè)計(jì)
+關(guān)注
關(guān)注
15文章
1028瀏覽量
54983
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論