Slurm ( Simple Linux Utility for Resource Management )是開源的、具有容錯性和高度可擴展大型和小型 Linux集群資源管理和作業調度系統。超級計算系統可利用 Slurm 進行資源和作業管理,以避免相互干擾,提高運行效率。所有需運行的作業無論是用于程序調試還是業務計算均必須通過交互式并行 srun、批處理式 sbatch 或分配式 salloc 等命令提交,提交后可以利用相關命令查詢作業狀態等。
同時北鯤云超算平臺也是使用的Slurm作業管理系統,熟悉slurm作業管理系統的同學可以快速上手北鯤云進行計算,不熟悉的也沒關系,一是可以學,我們有完整的教程以及技術支持服務,另外就是平臺還提供模板提交方式,無需it基礎也可以快速進行計算。直接按照模板提示提交作業即可。多種軟件覆蓋多個行業,歡迎lai'shi'yi's
一. 常用命令?
sinfo #查看分區狀態squeue #查看隊列中的作業scontrol #查看作業詳細信息scancel #取消已經提交的作業sbatch #批處理式提交作業salloc #分配式運行作業
1. 查看分區狀態?
sinfo
CPU分區命名規則為c-核心數-每核心內存大小,如c-8-4:表示單節點規格為8核,每核心有4G內存,即節點規格為8核32G。
GPU分區命名規則為g-卡號-每節點卡數,如g-v100-2:表示有兩張顯卡型號為tesla v100的gpu節點。
2. 查看作業隊列?
squeue
JOBID:作業號。
ST:狀態 (R:運行中;CF:配置中;PD:排隊中)。
3. 查看所有作業詳細信息?
scontrol show jobs
4. 取消作業號為20的作業?
scancel 20
二. 提交作業的方式?
1. 使用sbatch批處理模式提交作業?
sbatch命令可以提交任務至一個或多個計算節點,實現并行計算。
sbatch命令的一些常用選項:
參數 | 功能 |
---|---|
-N | 申請的節點數量 |
-p | 指定計算節點規格,使用sinfo查看所支持的規格 |
-n | 指定任務數,即并行程序運行多少個進程 |
-c | 每進程使用的cpu核心數 |
參考運行程序:demo.sh
#!/bin/bashsleep 6000
提交示例:
使用2個4核心節點啟動8個并行任務。
sbatch -N 2 -p c-4-1 -n 8 -c 1 demo.sh
1個4核心節點啟動4個并行任務。
sbatch -N 1 -p c-4-1 -n 4 -c 1 demo.sh
1個4核心節點啟動4個并行任務。
sbatch -p c-4-1 -n 4 demo.sh
1個4核心節點啟動1個并行任務, 該任務使用4個cpu核心。
sbatch -p c-4-1 -n 1 -c 4 demo.sh
2個4核心節點啟動2個并行任務, 每個任務使用4個cpu核心。
sbatch -p c-4-1 -n 2 -c 4 demo.sh
2. 使用salloc分配模式提交作業?
salloc命令可以用來分配節點,用戶可以在獲取分配的計算節點后,ssh進入直接運行相關計算程序,主要用來調式程序執行。
使用步驟(案例):
Step1. salloc申請計算節點;
salloc -N 1 -p c-8-2 &
Step2. ssh登錄到分配的計算節點;
ssh c-8-2-worker0001
Step3. 調試或運行程序;
./demo.sh
Step4. 結束程序運行后釋放分配的節點;
scancel 17
審核編輯:湯梓紅
-
Linux
+關注
關注
87文章
11326瀏覽量
209961 -
命令
+關注
關注
5文章
692瀏覽量
22063 -
管理系統
+關注
關注
1文章
2549瀏覽量
35984
發布評論請先 登錄
相關推薦
評論