介紹
NVDashboard 是一個開源軟件包,用于在交互式Jupyter 實驗室環(huán)境中實時可視化 NVIDIA GPU 指標(biāo)。 NVDashboard 是所有 GPU 用戶監(jiān)視系統(tǒng)資源的好方法。然而,它對于RAPIDS, NVIDIA的GPU開源套件加速數(shù)據(jù)科學(xué)軟件庫的用戶尤其有價值。
考慮到現(xiàn)代數(shù)據(jù)科學(xué)算法的計算強度,在許多情況下 GPU 可以提供改變游戲規(guī)則的工作流加速。為了獲得最佳性能,底層軟件有效地使用系統(tǒng)資源是絕對關(guān)鍵的。盡管加速庫(如 cuDNN 和 RAPIDS )是專門設(shè)計用于執(zhí)行性能優(yōu)化方面的繁重任務(wù)的,但對于開發(fā)人員和最終用戶來說,驗證他們的軟件是否真正按照預(yù)期利用了 GPU 資源是非常有用的。雖然這可以通過 NVIDIA -smi 等命令行工具實現(xiàn),但許多專業(yè)數(shù)據(jù)科學(xué)家更喜歡使用交互式 Jupyter 筆記本進行日常模型和工作流開發(fā)。
圖 1 : NVDashboard Jupyter 實驗室擴展正在運行。 GPU 儀表板顯示在屏幕右側(cè),而兩個dask-labextension儀表板顯示在左下角。
如圖 1所示, NVDashboard 使 Jupyter 筆記本用戶能夠在用于開發(fā)的相同交互環(huán)境中可視化系統(tǒng)硬件指標(biāo)。支持的指標(biāo)包括:
GPU – 計算利用率
GPU – 內(nèi)存消耗
PCIe 吞吐量
NVLink 吞吐量
該軟件包構(gòu)建在基于 Python 的儀表板服務(wù)器上,該服務(wù)器支持 Bokeh 可視化庫在實時[1]中顯示和更新圖形。另外一個 Jupyter Lab 擴展將這些儀表板作為可移動窗口嵌入到交互式環(huán)境中。大多數(shù) GPU 指標(biāo)都是通過 PyNVML 收集的, PyNVML 是一個開源的 Python 包,它構(gòu)成了 NVIDIA 管理庫( NVML )的包裝。因此,可以修改/擴展可用的儀表板,以顯示可通過 NVML 訪問的任何可查詢 GPU 指標(biāo)。
使用 NVDashboard
nvdashboard 軟件包在PyPI上提供,由兩個基本組件組成:
博克服務(wù)器:服務(wù)器組件利用出色的 Bokeh 可視化庫實時顯示和更新 GPU -診斷儀表板。所需的硬件指標(biāo)可通過PyNVML訪問,該PyNVML是一個開源的 Python 包,由 NVIDIA 管理庫(NVML)的包裝組成。因此,可以修改/擴展NVDashboard以顯示任何可查詢的 GPU 指標(biāo),這些指標(biāo)可以通過NVML輕松地從 Python 訪問。
Jupyter 實驗室擴建: Jupyter 實驗室擴展將 GPU 診斷儀表板嵌入為交互式Jupyter-Lab環(huán)境中的可移動窗口。
$ pip install jupyterlab-nvdashboard # If you are using Jupyter Lab 2 you will also need to run $ jupyter labextension install jupyterlab-nvdashboard
必須澄清的是, NVDashboard 自動監(jiān)控整個機器的 GPU 資源,而不僅僅是本地 Jupyter 環(huán)境使用的資源。朱皮特實驗室eExtension 當(dāng)然可以用于非 i Python /筆記本開發(fā)。例如,在圖 3中,“ NVLink 時間線”和“ GPU 利用率”儀表板在 Jupyter 實驗室環(huán)境中用于監(jiān)控從命令行執(zhí)行的多 GPU 深度學(xué)習(xí)工作流。
圖 3 : Jupyter 實驗室使用的“ NVLink Timeline ”儀表板。
博克服務(wù)器
雖然 Jupyter 實驗室擴展肯定是基于 i Python /筆記本電腦開發(fā)的愛好者的理想選擇,但其他 GPU 用戶也可以使用 sandalone Bokeh 服務(wù)器訪問儀表板。這是通過運行來完成的。
$ Python -m jupyterlab nvdashboard 。 server 《端口號》
啟動 Bokeh 服務(wù)器后,可通過在標(biāo)準(zhǔn) web 瀏覽器中打開相應(yīng)的 url (例如 http ://《 ip 地址》:《 port number 》)來訪問 GPU 儀表板。如圖 4所示,主菜單列出了 NVDashboard 中可用的所有儀表板。
圖 4 : NVDashboard 的 Bokeh 服務(wù)器組件的主菜單。
例如,選擇“ GPU -Resources ”鏈接將打開圖 5中所示的儀表板,該儀表板使用對齊的時間線圖總結(jié)各種 GPU 資源的利用率。
圖 5 : Jupyter 實驗室外部使用的“ GPU 資源”儀表板。
要以這種方式使用 NVDashboard ,只需要 pip 安裝步驟(可以跳過實驗室擴展安裝步驟):
$ pip 安裝 jupyterlab nvdashboard
或者,您也可以克隆jupyterlab-nvdashboard存儲庫,只需執(zhí)行server.py腳本(例如python jupyterlab_nvdashboard/server.py 《port-number》)。
實施細(xì)節(jié)
現(xiàn)有的 nvdashboard 包提供了許多有用的 GPU – 資源儀表板。但是,修改現(xiàn)有儀表板和/或創(chuàng)建全新的儀表板非常簡單。為了做到這一點,您只需要利用 PyNVML 和 Bokeh 。
PyNVML dasic
PyNVML 是 NVIDIA 管理庫( NVML )的 Python 包裝器,它是一個基于 C 的 API ,用于監(jiān)視和管理 NVIDIA GPU 設(shè)備的各種狀態(tài)。 NVML 直接由更知名的 NVIDIA 系統(tǒng)管理接口( NVIDIA -smi )使用。根據(jù) NVIDIA 開發(fā)者網(wǎng)站, NVML 提供對以下可查詢狀態(tài)的訪問(除了此處未討論的可修改狀態(tài)外):
ECC 錯誤計數(shù):報告可糾正的單位錯誤和可檢測的雙位錯誤。為當(dāng)前引導(dǎo)周期和 GPU 的生命周期提供錯誤計數(shù)。
GPU 利用率:報告 GPU 和內(nèi)存接口的計算資源的當(dāng)前利用率。
主動計算過程:報告在 GPU 上運行的活動進程列表,以及相應(yīng)的進程名稱/ id 和分配的 GPU 內(nèi)存。
時鐘和 PState:報告了幾個重要時鐘域的最大和當(dāng)前時鐘速率,以及當(dāng)前 GPU 性能狀態(tài)。
溫度和風(fēng)扇轉(zhuǎn)速:報告當(dāng)前堆芯 GPU 溫度以及非無源產(chǎn)品的風(fēng)扇轉(zhuǎn)速。
電源管理:對于支持的產(chǎn)品,會報告當(dāng)前板功率消耗和功率限制。
Identification:報告各種動態(tài)和靜態(tài)信息,包括板序列號、 PCI 設(shè)備 ID 、 VBIOS / Inforom 版本號和產(chǎn)品名稱。
盡管目前存在幾種不同的 NVML Python 包裝器,但我們在 GitHub 上使用 GoAi 托管的PyNVML包。這個版本的 PyNVML 使用 ctypes 包裝大多數(shù) nvmlcapi 。 NVDashboard 僅利用查詢實時 GPU 資源利用率所需的一小部分 API ,包括:
nvmlInit():初始化 NVML 。初始化成功后,緩存 GPU 句柄,以降低儀表板中活動監(jiān)視期間的數(shù)據(jù)查詢延遲。
nvmlShutdown(): Finalize NVML
nvmlDeviceGetCount ():獲取可用 GPU 設(shè)備的數(shù)量
nvmlDeviceGetHandleByIndex():獲取設(shè)備的句柄(給定整數(shù)索引)
nvmlDeviceGetMemoryInfo():獲取內(nèi)存信息對象(給定設(shè)備句柄)
nvmlDeviceGetUtilizationRates():獲取利用率對象(給定設(shè)備句柄)
nvmlDeviceGetPcieThroughput():獲取 PCIe 吞吐量對象(給定設(shè)備句柄)
nvmlDeviceGetNvLinkUtilizationCounter():獲取 NVLink 利用率計數(shù)器(給定設(shè)備句柄和鏈接索引)
在 PyNVML 的當(dāng)前版本中, Python 函數(shù)名的選擇通常與 C API 完全匹配。例如,要查詢每個可用設(shè)備上的當(dāng)前 GPU – 利用率,代碼如下所示:
可用設(shè)備上的當(dāng)前 GPU – 利用率,代碼如下所示:
In [1]: from pynvml import *
In [2]: nvmlInit()
In [3]: ngpus = nvmlDeviceGetCount()
In [4]: for i in range(ngpus):
…: handle = nvmlDeviceGetHandleByIndex(i)
…: gpu_util = nvmlDeviceGetUtilizationRates(handle).gpu
…: print(‘GPU %d Utilization = %d%%’ % (i, gpu_util))
…:
GPU 0 Utilization = 43%
GPU 1 Utilization = 0%
GPU 2 Utilization = 15%
GPU 3 Utilization = 0%
GPU 4 Utilization = 36%
GPU 5 Utilization = 0%
GPU 6 Utilization = 0%
GPU 7 Utilization = 11%
注意,除了 GitHub 存儲庫之外, PyNVML 還托管在PyPI和鍛造伯爵上。
儀表板代碼
要修改/添加 GPU 儀表板,只需使用兩個文件(jupyterlab_bokeh_server/server.py和jupyterlab_nvdashboard/apps/gpu.py)。添加/修改儀表板所需的大多數(shù) PyNVML 和 bokeh 代碼都將在gpu.py中。只有在添加或更改菜單/顯示名稱的情況下,才需要修改server.py。在這種情況下,必須在 routes dictionary 中指定新的/修改的名稱(鍵為所需的名稱,值為相應(yīng)的儀表板定義):
routes = {
"/GPU-Utilization": apps.gpu.gpu,
"/GPU-Memory": apps.gpu.gpu_mem,
"/GPU-Resources": apps.gpu.gpu_resource_timeline,
"/PCIe-Throughput": apps.gpu.pci,
"/NVLink-Throughput": apps.gpu.nvlink,
"/NVLink-Timeline": apps.gpu.nvlink_timeline,
"/Machine-Resources": apps.cpu.resource_timeline,
}
為了讓服務(wù)器不斷刷新 bokeh 應(yīng)用程序使用的 PyNVML 數(shù)據(jù),我們使用 bokeh 的 ColumnDataSource 類在每個圖中定義數(shù)據(jù)的source。 ColumnDataSource 類允許為每種類型的數(shù)據(jù)傳遞更新函數(shù),可以在每個應(yīng)用程序的專用回調(diào)函數(shù)( cb )中調(diào)用更新函數(shù)。例如,現(xiàn)有 GPU 應(yīng)用程序的定義如下:
def gpu(doc):
fig = figure(title=“GPU Utilization”, sizing_mode=“stretch_both”, x_range=[0, 100])
def get_utilization():
return [
pynvml.nvmlDeviceGetUtilizationRates(gpu_handles[i]).gpu
for i in range(ngpus)
]
gpu = get_utilization()
y = list(range(len(gpu)))
source = ColumnDataSource({“right”: y, “gpu”: gpu})
mapper = LinearColorMapper(palette=all_palettes[“RdYlBu”][4], low=0, high=100)
fig.hbar(
source=source,
y=“right”,
right=“gpu”,
height=0.8,
color={“field”: “gpu”, “transform”: mapper},
)
fig.toolbar_location = None
doc.title = “GPU Utilization [%]”
doc.add_root(fig)
def cb():
source.data.update({“gpu”: get_utilization()})
doc.add_periodic_callback(cb, 200)
請注意, PyNVML GPU 利用率數(shù)據(jù)的實時更新是在source.data.update()調(diào)用中執(zhí)行的。有了必要的ColumnDataSource邏輯,可以通過多種方式修改標(biāo)準(zhǔn) GPU 定義(如上)。例如,交換 x 軸和 y 軸,指定不同的調(diào)色板,甚至將圖形從 hbar 完全更改為其他圖形。
關(guān)于作者
Jacob Tomlinson 是 NVIDIA 的高級 Python 軟件工程師,專注于分布式系統(tǒng)的部署工具。他的工作包括維護開源項目,包括 RAPIDS 和 Dask 。 RAPIDS 是一套 GPU 加速開源 Python 工具,模擬 PyData 堆棧中的 API ,包括 NumPy 、 pandas 和 SciKit Learn 的 API 。 Dask 為分析提供了高級并行性,包括核心外計算、延遲計算和 PyData 堆棧的分布式執(zhí)行。
Ken Hester 是 NVIDIA 的解決方案架構(gòu)師和經(jīng)理,在 HPC 、 AI 深度學(xué)習(xí)和機器學(xué)習(xí)以及 CUDA GPU 計算領(lǐng)域為能源行業(yè)提供支持。他來自德克薩斯州休斯頓,在 NVIDIA 工作了近 8 年。在 NVIDIA 之前, Ken 在能源行業(yè)工作了 15 年以上,是數(shù)據(jù)科學(xué)、軟件架構(gòu)、軟件設(shè)計和開發(fā)領(lǐng)域的行業(yè)專家。
Rick Zamora 是 NVIDIA 在 RAPIDS 和 Dask 工作的高級軟件工程師。他有科學(xué)計算研究和并行軟件開發(fā)的背景。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5026瀏覽量
103298 -
gpu
+關(guān)注
關(guān)注
28文章
4754瀏覽量
129096 -
python
+關(guān)注
關(guān)注
56文章
4800瀏覽量
84842
發(fā)布評論請先 登錄
相關(guān)推薦
評論