小说阅读网,武道至尊帝临小说,懒人听书

CUDA 5 為 CUDA 工具箱添加了一個強大的新工具： nvprof 。 nvprof 是一個可用于 Linux 、 Windows 和 OS X 的命令行探查器。乍一看， nvprof 似乎只是 NVIDIA Visual Profiler 和 NSight 日蝕版中圖形分析功能的無 GUI 版本。但是 nvprof 遠不止這些；對我來說， nvprof 是一個輕量級的分析器，它達到了其他工具所不能達到的水平。

使用 `nvprof` 進行快速檢查

我經(jīng)常想知道我的 CUDA 應(yīng)用程序是否按預期運行。有時這只是一個正常的檢查：應(yīng)用程序是否在 GPU 上運行內(nèi)核？它是否執(zhí)行過多的內(nèi)存復制？通過使用 nvprof ./myApp 運行我的應(yīng)用程序，我可以快速看到它所使用的所有內(nèi)核和內(nèi)存副本的摘要，如下面的示例輸出所示。

    ==9261== Profiling application: ./tHogbomCleanHemi

    ==9261== Profiling result:

    Time(%)      Time     Calls       Avg       Min       Max  Name

     58.73%  737.97ms      1000  737.97us  424.77us  1.1405ms  subtractPSFLoop_kernel(float const *, int, float*, int, int, int, int, int, int, int, float, float)

     38.39%  482.31ms      1001  481.83us  475.74us  492.16us  findPeakLoop_kernel(MaxCandidate*, float const *, int)

      1.87%  23.450ms         2  11.725ms  11.721ms  11.728ms  [CUDA memcpy HtoD]

      1.01%  12.715ms      1002  12.689us  2.1760us  10.502ms  [CUDA memcpy DtoH]

在默認的摘要模式中， nvprof 提供了應(yīng)用程序中 GPU 內(nèi)核和內(nèi)存副本的概述。摘要將對同一內(nèi)核的所有調(diào)用組合在一起，顯示每個內(nèi)核的總時間和總應(yīng)用程序時間的百分比。除了摘要模式之外， nvprof 還支持 GPU – 跟蹤和 API 跟蹤模式，它可以讓您看到所有內(nèi)核啟動和內(nèi)存副本的完整列表，在 API 跟蹤模式下，還可以看到所有 CUDA API 調(diào)用的完整列表。

下面是一個使用 nvprof --print-gpu-trace 評測在我的電腦上的兩個 GPUs 上運行的 nbody 示例應(yīng)用程序的示例。我們可以看到每個內(nèi)核在哪個 GPU 上運行，以及每次啟動使用的網(wǎng)格維度。當您想驗證 multi- GPU 應(yīng)用程序是否按預期運行時，這非常有用。

nvprof --print-gpu-trace ./nbody --benchmark -numdevices=2 -i=1

...

==4125== Profiling application: ./nbody --benchmark -numdevices=2 -i=1

==4125== Profiling result:

   Start  Duration            Grid Size      Block Size     Regs*    SSMem*    DSMem*      Size  Throughput           Device   Context    Stream  Name

260.78ms     864ns                    -               -         -         -         -        4B  4.6296MB/s   Tesla K20c (0)         2         2  [CUDA memcpy HtoD]

260.79ms     960ns                    -               -         -         -         -        4B  4.1667MB/s  GeForce GTX 680         1         2  [CUDA memcpy HtoD]

260.93ms     896ns                    -               -         -         -         -        4B  4.4643MB/s   Tesla K20c (0)         2         2  [CUDA memcpy HtoD]

260.94ms     672ns                    -               -         -         -         -        4B  5.9524MB/s  GeForce GTX 680         1         2  [CUDA memcpy HtoD]

268.03ms  1.3120us                    -               -         -         -         -        8B  6.0976MB/s   Tesla K20c (0)         2         2  [CUDA memcpy HtoD]

268.04ms     928ns                    -               -         -         -         -        8B  8.6207MB/s  GeForce GTX 680         1         2  [CUDA memcpy HtoD]

268.19ms     864ns                    -               -         -         -         -        8B  9.2593MB/s   Tesla K20c (0)         2         2  [CUDA memcpy HtoD]

268.19ms     800ns                    -               -         -         -         -        8B  10.000MB/s  GeForce GTX 680         1         2  [CUDA memcpy HtoD]

274.59ms  2.2887ms             (52 1 1)       (256 1 1)        36        0B  4.0960KB         -           -   Tesla K20c (0)         2         2  void integrateBodies(vec4::Type*, vec4::Type*, vec4::Type*, unsigned int, unsigned int, float, float, int) [242]

274.67ms  981.47us             (32 1 1)       (256 1 1)        36        0B  4.0960KB         -           -  GeForce GTX 680         1         2  void integrateBodies(vec4::Type*, vec4::Type*, vec4::Type*, unsigned int, unsigned int, float, float, int) [257]

276.94ms  2.3146ms             (52 1 1)       (256 1 1)        36        0B  4.0960KB         -           -   Tesla K20c (0)         2         2  void integrateBodies(vec4::Type*, vec4::Type*, vec4::Type*, unsigned int, unsigned int, float, float, int) [275]

276.99ms  979.36us             (32 1 1)       (256 1 1)        36        0B  4.0960KB         -           -  GeForce GTX 680         1         2  void integrateBodies(vec4::Type*, vec4::Type*, vec4::Type*, unsigned int, unsigned int, float, float, int) [290]



Regs: Number of registers used per CUDA thread.

SSMem: Static shared memory allocated per CUDA block.

DSMem: Dynamic shared memory allocated per CUDA block.

使用`nvprof`to ProfileAnything

nvprof 知道如何評測運行在 GPUs NVIDIA 上的 CUDA 內(nèi)核，不管它們是用什么語言編寫的（只要它們是使用 CUDA 運行時 API 或驅(qū)動程序 API 啟動的）。這意味著我可以使用 nvprof 來評測 OpenACC 程序（沒有顯式內(nèi)核），甚至可以在內(nèi)部生成 PTX 匯編內(nèi)核的程序。 Mark Ebersole 在他最近關(guān)于 CUDA Python 的 CUDA Cast （第十集）中展示了一個很好的例子，其中他使用 NumbaPro 編譯器（來自 Continuum Analytics ）及時編譯了一個 Python 函數(shù)，并在 GPU 上并行運行。

在 OpenACC 或 CUDA Python 程序的初始實現(xiàn)過程中，函數(shù)是否在 nvprof 或 GPU 上運行可能并不明顯（尤其是如果您沒有計時）。在 Mark 的例子中，他在 GPU 內(nèi)部運行 Python 解釋器，捕捉應(yīng)用程序的 CUDA 函數(shù)調(diào)用和內(nèi)核啟動的跟蹤，顯示內(nèi)核確實在 GPU 上運行，以及用于將數(shù)據(jù)從 CPU 傳輸?shù)?GPU 的 cudaMemcpy 調(diào)用。這是一個很好的例子，說明了像 nvprof 這樣的輕量級命令行 GPU 探查器的“健全性檢查”功能。

使用`nvprof`進行遠程分析

有時，您正在部署的系統(tǒng)不是您的桌面系統(tǒng)。例如，如果您使用的是 GPU 集群或云系統(tǒng)，如 Amazon EC2 ，并且您只能通過終端訪問機器。這是 nvprof 的另一個重要用途。只需連接到遠程計算機（例如使用 ssh ，并在 nvprof 下運行應(yīng)用程序。

通過使用 --output-profile 命令行選項，您可以輸出一個數(shù)據(jù)文件，以便以后導入到 nvprof 或 NVIDIA 可視化探查器中。這意味著您可以在遠程計算機上捕獲一個概要文件，然后在可視化分析器中可視化并分析桌面上的結(jié)果（有關(guān)詳細信息，請參見“ 遠程分析 ”）。

nvprof 提供了一個方便的選項（ --analysis-metrics ），用于捕獲 visualprofiler 在其“引導分析”模式下所需的所有 GPU 指標。下面的屏幕截圖顯示了用于確定內(nèi)核瓶頸的可視化分析器。此分析的數(shù)據(jù)是使用下面的命令行捕獲的。

nvprof --analysis-metrics -o  nbody-analysis.nvprof ./nbody --benchmark -numdevices=2 -i=1

分析從 nvp 命令行分析器導入的數(shù)據(jù)的 NVIDIA 可視化分析器（ nvp ）的屏幕截圖。

非常方便的工具

如果您是命令行工具的粉絲，我想您會喜歡使用 nvprof 。 nvprof 可以做的還有很多，我在這里還沒有提到，比如在 NVIDIA 可視化分析器中收集分析指標。關(guān)于作者

Mark Harris 是 NVIDIA 杰出的工程師，致力于 RAPIDS 。 Mark 擁有超過 20 年的 GPUs 軟件開發(fā)經(jīng)驗，從圖形和游戲到基于物理的模擬，到并行算法和高性能計算。當他還是北卡羅來納大學的博士生時，他意識到了一種新生的趨勢，并為此創(chuàng)造了一個名字： GPGPU （圖形處理單元上的通用計算）。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4762

瀏覽量
129147
Linux

Linux

+關(guān)注

關(guān)注
87

文章
11331

瀏覽量
209986
WINDOWS

WINDOWS

+關(guān)注

關(guān)注
4

文章
3554

瀏覽量
89013

圖形用戶界面與命令行接口的比較

界面（GUI）： GUI是一種用戶界面，允許用戶通過圖形圖標和視覺指示器與電子設(shè)備進行交互。它通常包括窗口、按鈕、圖標和菜單等元素，用戶可以通過鼠標或觸摸屏進行操作。 命令行接口（CLI）： CLI是一種用戶界面，用戶通過輸入文本

發(fā)表于 11-12 14:38 ?467次閱讀

Mobaxterm 的命令行使用方法

的遠程桌面協(xié)議（如RDP和VNC），以及文件傳輸協(xié)議（如FTP和SFTP）。本文將詳細介紹如何使用Mobaxterm的命令行功能。 2. 安裝 Mobaxterm 在開始之前，確保你已經(jīng)安裝

發(fā)表于 11-11 09:08 ?1797次閱讀

APM32F411板的python+pyocd命令行操作

前段時間學習了一下如何使用pyocd配合APM32F411VCTINY板在命令行下給它進行各種騷操作，在使用一段時間后就想著：pyocd是基于python的，那是不是也可以使用python腳本+pyocd使用起來呢？

發(fā)表于 10-18 16:21 ?375次閱讀

Windows操作系統(tǒng)中的常用命令

Windows操作系統(tǒng)提供了許多實用的命令行工具，通過命令行界面（Command Prompt）或Windows PowerShell，用戶可以執(zhí)行各種任務(wù)，如文件管理、系統(tǒng)維護、網(wǎng)絡(luò)配置等。掌握

發(fā)表于 08-07 15:40 ?694次閱讀

使用idf4.3在命令行打開menuconfig，如何才能開啟lwip配置界面？

請問使用idf4.3在命令行打開menuconfig，如何才能開啟lwip配置界面。

發(fā)表于 06-21 06:08

請問CY8CKIT-005-A是否支持命令行編程？

我使用 minipro4 SWD 和 MTB-programmer 5.0 對 MCU 編程，在批量生產(chǎn)中，我們希望使用腳本編程，它是否支持命令行編程？

發(fā)表于 06-03 06:19

鴻蒙ArkUI-X跨平臺開發(fā)：【命令行工具（ACE Tools）】

ACE Tools是一套為ArkUI-X項目跨平臺應(yīng)用開發(fā)者提供的命令行工具，支持在Windows/Ubuntu/macOS平臺運行，用于構(gòu)建OpenHarmony/HarmonyOS、Android和iOS平臺的應(yīng)用程序，其功能包括開發(fā)環(huán)境檢查，新建項目，編譯打包，安裝

發(fā)表于 05-21 17:39 ?1904次閱讀

高效云端管理的秘訣——華為云命令行工具 KooCLI

發(fā)現(xiàn)了云上命令行工具，我的云端管理效率從此得到了質(zhì)的飛躍。我從華為云官方產(chǎn)品幫助文檔中了解了 KooCLI 工具，文檔中介紹的便捷操作和高效管理讓我心動不已，于是，我開啟了我的體驗。通過簡單的

發(fā)表于 05-10 00:25 ?719次閱讀

鴻蒙OpenHarmony南向：【Hi3516標準系統(tǒng)入門（命令行方式）】

除小型系統(tǒng)外，Hi3516DV300開發(fā)板還支持標準系統(tǒng)。此章節(jié)簡要介紹如何使用命令行在Hi3516DV300開發(fā)板上進行標準系統(tǒng)的開發(fā)。

發(fā)表于 05-08 09:26 ?920次閱讀

STM8 flash loader命令行調(diào)用錯誤的原因？

[td]我目前在用flash loader的命令行，編寫自己的上位機軟件來升級程序，但是在用命令行調(diào)用的時候一直出錯，有人能幫忙分析下嗎？我編寫的bat文件

發(fā)表于 05-06 07:23

HarmonyOS開發(fā)：【基于命令行（安裝庫和工具集）】

使用命令行進行設(shè)備開發(fā)時，可以通過以下步驟安裝編譯OpenHarmony需要的庫和工具。

發(fā)表于 04-25 21:03 ?453次閱讀

香港vps的centos如何切換命令行和桌面？

要在CentOS上切換命令行和桌面環(huán)境，您可以通過以下步驟進行： 1、安裝桌面環(huán)境：如果您的CentOS VPS上還沒有安裝圖形桌面環(huán)境，您需要安裝一個。一般來說，常用的桌面環(huán)境有GNOME、KDE

發(fā)表于 04-10 17:41 ?684次閱讀

STM32G070RB使用jlink命令行下載無法識別芯片怎么解決？

STM32G070RB 使用jlink命令行下載無法識別芯片，想手動添加芯片，請問哪里可以下載驅(qū)動.elf文件或者有什么方法能夠?qū)崿F(xiàn)jlink命令行下載

發(fā)表于 04-02 06:15

分享一個據(jù)說是比Wget、Curl更強大的下載工具！

aria2 是一款輕量且高效的命令行下載工具。堪稱下載利器！

發(fā)表于 02-20 10:24 ?885次閱讀

tasking的命令行控制中如何生成makefiles文件？

tasking的命令行控制中如何生成makefiles文件？

發(fā)表于 02-06 07:56