雪鹰领主,完美世界小说txt下载,完结小说排行榜

異構計算是指高效地使用系統中的所有處理器，包括 CPU 和 GPU 。為此，應用程序必須在多個處理器上并發執行函數。 CUDA 應用程序通過在 streams 中執行異步命令來管理并發性，這些命令是按順序執行的。不同的流可以并發地執行它們的命令，也可以彼此無序地執行它們的命令。[見帖子[See the post 如何在 CUDA C / C ++中實現數據傳輸的重疊 ]

在不指定流的情況下執行異步 CUDA 命令時，運行時使用默認流。在 CUDA 7 之前，默認流是一個特殊流，它隱式地與設備上的所有其他流同步。

CUDA 7 引入了大量強大的新功能，包括一個新的選項，可以為每個主機線程使用獨立的默認流，這避免了傳統默認流的序列化。在這篇文章中，我將向您展示如何在 CUDA 程序中簡化實現內核和數據副本之間的并發。

CUDA 中的異步命令

如 CUDA C 編程指南所述，異步命令在設備完成請求的任務之前將控制權返回給調用主機線程（它們是非阻塞的）。這些命令是：

內核啟動；
存儲器在兩個地址之間復制到同一設備存儲器；
從主機到設備的 64kb 或更少內存塊的內存拷貝；
由后綴為 Async 的函數執行的內存復制；
內存設置函數調用。

為內核啟動或主機設備內存復制指定流是可選的；您可以調用 CUDA 命令而不指定流（或通過將 stream 參數設置為零）。下面兩行代碼都在默認流上啟動內核。

  kernel<<< blocks, threads, bytes >>>();    // default stream
  kernel<<< blocks, threads, bytes, 0 >>>(); // stream 0

默認流

在并發性對性能不重要的情況下，默認流很有用。在 CUDA 7 之前，每個設備都有一個用于所有主機線程的默認流，這會導致隱式同步。正如 CUDA C 編程指南中的“隱式同步”一節所述，如果主機線程向它們之間的默認流發出任何 CUDA 命令，來自不同流的兩個命令就不能并發運行。

CUDA 7 引入了一個新選項，每線程默認流，它有兩個效果。首先，它為每個主機線程提供自己的默認流。這意味著不同主機線程向默認流發出的命令可以并發運行。其次，這些默認流是常規流。這意味著默認流中的命令可以與非默認流中的命令同時運行。

要在 nvcc 7 及更高版本中啟用每線程默認流，您可以在包含 CUDA 頭（ cuda.h 或 cuda_runtime.h ）之前，使用 nvcc 命令行選項 CUDA 或 #define 編譯 CUDA_API_PER_THREAD_DEFAULT_STREAM 預處理器宏。需要注意的是：當代碼由 nvcc 編譯時，不能使用 #define CUDA_API_PER_THREAD_DEFAULT_STREAM 在。 cu 文件中啟用此行為，因為 nvcc 在翻譯單元的頂部隱式包含了 cuda_runtime.h 。

多流示例

讓我們看一個小例子。下面的代碼簡單地在八個流上啟動一個簡單內核的八個副本。我們只為每個網格啟動一個線程塊，這樣就有足夠的資源同時運行多個線程塊。作為遺留默認流如何導致序列化的示例，我們在默認流上添加了不起作用的虛擬內核啟動。這是密碼。

const int N = 1 << 20;

__global__ void kernel(float *x, int n)
{
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    for (int i = tid; i < n; i += blockDim.x * gridDim.x) {
        x[i] = sqrt(pow(3.14159,i));
    }
}

int main()
{
    const int num_streams = 8;

    cudaStream_t streams[num_streams];
    float *data[num_streams];

    for (int i = 0; i < num_streams; i++) {
        cudaStreamCreate(&streams[i]);

        cudaMalloc(&data[i], N * sizeof(float));

        // launch one worker kernel per stream
        kernel<<<1, 64, 0, streams[i]>>>(data[i], N);

        // launch a dummy kernel on the default stream
        kernel<<<1, 1>>>(0, 0);
    }

    cudaDeviceReset();

    return 0;
}

首先讓我們檢查遺留行為，通過不帶選項的編譯。

nvcc ./stream_test.cu -o stream_legacy

我們可以在 NVIDIA visualprofiler （nvvp）中運行該程序，以獲得顯示所有流和內核啟動的時間軸。圖 1 顯示了 Macbook Pro 上生成的內核時間線，該 Macbook Pro 帶有 NVIDIA GeForce GT 750M （一臺開普勒 GPU ）。您可以看到默認流上虛擬內核的非常小的條，以及它們如何導致所有其他流序列化。

現在讓我們嘗試新的每線程默認流。

nvcc --default-stream per-thread ./stream_test.cu -o stream_per-thread

圖 2 顯示了來自nvvp的結果。在這里您可以看到九個流之間的完全并發：默認流（在本例中映射到流 14 ）和我們創建的其他八個流。請注意，虛擬內核運行得如此之快，以至于很難看到在這個圖像中默認流上有八個調用。

圖 2 ：使用新的每線程默認流選項的多流示例，它支持完全并發執行。

多線程示例

讓我們看另一個例子，該示例旨在演示新的默認流行為如何使多線程應用程序更容易實現執行并發。下面的例子創建了八個 POSIX 線程，每個線程在默認流上調用我們的內核，然后同步默認流。（我們需要在本例中進行同步，以確保探查器在程序退出之前獲得內核開始和結束時間戳。）

#include 
#include 

const int N = 1 << 20;

__global__ void kernel(float *x, int n)
{
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    for (int i = tid; i < n; i += blockDim.x * gridDim.x) {
        x[i] = sqrt(pow(3.14159,i));
    }
}

void *launch_kernel(void *dummy)
{
    float *data;
    cudaMalloc(&data, N * sizeof(float));

    kernel<<<1, 64>>>(data, N);

    cudaStreamSynchronize(0);

    return NULL;
}

int main()
{
    const int num_threads = 8;

    pthread_t threads[num_threads];

    for (int i = 0; i < num_threads; i++) {
        if (pthread_create(&threads[i], NULL, launch_kernel, 0)) {
            fprintf(stderr, "Error creating threadn");
            return 1;
        }
    }

    for (int i = 0; i < num_threads; i++) {
        if(pthread_join(threads[i], NULL)) {
            fprintf(stderr, "Error joining threadn");
            return 2;
        }
    }

    cudaDeviceReset();

    return 0;
}

首先，讓我們編譯時不使用任何選項來測試遺留的默認流行為。

nvcc ./pthread_test.cu -o pthreads_legacy

當我們在nvvp中運行它時，我們看到一個流，默認流，所有內核啟動都序列化，如圖 3 所示。

圖 3 ：一個具有遺留默認流行為的多線程示例：所有八個線程都被序列化。

讓我們用新的 per-thread default stream 選項編譯它。

nvcc --default-stream per-thread ./pthread_test.cu -o pthreads_per_thread

圖 4 顯示，對于每個線程的默認流，每個線程都會自動創建一個新的流，它們不會同步，因此所有八個線程的內核都會并發運行。

圖 4 ：每個線程默認流的多線程示例：所有八個線程的內核同時運行。

VSS在數據備份中的作用 VSS技術的優勢與劣勢

的一項服務，它允許用戶創建文件和文件系統的快照，即影子副本。這些快照可以用于數據備份、恢復和分析，而不需要中斷當前的文件系統操作。 2. VSS在數據備份中的作用一致性備份：VSS

發表于 12-13 16:03 ?213次閱讀

行業動態 | 英偉達2024年將出貨10億個RISC-V 內核

據Tomshardware援引@NickBrownHPC的爆料稱，盡管英偉達（NVIDIA）的GPU依賴于其專有的CUDA內核，這些內核具有其指令集架構并支持各種數據格式。但是在本月的

發表于 10-29 08:07 ?316次閱讀

行業動態 | 英偉達2024年將出貨10億個RISC-V <b class='flag-5'>內核</b>

linux驅動程序如何加載進內核

在Linux系統中，驅動程序是內核與硬件設備之間的橋梁。它們允許內核與硬件設備進行通信，從而實現對硬件設備的控制和管理。驅動程序的編寫驅

發表于 08-30 15:02 ?518次閱讀

內核程序漏洞介紹

電子發燒友網站提供《內核程序漏洞介紹.pdf》資料免費下載

發表于 08-12 09:38 ?0次下載

高并發系統的藝術：如何在流量洪峰中游刃有余

前言我們常說的三高，高并發、高可用、高性能，這些技術是構建現代互聯網應用程序所必需的。對于京東618備戰來說，所有的中臺系統服務，無疑都是圍繞著三高來展開的。而對于京東龐大的客戶群體，高并發

發表于 08-05 13:43 ?299次閱讀

XMC1302T028X0016ABXUMA1如何在閃存中存儲數據？

你好，我想在 MCU 中存儲一些配置參數。如何在閃存中存儲這些數據？我只需要在發貨前寫一次這些數據。我指的是這份文件https://w

發表于 07-04 07:32

請問cmakelists中的變量如何在程序中使用？

大家好，我有個問題請教，cmakelists.txt中的變量如何在程序中使用？比如以下cmakelists.txt文件中的PROJECT_VER變量，我如

發表于 06-11 07:34

如何在AIROC GUI上獲取良好數據包和總數據包？

使用 IQxel-MW LifePoint 作為發生器并發送波形BT_1DH5_00001111_Fs80M.iqvsg，但無法在 AIROC 工具中接收數據包。以下是從 IQxel 發送

發表于 05-22 06:39

如何在CYW54907上使用wl工具執行睡眠、傳輸等命令？

如何在CYW54907 中配置CYW954907AEVAL1F 中的 wlan Sleep。我嘗試使用 WICED SDK 和 ModusToolBox 對設備進行編程。我使用 Wiced

發表于 05-20 06:37

Keil使用AC6編譯提示CUDA版本過高怎么解決？

\' ArmClang: warning: Unknown CUDA version 10.2. Assuming the latest supported version 10.1

發表于 04-11 07:56

如何在ModusToolbox?中檢查和設置應用程序的內存地址？

如何在ModusToolbox?中檢查和設置應用程序的內存地址？

發表于 03-01 10:16

can總線的數據幀中數據長度碼和數據字節數的關系？

can總線的數據幀中數據長度碼和數據字節數的關系？ CAN總線是一種常用于數據通信的協議，它使用數據

發表于 01-31 11:31 ?2478次閱讀

如何使用SCR XRAM作為程序存儲器和數據存儲器？

1) 允許一個物理內存（即 XRAM) 可同時作為程序存儲器和數據存儲器進行訪問如何使用 SCR XRAM 作為程序存儲器和數據存儲器。 1) 用于存儲 scr

發表于 01-30 08:18

使用TCPWM信道同時使用兩個內核CM7_0和CM7_1并生成中斷，如何在多核CPU中配置TCPWM？

我正在尋找一些例子：使用 TCPWM 信道同時使用兩個內核 CM7_0 和 CM7_1 并生成中斷，如何在多核 CPU 中配置 TCPWM？

發表于 01-30 06:46

如何在PSoC Creator中安裝GSL庫？

的，并且僅使用其他方法的一小部分資源。（在尋找解決方案時，TSQR 并不要求所有數據點都保留在 SRAM 中。除非它也具有此功能，否則請不要建議其他方法。）我現在想將代碼移植到我的 PSoc4 上。如何在 PSoC Cr

發表于 01-23 06:22

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

如何在CUDA程序中簡化內核和數據副本的并發

CUDA 中的異步命令

默認流

多流示例

多線程示例

更多提示

評論

VSS在數據備份中的作用 VSS技術的優勢與劣勢

行業動態 | 英偉達2024年將出貨10億個RISC-V 內核

linux驅動程序如何加載進內核

內核程序漏洞介紹

高并發系統的藝術：如何在流量洪峰中游刃有余

XMC1302T028X0016ABXUMA1如何在閃存中存儲數據？

請問cmakelists中的變量如何在程序中使用？

如何在AIROC GUI上獲取良好數據包和總數據包？

如何在CYW54907上使用wl工具執行睡眠、傳輸等命令？

Keil使用AC6編譯提示CUDA版本過高怎么解決？

如何在ModusToolbox?中檢查和設置應用程序的內存地址？

can總線的數據幀中數據長度碼和數據字節數的關系？

如何使用SCR XRAM作為程序存儲器和數據存儲器？

使用TCPWM信道同時使用兩個內核CM7_0和CM7_1并生成中斷，如何在多核CPU中配置TCPWM？

如何在PSoC Creator中安裝GSL庫？