在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

剖析GPU分支分歧對(duì)性能的影響

B4Pb_gh_6fde77c ? 來(lái)源:GPU and Computing ? 作者: GPUComputing ? 2021-08-13 16:07 ? 次閱讀

在先前文章中,我們談到現(xiàn)代GPU發(fā)展出SIMT(Single Instruction Multiple Thread)的執(zhí)行結(jié)構(gòu),硬件線(xiàn)程池的線(xiàn)程們有相對(duì)獨(dú)立的運(yùn)行上下文,以Warp為單位分發(fā)到一組處理單元按SIMD的模式運(yùn)行。

這些Warp內(nèi)的線(xiàn)程共享同樣的PC,以鎖步的方式執(zhí)行指令,但是每個(gè)線(xiàn)程又可以有自己的執(zhí)行分支。很自然衍生的一個(gè)問(wèn)題就是現(xiàn)代GPU如何有效的處理Branch Divergence(分支分歧)?

一方面為適應(yīng)復(fù)雜圖形渲染以及通用計(jì)算的要求,GPU編程語(yǔ)言像其它高級(jí)語(yǔ)言一樣需要支持各種各樣的流控制(Flow Control)指令,比如ifswitchdoforwhile等等,這些指令都會(huì)導(dǎo)致分支分歧。

另一方面GPU并行計(jì)算的特點(diǎn)要求所有處理單元整齊劃一地執(zhí)行相同指令,才能夠取得性能最大化。如何較好地解決這兩種不同要求導(dǎo)致的沖突,一直是GPU研究中的熱點(diǎn)難點(diǎn)問(wèn)題。在這里筆者沒(méi)有能力深入探討,只是淺嘗輒止做一般介紹,主要求這個(gè)系列內(nèi)容完整,不足甚至謬誤之處,請(qǐng)各位看官不吝指正。

一,分支分歧對(duì)性能的影響

這一節(jié)我們首先來(lái)討論下分支分歧對(duì)GPU性能的影響。以如下ifelse代碼為例,我們看下GPU一般是如何來(lái)處理分支分歧的?

if (cond) {。。。} else {。。。}

假設(shè)一個(gè)Warp中有16個(gè)線(xiàn)程判斷條件為真,另外16個(gè)線(xiàn)程條件為假,所以一半線(xiàn)程會(huì)執(zhí)行if中的語(yǔ)句,另一半線(xiàn)程執(zhí)行else中的語(yǔ)句。這看起來(lái)像個(gè)悖論,我們知道Warp中的線(xiàn)程同一時(shí)刻只能執(zhí)行相同的指令。

實(shí)際上遇到分支分歧時(shí)GPU會(huì)順序執(zhí)行每個(gè)分支路徑,而禁用不在此路徑上的線(xiàn)程,直到所有有線(xiàn)程使能的分支路徑都走完,線(xiàn)程再重新匯合到同一執(zhí)行路徑。每個(gè)分支都有些線(xiàn)程不干活或者干無(wú)用功,Warp實(shí)際上需要執(zhí)行的指令數(shù)目大增。

假設(shè)每個(gè)分支任務(wù)量大致相同,分支分歧造成的性能損失少則原先的一半,最壞的情況如果每個(gè)線(xiàn)程執(zhí)行分支都不一致,性能下降為最高時(shí)候的1/32。

所以無(wú)論在設(shè)計(jì)算法還是分配處理數(shù)據(jù)的時(shí)候,我們都要小心盡量避免同一個(gè)Warp內(nèi)線(xiàn)程出現(xiàn)分支分歧的狀況,在遇到流控制指令的時(shí)候,最好能夠選擇同樣的路徑。

二,如何實(shí)現(xiàn)Reconvergence

上一節(jié)我們講了Warp的線(xiàn)程產(chǎn)生了分支分歧之后,為求性能最佳,不可能讓它們一直放任自流,最終還是要盡可能在合適時(shí)機(jī)把它們重新匯合(Reconverge)起來(lái)。但這一切是如何實(shí)現(xiàn)的呢?

按照參考1的說(shuō)法,“The SM uses a branch synchronization stack to manage independent threads that diverge and converge” 。下面根據(jù)可接觸到的文獻(xiàn)我們看看大概是如何實(shí)現(xiàn)的,不一定跟GPU產(chǎn)商的實(shí)際做法一致。

我們稱(chēng)這個(gè)Warp運(yùn)行時(shí)棧為SIMT Stack,每個(gè)Warp擁有一個(gè)SIMT棧用于處理SIMT執(zhí)行模式中的分支分歧。

首先我們需要先確定分支分歧的最近重匯合點(diǎn)(Reconvergence Point),一般可以選用造成分支分歧節(jié)點(diǎn)的直接后序支配節(jié)點(diǎn)(Immediate post-dominator,若控制流圖的節(jié)點(diǎn)n 到終結(jié)節(jié)點(diǎn)的每一條路徑均要經(jīng)過(guò)節(jié)點(diǎn)d,則稱(chēng)節(jié)點(diǎn)d后序支配節(jié)點(diǎn)n,如d與n之間沒(méi)有任何其他節(jié)點(diǎn)后序支配n,則稱(chēng)節(jié)點(diǎn)d直接后序支配節(jié)點(diǎn)n)。

這可以通過(guò)編譯時(shí)的控制流分析得到。左邊是我們假想的一段GPU偽代碼,右邊是對(duì)應(yīng)的控制流圖,我們假設(shè)SIMD通道的數(shù)目是4,每個(gè)節(jié)點(diǎn)邊上的掩碼數(shù)字代表通道上線(xiàn)程在該節(jié)點(diǎn)基本塊有沒(méi)有使能。

SIMT棧結(jié)構(gòu)每個(gè)條目由執(zhí)行指令PC、分支重匯合PC(RPC)和使能線(xiàn)程掩碼三部分組成。執(zhí)行流從節(jié)點(diǎn)B分支分歧到節(jié)點(diǎn)E重新匯合時(shí)SIMT棧的更新過(guò)程。執(zhí)行的時(shí)候,遇到流控制指令,我們將各個(gè)分支依次入棧,棧頂條目的PC會(huì)被送到取指單元開(kāi)始相應(yīng)分支路徑的處理。

只有條目掩碼中使能的線(xiàn)程會(huì)處于活躍狀態(tài),當(dāng)下一條PC等于棧頂條目RPC的時(shí)候,說(shuō)明該分支已經(jīng)到了匯合點(diǎn),棧頂條目會(huì)被彈出,開(kāi)始下一分支的處理以至所有執(zhí)行線(xiàn)程匯合并共同執(zhí)行接下來(lái)的指令。值得注意的是真實(shí)環(huán)境下GPU都設(shè)計(jì)有一些特殊指令來(lái)維護(hù)SIMT棧。

下圖表示上面代碼在時(shí)間軸上的執(zhí)行過(guò)程,實(shí)心箭頭表示對(duì)應(yīng)線(xiàn)程在該執(zhí)行節(jié)點(diǎn)處于活躍狀態(tài),反之空心箭頭代表不活躍狀態(tài)。

ada94e44-fbb9-11eb-9bcf-12bb97331649.png

基于SIMT棧的Reconvergence方案并不完美,其中一個(gè)很大的問(wèn)題是Warp內(nèi)線(xiàn)程細(xì)粒度同步的時(shí)候很容易引發(fā)死鎖。按照Nvidia的說(shuō)法,“algorithms requiring fine-grainedsharing of data guarded by locks or mutexes can easily lead to deadlock,depending on which warp the contending threads come from.”。

以下面代碼為例,某幸運(yùn)線(xiàn)程拿到鎖之后,在最近重匯合點(diǎn)C等著與大部隊(duì)接頭,不幸的是它無(wú)法執(zhí)行下面的Exch指令以釋放鎖,導(dǎo)致其它線(xiàn)程只能在B處空轉(zhuǎn),形成死鎖。

adb72852-fbb9-11eb-9bcf-12bb97331649.png

從更高的層次上理解,分支分歧導(dǎo)致的順序執(zhí)行只發(fā)生在Warp內(nèi)的線(xiàn)程,Warp之間卻相互不受干擾,這種不一致的處理方式對(duì)算法移植的適應(yīng)性還是可預(yù)測(cè)性都會(huì)帶來(lái)影響。Nvidia從Volta GPU開(kāi)始做出了改進(jìn)。

提出了“Independent Thread Scheduling”的方法,使得所有線(xiàn)程無(wú)關(guān)所在Warp可以具有同樣并發(fā)執(zhí)行能力,為此相比之前的GPU其Warp內(nèi)所有線(xiàn)程共享PC以及運(yùn)行棧,Volta GPU的線(xiàn)程都分別有各自的PC和運(yùn)行棧,如下圖所示。

adc43d30-fbb9-11eb-9bcf-12bb97331649.png

如此針對(duì)同樣的GPU程序以及分支分歧,Volta與之前的GPU相比有截然不同的調(diào)度行為。我們注意到在Volta中所有的Warp線(xiàn)程并沒(méi)有一起強(qiáng)制匯合執(zhí)行Z基本塊,主要考慮到Z可能作為生產(chǎn)者需要提供其它執(zhí)行分支依賴(lài)的的數(shù)據(jù)。

回到我們先前死鎖的例子,在Volta中這個(gè)死鎖便可迎刃而解。如果我們明顯了解相關(guān)分支不存在同步行為,為優(yōu)化性能計(jì),CUDA提供了 __syncwarp() 函數(shù)以便強(qiáng)制匯合。

add48e2e-fbb9-11eb-9bcf-12bb97331649.png

主要參考資料

NVIDIA Tesla: A Unified Graphics and Computing Architecture

Dynamic Warp Formation and Scheduling for Efficient GPU Control Flow

https://developer.nvidia.com/blog/inside-volta/

General-Purpose Graphics Processor Architectures

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4760

    瀏覽量

    129133
  • PC
    PC
    +關(guān)注

    關(guān)注

    9

    文章

    2096

    瀏覽量

    154404
  • 編程
    +關(guān)注

    關(guān)注

    88

    文章

    3633

    瀏覽量

    93854

原文標(biāo)題:近距離看GPU計(jì)算(3)

文章出處:【微信號(hào):gh_6fde77c41971,微信公眾號(hào):FPGA干貨】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    BNC接頭技術(shù)原理與工程應(yīng)用剖析:從結(jié)構(gòu)到性能優(yōu)化

    在現(xiàn)代電子通信和射頻領(lǐng)域,BNC接頭作為一種廣泛應(yīng)用的連接器件,發(fā)揮著至關(guān)重要的作用。它以其可靠的連接性能、優(yōu)異的電氣特性和廣泛的兼容性,成為眾多電子設(shè)備和系統(tǒng)中不可或缺的一部分。本文將深入剖析
    的頭像 發(fā)表于 12-31 16:07 ?199次閱讀
    BNC接頭技術(shù)原理與工程應(yīng)用<b class='flag-5'>剖析</b>:從結(jié)構(gòu)到<b class='flag-5'>性能</b>優(yōu)化

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    問(wèn)題,但會(huì)降低舊GPU硬件性能,可通過(guò)NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU計(jì)算需要啟用,可通過(guò)命令行工具nvidia
    發(fā)表于 12-16 14:25

    NPU與GPU性能對(duì)比

    NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)與GPU(Graphics Processing Unit,圖形處理單元)在性能上各有千秋,它們各自的設(shè)計(jì)初衷和優(yōu)化方向決定了
    的頭像 發(fā)表于 11-14 15:19 ?1401次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--了解算力芯片GPU

    本篇閱讀學(xué)習(xí)第七、八章,了解GPU架構(gòu)演進(jìn)及CPGPU存儲(chǔ)體系與線(xiàn)程管理 █從圖形到計(jì)算的GPU架構(gòu)演進(jìn) GPU圖像計(jì)算發(fā)展 ●從三角形開(kāi)始的幾何階段 在現(xiàn)代圖形渲染中,三角形是最常用的基本圖形元素
    發(fā)表于 11-03 12:55

    常見(jiàn)GPU問(wèn)題及解決方法

    各種問(wèn)題。以下是一些常見(jiàn)的GPU問(wèn)題及其解決方法: GPU驅(qū)動(dòng)程序過(guò)時(shí)或不兼容 問(wèn)題描述:GPU驅(qū)動(dòng)程序是GPU與操作系統(tǒng)之間的橋梁,負(fù)責(zé)將操作系統(tǒng)的指令轉(zhuǎn)換為
    的頭像 發(fā)表于 10-27 14:12 ?1676次閱讀

    如何提高GPU性能

    在當(dāng)今這個(gè)視覺(jué)至上的時(shí)代,GPU(圖形處理單元)的性能對(duì)于游戲玩家、圖形設(shè)計(jì)師、視頻編輯者以及任何需要進(jìn)行高強(qiáng)度圖形處理的用戶(hù)來(lái)說(shuō)至關(guān)重要。GPU不僅是游戲和多媒體應(yīng)用的心臟,它還在科學(xué)計(jì)算、深度
    的頭像 發(fā)表于 10-27 11:21 ?675次閱讀

    如何選擇適合的GPU

    在現(xiàn)代計(jì)算領(lǐng)域,GPU(圖形處理單元)的作用已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的圖形渲染。從深度學(xué)習(xí)到科學(xué)計(jì)算,再到視頻編輯,GPU都在發(fā)揮著越來(lái)越重要的作用。然而,市場(chǎng)上的GPU型號(hào)繁多,性能和價(jià)格
    的頭像 發(fā)表于 10-27 11:07 ?376次閱讀

    GPU性能服務(wù)器配置

    GPU性能服務(wù)器作為提升計(jì)算速度和效率的關(guān)鍵設(shè)備,在各大應(yīng)用場(chǎng)景中發(fā)揮著越來(lái)越重要的作用。在此,petacloud.ai小編為你介紹GPU性能服務(wù)器的配置要點(diǎn)。
    的頭像 發(fā)表于 10-21 10:42 ?247次閱讀

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書(shū)概覽

    GPU、NPU,給我們剖析了算力芯片的微架構(gòu)。書(shū)中有對(duì)芯片方案商處理器的講解,理論聯(lián)系實(shí)際,使讀者能更好理解算力芯片。 全書(shū)共11章,由淺入深,較系統(tǒng)全面進(jìn)行講解。下面目錄對(duì)全書(shū)內(nèi)容有一個(gè)整體了解
    發(fā)表于 10-15 22:08

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    紙質(zhì)媒體的高質(zhì)量和專(zhuān)業(yè)網(wǎng)絡(luò)媒體的信息更新速度。 算力芯片在最近15年有著巨大性能突破,這些年Intel的CPU芯片從雙核128位SIMD到眾核512位SIMD;NVIDIA的GPU產(chǎn)品從第一次實(shí)現(xiàn)頂點(diǎn)
    發(fā)表于 09-02 10:09

    探索巔峰性能 | 迅為RK3588開(kāi)發(fā)板深度剖析

    探索巔峰性能 | 迅為RK3588開(kāi)發(fā)板深度剖析
    的頭像 發(fā)表于 08-12 14:07 ?946次閱讀
    探索巔峰<b class='flag-5'>性能</b> | 迅為RK3588開(kāi)發(fā)板深度<b class='flag-5'>剖析</b>

    深入剖析石英 CMOS 振蕩器 PC3225 系列(1 to 200 MHz)的卓越性能

    深入剖析石英 CMOS 振蕩器 PC3225 系列(1 to 200 MHz)的卓越性能
    的頭像 發(fā)表于 08-08 10:14 ?385次閱讀
    深入<b class='flag-5'>剖析</b>石英 CMOS 振蕩器 PC3225 系列(1 to 200 MHz)的卓越<b class='flag-5'>性能</b>

    NVLink技術(shù)之GPUGPU的通信

    在多 GPU 系統(tǒng)內(nèi)部,GPU 間通信的帶寬通常在數(shù)百GB/s以上,PCIe總線(xiàn)的數(shù)據(jù)傳輸速率容易成為瓶頸,且PCIe鏈路接口的串并轉(zhuǎn)換會(huì)產(chǎn)生較大延時(shí),影響GPU并行計(jì)算的效率和性能
    發(fā)表于 03-27 09:40 ?4075次閱讀
    NVLink技術(shù)之<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>的通信

    gpu是什么和cpu的區(qū)別

    GPU和CPU是兩種常見(jiàn)的計(jì)算機(jī)處理器,它們?cè)诮Y(jié)構(gòu)和功能上有很大的區(qū)別。在這篇文章中,我們將探討GPU和CPU的區(qū)別,并詳細(xì)介紹它們的原理、應(yīng)用領(lǐng)域和性能特點(diǎn)。 一、概述 1.1 GPU
    的頭像 發(fā)表于 02-20 11:24 ?1.9w次閱讀

    制造企業(yè)分支機(jī)構(gòu)如何高效互聯(lián)?

    ? 隨著制造企業(yè)業(yè)務(wù)的不斷擴(kuò)張,分布在不同地區(qū)的分支機(jī)構(gòu)逐漸成為提高市場(chǎng)覆蓋和降低生產(chǎn)成本的重要手段。然而,分支機(jī)構(gòu)的增多也帶來(lái)了管理和協(xié)調(diào)的挑戰(zhàn)。為了有效管理和協(xié)調(diào)各個(gè)分支機(jī)構(gòu)的運(yùn)營(yíng),建立一個(gè)高效
    的頭像 發(fā)表于 01-25 16:26 ?473次閱讀
    主站蜘蛛池模板: 亚洲电影一区二区| 俺要操| 国产h视频在线观看| 亚洲第一视频| 狠狠色婷婷| 萌白酱白丝护士服喷水铁牛tv| 四虎在线免费视频| 伊人不卡久久大香线蕉综合影院| h国产在线观看| 在线看黄网| 4399一级成人毛片| 狠狠操精品视频| 人人九九精品| 天天干夜夜骑| 五月天婷婷视频在线观看| 1024成人| 一本到在线观看视频不卡| 国产成年网站v片在线观看| 久久99精品久久久久久牛牛影视 | 久久国产影视| 啪啪伊人网| 天天操夜夜操天天操| 午夜影院免费观看| 亚洲精品在线视频| 免费一级毛片不卡在线播放| 人人干人人上| 香蕉网影院在线观看免费| 男人呻吟双腿大开男男h互攻| 欧美深深色噜噜狠狠yyy| 精品黄色录像| 国产成人午夜精品影院游乐网| 天天干天天操天天干| 国产毛片哪里有| 2021最新久久久视精品爱| 亚洲男人天堂2020| 免费v片网站| 四虎影院最新| 国产精品免费观看网站| 在线免费色视频| 天天碰天天操| 91福利国产在线观看网站|