在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用CUTLASS實現(xiàn)高性能矩陣乘法

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次閱讀

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規(guī)模上實現(xiàn)高性能矩陣乘法( GEMM )。它結(jié)合了分層分解和數(shù)據(jù)移動的策略,類似于用于實現(xiàn)cuBLAS的策略。

CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設(shè)備范圍的原語可以通過自定義平鋪大小、數(shù)據(jù)類型和其他算法策略進行專門化和調(diào)優(yōu)。由此產(chǎn)生的靈活性簡化了它們在定制內(nèi)核和應(yīng)用程序中作為構(gòu)建塊的使用。

為了支持多種應(yīng)用程序, CUTLASS 為混合精度計算提供了廣泛的支持,提供了專門的數(shù)據(jù)移動,并為以下各項提供了多重累積抽象:

半精度浮點(FP16)、 BFloat16 (BF16)和張量浮點 32 (TF32)數(shù)據(jù)類型。

單精度浮點(FP32)數(shù)據(jù)類型。

雙精度浮點(FP64)數(shù)據(jù)類型。

整數(shù)數(shù)據(jù)類型(4b和8b)。

二進制數(shù)據(jù)類型(1b)。

此外, CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結(jié)構(gòu)上實現(xiàn)的可編程高通Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實現(xiàn)了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優(yōu)化的 warp-wide GEMM 組件和以下組件來構(gòu)建卷積。

關(guān)于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導(dǎo)彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學(xué)位。計算機工程學(xué)位,專注于 GPU 的算法優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5025

    瀏覽量

    103270
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    121

    瀏覽量

    13644
收藏 人收藏

    評論

    相關(guān)推薦

    鴻蒙原生頁面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

    隨著HarmonyOS NEXT的正式推出,鴻蒙原生應(yīng)用開發(fā)熱度高漲,數(shù)量激增。但在三方應(yīng)用鴻蒙化進程中,性能問題頻出。為此,HarmonyOS NEXT推出了一整套原生頁面高性能解決方案,包括
    發(fā)表于 01-02 18:00

    賽昉聯(lián)合國芯推出高性能AI MCU芯片,實現(xiàn)RISC-V+AI新應(yīng)用

    近日,賽昉科技與蘇州國芯科技有限公司(以下簡稱“國芯科技”)合作研發(fā)的高性能AIMCU芯片產(chǎn)品CCR7002已成功通過了內(nèi)部性能和功能測試,實現(xiàn)了RISC-V+AI技術(shù)的新應(yīng)用。賽昉科技將與國芯
    的頭像 發(fā)表于 11-27 11:46 ?442次閱讀
    賽昉聯(lián)合國芯推出<b class='flag-5'>高性能</b>AI MCU芯片,<b class='flag-5'>實現(xiàn)</b>RISC-V+AI新應(yīng)用

    XD08M3232紅外感應(yīng)單片機擁有哪些配置實現(xiàn)高性能處理能力

    的應(yīng)用,自帶恒流驅(qū)動電路可以避免光衰等問題,確保輸入信號的穩(wěn)定性。穩(wěn)定的輸入信號有助于后續(xù)的信號處理,減少因信號波動而帶來的額外處理負擔(dān),使得單片機可以更高效地對數(shù)據(jù)進行處理,從而有助于實現(xiàn)高性能的處理能力
    發(fā)表于 11-23 15:08

    精密脈沖焊接技術(shù)的革新:探究高性能精密脈沖焊接電源的應(yīng)用與實現(xiàn)

    隨著科技的發(fā)展和制造業(yè)對高品質(zhì)、高精度焊接需求的增長,精密脈沖焊接技術(shù)在工業(yè)生產(chǎn)中的地位愈發(fā)重要。本文將深入探討高性能精密脈沖焊接電源的應(yīng)用及其在實際工程中的實現(xiàn)路徑。 一、引言 精密
    的頭像 發(fā)表于 11-16 09:27 ?567次閱讀

    AI高性能計算平臺是什么

    AI高性能計算平臺不僅是AI技術(shù)發(fā)展的基石,更是推動AI應(yīng)用落地、加速產(chǎn)業(yè)升級的重要工具。以下,是對AI高性能計算平臺的介紹,由AI部落小編為您整理分享。
    的頭像 發(fā)表于 11-11 09:56 ?227次閱讀

    XD08M3232紅外感應(yīng)單片機擁有哪些配置實現(xiàn)高性能處理能力

    關(guān)于XD08M3232單片機采用哪些配置實現(xiàn)高性能處理能力并沒有直接搜索結(jié)果提及。如下: 一、內(nèi)核方面 增強型1T8051內(nèi)核**** :XD08M3232是一款8位高性能Flash的接近感應(yīng)單片機
    發(fā)表于 11-07 14:04

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)
    發(fā)表于 10-24 10:51 ?0次下載

    請問如何用VCA810實現(xiàn)模擬乘法器?

    我在《德州儀器高性能單片機和模擬器件在高校中的應(yīng)用和選型指南》中看見,書中說VCA810可以做為模擬乘法器使用,但是應(yīng)用手冊里的公式卻不是V0=VC*Vin,而是一個帶指數(shù)向的公式,所以我很好
    發(fā)表于 09-23 07:11

    克服設(shè)計難題-實現(xiàn)高性能接口

    電子發(fā)燒友網(wǎng)站提供《克服設(shè)計難題-實現(xiàn)高性能接口.pdf》資料免費下載
    發(fā)表于 08-28 09:41 ?0次下載
    克服設(shè)計難題-<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>高性能</b>接口

    帶你了解什么是高性能計算(HPC)

    受益于HPC更高的速度處理大量數(shù)據(jù)的能力,全球正在進入HPC大周期,高性能計算的發(fā)展水平已經(jīng)成為衡量一個國家綜合實力和高科技發(fā)展水平的重要標(biāo)志,美國、歐盟、日本、英國都高度重視高性能計算的發(fā)展,并在
    的頭像 發(fā)表于 07-20 08:28 ?620次閱讀
    帶你了解什么是<b class='flag-5'>高性能</b>計算(HPC)

    高性能計算集群的能耗優(yōu)化

    高性能計算(HighPerformanceComputing,HPC)是指利用大規(guī)模并行計算機集群來解決復(fù)雜的科學(xué)和工程問題的技術(shù)。高性能計算集群的應(yīng)用領(lǐng)域非常廣泛,包括天氣預(yù)報、生物信息學(xué)
    的頭像 發(fā)表于 05-25 08:27 ?454次閱讀
    <b class='flag-5'>高性能</b>計算集群的能耗優(yōu)化

    構(gòu)建高性能計算芯片

    計算的異構(gòu)多核架構(gòu),對整個芯片行業(yè)的高性能 CPU 開發(fā)產(chǎn)生了影響。 這些芯片都不太可能進行商業(yè)銷售。它們針對特定的數(shù)據(jù)類型和工作負載進行了優(yōu)化,設(shè)計預(yù)算龐大,但可以通過提高性能和降低功耗來實現(xiàn)合理化。目標(biāo)是在更小的面積上容納更
    的頭像 發(fā)表于 04-25 10:23 ?1340次閱讀
    構(gòu)建<b class='flag-5'>高性能</b>計算芯片

    大電流、高性能LED矩陣驅(qū)動器LP5866T數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《大電流、高性能LED矩陣驅(qū)動器LP5866T數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 03-22 16:11 ?0次下載
    大電流、<b class='flag-5'>高性能</b>LED<b class='flag-5'>矩陣</b>驅(qū)動器LP5866T數(shù)據(jù)表

    NVMe Host Controller IP實現(xiàn)高性能存儲解決方案

    電子發(fā)燒友網(wǎng)站提供《NVMe Host Controller IP實現(xiàn)高性能存儲解決方案.pdf》資料免費下載
    發(fā)表于 02-21 14:28 ?2次下載

    了解無縫高清矩陣切換器的核心優(yōu)勢與性能

    無縫高清矩陣切換器的核心優(yōu)勢與性能主要體現(xiàn)在以下幾個方面: 高清視頻傳輸:無縫高清矩陣切換器能夠支持高清視頻信號的傳輸,包括1080p、4K等分辨率,滿足現(xiàn)代視頻應(yīng)用對高清晰度的需求。 無縫切換
    的頭像 發(fā)表于 01-24 14:34 ?497次閱讀
    主站蜘蛛池模板: 色香视频首页| 国产va| 性欧美网站| 亚洲aa在线| 色多多视频在线播放| 全日本爽视频在线| 精品热99| 一级特黄女人生活片| 午夜视频色| 欧美三级影院| 九色 在线| 一级片免费看| 色播亚洲| 精品免费视在线观看| 国产免费高清在线精品一区| 亚洲国产成人久久三区| 九九热在线精品视频| 在线免费观看黄色小视频| 五月天精品| 欧美黄三级在线观看| 国产成人精品亚洲| 午夜高清免费在线观看| 国产福利萌白酱喷水视频铁牛| 国产午夜视频在线观看网站 | 五月婷婷狠狠| 日本福利小视频| 高清一级做a爱视频免费| 婷婷亚洲综合五月天在线| 国产福利在线免费| 欧洲精品不卡1卡2卡三卡| 五月天婷婷导航| 久久久噜久噜久久综合| 男人不识本站| 18女毛片| 91在线网| 午夜黄视频| xxx色xxx性| 欧美色图888| 亚洲偷图色综合色就色| 天天插天天干天天操| 色综合天天综合网看在线影院|