英偉達推出 cuSPARSELt,版本0 .2.0 ,它提高了激活函數、偏差向量和批處理稀疏 GEMM 的性能。
NVIDIA CUSPASSELT 是一個高性能 CUDA 庫,專用于一般矩陣運算,其中至少有一個操作數是稀疏矩陣:
在這個等式中, OP(A) 和 OP(B) 指的是原位操作,例如轉置和非轉置。
cuSPARSELt API 在算法/操作選擇、尾聲和矩陣特性(包括內存布局、對齊和數據類型)方面提供了靈活性。
主要特征
NVIDIA Sparse MMA 張量核支持
混合精度計算支持:
FP16 I / O 、 FP32 張量核累加。
BFLOAT16 I / O , FP32 張量核累積。
INT8 I / O , INT32 張量核計算。
FP32 I / O , TF32 張量核心計算。
TF32 I / O , TF32 張量核心計算。
矩陣修剪和壓縮功能
自動調諧功能
關于作者
Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導彈研究開發與工程中心工作。在那里,他專注于 CUDA 算法開發和 Jetson 系列的優化。在 NVIDIA ,他曾在聯邦部門工作,協助 CUDA 的開發和優化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉為 math libraries 產品經理。 2019 年,他獲得了博士學位。計算機工程學位,專注于 GPU 的算法優化。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5025瀏覽量
103268
發布評論請先 登錄
相關推薦
評論