完美世界有声小说全集,好看的玄幻小说,完美世界

IEEE計算機運算研討會。

32位與16位格式的混合精度訓練，正是當前深度學習的主流。

最新的英偉達核彈GPU H100，剛剛添加上對8位浮點數格式FP8的支持。

英偉達首席科學家Bill Dally現在又表示，他們還有一個“秘密武器”：

在IEEE計算機運算研討會上，他介紹了一種實驗性5nm芯片，可以混合使用8位與4位格式，并且在4位上得到近似8位的精度。

目前這種芯片還在開發中，主要用于深度學習推理所用的INT4和INT8格式，對于如何應用在訓練中也在研究了。

相關論文已發表在2022 IEEE Symposium on VLSI Technology上。

新的量化技術

降低數字格式而不造成重大精度損失，要歸功于按矢量縮放量化（per-vector scaled quantization，VSQ）的技術。

具體來說，一個INT4數字只能精確表示從-8到7的16個整數。

其他數字都會四舍五入到這16個值上，中間產生的精度損失被稱為量化噪聲。

傳統的量化方法給每個矩陣添加一個縮放因子來減少噪聲，VSQ則在這基礎之上給每個向量都添加縮放因子，進一步減少噪聲。

關鍵之處在于，縮放因子的值要匹配在神經網絡中實際需要表示的數字范圍。

英偉達研究人員發現，每64個數字為一組賦予獨立調整過的縮放因子可以最小化量化誤差。

計算縮放因子的開銷可以忽略不計，從INT8降為INT4則讓能量效率增加了一倍。

Bill Dally認為，結合上INT4計算、VSQ技術和其他優化方法后，新型芯片可以達到Hopper架構每瓦運算速度的10倍。

還有哪些降低計算量的努力

除了英偉達之外，業界還有更多降低計算量的工作也在這次IEEE研討會上亮相。

馬德里康普頓斯大學的一組研究人員設計出基于Posits格式的處理器核心，與Float浮點數相比準確性提高了多達4個數量級。

Posits與Float相比，增加了一個可變長度的Regime區域，用來表示指數的指數。

對于0附近的較小數字只需要占用兩個位，而這類數字正是在神經網絡中大量使用的。

適用Posits格式的新硬件基于FPGA開發，研究人員發現可以用芯片的面積和功耗來提高精度，而不用增加計算時間。

ETH Zurich一個團隊的研究基于RISC-V，他們把兩次混合精度的積和熔加計算（fused multiply-add，FMA）放在一起平行計算。

這樣可以防止兩次計算之間的精度損失，還可以提高內存利用率。

FMA指的是d = a * b + c這樣的操作，一般情況下輸入中的a和b會使用較低精度，而c和輸出的d使用較高精度。

研究人員模擬了新方法可以使計算時間減少幾乎一半，同時輸出精度有所提高，特別是對于大矢量的計算。

相應的硬件實現正在開發中。

巴塞羅那超算中心和英特爾團隊的研究也和FMA相關，致力于神經網絡訓練可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型網絡訓練中得到應用，不過還需要與更高精度的FP32結合，并且在兩者之間來回轉換。

這是因為神經網絡訓練中只有一部分計算不會因BF16而降低精度。

最新解決辦法開發了一個擴展的格式BF16-N，將幾個BF16數字組合起來表示一個數，可以在不顯著犧牲精度的情況下更有效進行FMA計算

關鍵之處在于，FMA計算單元的面積只受尾數位影響。

比如FP32有23個尾數位，需要576個單位的面積，而BF16-2只需要192個，減少了2/3。

另外這項工作的論文題目也很有意思，BF16 is All You Need。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

芯片

芯片

+關注

關注
456

文章
51154

瀏覽量
426276
英偉達

英偉達

+關注

關注
22

文章
3842

瀏覽量
91687

原文標題：英偉達首席科學家：5nm實驗芯片用INT4達到INT8的精度

文章出處：【微信號：ICViews，微信公眾號：半導體產業縱橫】歡迎添加關注！文章轉載請注明出處。

解鎖NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，確保您的 NVIDIA GPU 能發揮出卓越的推理性能。

發表于 12-17 17:47 ?249次閱讀

加速拋棄英偉達，微軟又發布一顆芯片 #微軟 #英偉達 #半導體 #芯片 #電路知識

英偉達

jf_15747056

發布于 :2024年11月21日 17:31:05

臺積電產能爆棚：3nm與5nm工藝供不應求

臺積電近期成為了高性能芯片代工領域的明星企業，其產能被各大科技巨頭瘋搶。據最新消息，臺積電的3nm和5nm工藝產能利用率均達到了極高水平，其中3nm

發表于 11-14 14:20 ?435次閱讀

英偉達超越蘋果成為市值最高英偉達取代英特爾加入道指

在AI浪潮下英偉達被各路資本競相追逐，2024年英偉達公司的股價累計上漲高達180%。在11月4日，英偉

發表于 11-05 15:22 ?432次閱讀

英偉達加速Rubin平臺AI芯片推出,SK海力士提前交付HBM4存儲器

日，英偉達（NVIDIA）的主要高帶寬存儲器（HBM）供應商南韓SK集團會長崔泰源透露，英偉達執行長黃仁勛已要求SK海力士提前六個月交付用于英偉

發表于 11-05 14:22 ?520次閱讀

英偉達Blackwell芯片量產加速,Q4預計出貨達45萬片

摩根士丹利最新發布的報告揭示了英偉達在AI芯片領域的重大進展，其最新力作Blackwell芯片已成功步入量產階段，預示著英偉

發表于 09-27 15:02 ?898次閱讀

AI芯片巨頭英偉達漲超4% 英偉達市值暴增7500億

誰是美股最靚的仔？在人工智能浪潮之下AI芯片巨頭英偉達肯定有一席之地，特別是現在全球資本市場動蕩之際，業界分析師多認為英偉達是最佳“反彈股”

發表于 08-13 15:33 ?1143次閱讀

英偉達回應AI芯片推遲發布傳聞

近日，英偉達就外界廣泛關注的AI芯片Blackwell推遲發布傳聞作出正式回應。8月4日，英偉

發表于 08-05 17:34 ?712次閱讀

esp-dl int8量化模型數據集評估精度下降的疑問求解？

一試著將模型進行了esp-dl上int16和int8的量化，并在測試數據集上進行精度評估，其中int16的模型精度基本沒有下降，但是

發表于 06-28 15:10

觸覺智能EVB3588實測運行大模型，效果nice！

，搭載八核64位CPU，四核Cortex-A76和四核Cortex-A55架構，主頻高達2.4GHz。6TOPSAI算力，三核架構，支持int4/int8/int16

發表于 05-30 08:32 ?543次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

，通過英偉達高帶寬接口（NV-HBI）將兩個最大可制造芯片合并為一個圖形處理器單元，支持10TB/s帶寬，形成高效的通信通道，提升整體性能。配備192GB的HBM3e內存、超過8TB

發表于 05-13 17:16

基于RK3576開發的Banana Pi BPI-M5 Pro 開發板

：ARM Mali G52 MC3 GPU NPU：高達6TOPs算力（INT8），支持INT4/INT8/INT16混合運算。 VPU/編碼和解碼：硬件解碼：支持 H.264、H.

發表于 05-02 19:44

Banana Pi 推出采用瑞芯微 RK3576芯片設計開源硬件：BPI-M5 Pro，比樹莓派5性能強大

：ARM Mali G52 MC3 GPU NPU：高達6TOPs算力（INT8），支持INT4/INT8/INT16混合運算。 VPU/編碼和解碼：硬件解碼：支持 H.264、H.

發表于 05-02 19:42

iTOP-3588開發板快速測試手冊Android12系統功能測試

、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800萬像素ISP，內置NPU，支持INT4/INT8/INT16/FP16混合運算能力，支持安卓12

發表于 03-01 16:16 ?803次閱讀

英偉達收漲16.4% 分析師稱英偉達股價可能達到四位數

英偉達收漲16.4% 分析師稱英偉達股價可能達到四位數就在英偉

發表于 02-23 15:35 ?873次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

英偉達：5nm實驗芯片用INT4達到INT8的精度

評論

解鎖NVIDIA TensorRT-LLM的卓越性能

加速拋棄英偉達，微軟又發布一顆芯片 #微軟 #英偉達 #半導體 #芯片 #電路知識

臺積電產能爆棚：3nm與5nm工藝供不應求

英偉達超越蘋果成為市值最高英偉達取代英特爾加入道指

英偉達加速Rubin平臺AI芯片推出,SK海力士提前交付HBM4存儲器

英偉達Blackwell芯片量產加速,Q4預計出貨達45萬片

AI芯片巨頭英偉達漲超4% 英偉達市值暴增7500億

英偉達回應AI芯片推遲發布傳聞

esp-dl int8量化模型數據集評估精度下降的疑問求解？

觸覺智能EVB3588實測運行大模型，效果nice！

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

基于RK3576開發的Banana Pi BPI-M5 Pro 開發板

Banana Pi 推出采用瑞芯微 RK3576芯片設計開源硬件：BPI-M5 Pro，比樹莓派5性能強大

iTOP-3588開發板快速測試手冊Android12系統功能測試

英偉達收漲16.4% 分析師稱英偉達股價可能達到四位數