风凌天下,古风小说,神墓辰东小说

持續(xù)了一個(gè)月的“顯卡發(fā)布季”已經(jīng)告一段落，截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個(gè)型號(hào)的顯卡，相比上一代顯卡，RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升，新的NVIDIA Ampere架構(gòu)還帶來(lái)了第二代RT Core和第三代Tensor，雖然RTX 30系顯卡擁有諸多提升，但價(jià)格卻與上一代顯卡相同。

在9月2日發(fā)布會(huì)當(dāng)天，雖然過(guò)程僅有短短的40分鐘，卻震驚了全世界的用戶。

算力提升

下面我們就來(lái)看看，“有史以來(lái)最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu)，做了哪些提升。

第一代RTX架構(gòu)Turing

第二代RTX架構(gòu) Ampere

首先來(lái)簡(jiǎn)單回顧一下在9月2日發(fā)布會(huì)的PPT上我們都看到了什么，相較于初代的Turing RTX架構(gòu)，NVIDIA Ampere架構(gòu)在算力上有著成倍的增長(zhǎng)，每個(gè)時(shí)鐘執(zhí)行2次著色器運(yùn)算。

而Turing為1次，著色器性能達(dá)到30 TFLOPS單精度性能，而Turing為11 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量，RT Core達(dá)到58 RT TFLOPS，而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中，可自動(dòng)識(shí)別并消除不太重要的DNN權(quán)重，處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達(dá)238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個(gè)晶體管，628平方毫米的面積，基于三星的8nm NVIDIA定制工藝，來(lái)自美光的GDDR6X顯存，以及我們上面說(shuō)的，三大處理核心均為初代Turing的兩倍速率，構(gòu)成了有史以來(lái)性能最強(qiáng)大的Ampere。

SM單元的改變

而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就，可以說(shuō)在20系顯卡中所采用的Turing架構(gòu)功不可沒(méi)，下面我們先來(lái)看看完整的GA102核心。

完整的GA102 GPU包含7個(gè)GPC（圖形處理集群）42個(gè)TPC（紋理處理集群）以及84個(gè)SM（流處理器）組成。

GPC是占據(jù)主導(dǎo)地位的高級(jí)模塊，擁有所有的關(guān)鍵圖形處理單元，每個(gè)GPC包含一個(gè)專用光柵引擎。

在新的NVIDIA Ampere架構(gòu)中，每個(gè)GPC還包含了兩個(gè)ROP分區(qū)，每個(gè)分區(qū)包含8個(gè)ROP單元。下面我們來(lái)看看每個(gè)SM單元的變化。

在每個(gè)SM中，包含四個(gè)大的處理分區(qū)共128個(gè)CUDA核心，4個(gè)第三代Tensor Core，1個(gè)第二代RT Core，1個(gè)256 KB的緩存文件，1個(gè)128 KB的L1緩存，這個(gè)L1緩存可以根據(jù)不同的工作需求來(lái)調(diào)配緩存，工作效率發(fā)揮至最大。

另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個(gè)，而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個(gè)。

但是大家要知道專業(yè)計(jì)算卡Tesla A100的GA100核心，擁有更大的核心面積，更多的晶體管數(shù)量，理論上只有8192個(gè)CUDA，那RTX 3080又是如何達(dá)到這種效果的呢？

其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元，這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍。

我們?cè)诎l(fā)布會(huì)中經(jīng)常聽(tīng)到性能翻倍的說(shuō)法，其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元，這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍，同時(shí)吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計(jì)算顯卡的CUDA數(shù)量，并不是把SM中的所有單元加起來(lái)計(jì)數(shù)，而是只統(tǒng)計(jì)FP32單元的數(shù)量，所以這樣一來(lái)，SM中的【FP32 ： INT32】從 1:1 變?yōu)?2:1。

如RTX 3080的8704個(gè)CUDA，其實(shí)它只有4352個(gè)INT32單元，但由于內(nèi)部的FP32數(shù)量翻了一倍，所以最終實(shí)現(xiàn)了8704這個(gè)驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對(duì)于游戲有幫助嗎？

答案是有，不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計(jì)算要常用的多，圖形、算法以及各種計(jì)算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令，而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構(gòu)中，NVIDIA官方宣布為第二代RT Core，它和第一代有什么不同呢。

首先要知道RT Core的工作原理是，著色器發(fā)出光線追蹤的請(qǐng)求，交給RT Core來(lái)處理，它將進(jìn)行兩種測(cè)試，分別為邊界交叉測(cè)試（Box Intersection testing）和三角形交叉測(cè)試（Triangle Intersection testing）。

基于BVH算法來(lái)判斷，如果是方形，那么就返回縮小范圍繼續(xù)測(cè)試，如果是三角形，則反饋結(jié)果進(jìn)行渲染。

而光線追蹤最耗時(shí)的正是求交計(jì)算，因此，要提升光線追蹤性能，主要是對(duì)兩種求交（BVH/三角形求交）進(jìn)行加速。

在Turing的RT Core中，可以每個(gè)周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一個(gè)新的三角形位置插值模塊以及一個(gè)的額外的三角形求交模塊，這樣做的目的是為了提升諸如運(yùn)動(dòng)模糊特效時(shí)候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時(shí)進(jìn)行，進(jìn)行的光線追蹤越多，加速就越快，它將光線相交的處理性能提升了一倍，在渲染有動(dòng)態(tài)模糊的影像時(shí)，按照NVIDIA自己的實(shí)測(cè)，比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強(qiáng)化，Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng)，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自動(dòng)識(shí)別并消除不太重要的DNN（深度神經(jīng)網(wǎng)絡(luò)）權(quán)重，同時(shí)依然能保持不錯(cuò)的精度。

首先原始的密集矩陣會(huì)經(jīng)過(guò)訓(xùn)練，刪除掉稀疏矩陣，再經(jīng)過(guò)訓(xùn)練稀疏矩陣，從而實(shí)現(xiàn)稀疏優(yōu)化，進(jìn)而提高Tensor Core的性能。

所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達(dá)238 Tensor TFLOPS，而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動(dòng)輒幾十G甚至百G的安裝空間，對(duì)于存儲(chǔ)空間的負(fù)擔(dān)暫且不提，但存放在硬盤中的數(shù)據(jù)，如果顯卡想要讀取到，需要先由CPU從硬盤中讀取壓縮過(guò)的數(shù)據(jù)，經(jīng)過(guò)解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出，讀取速度相較機(jī)械硬盤能夠快20倍，但受制于傳統(tǒng)I/O限制，NVMe高達(dá)7GB/秒的高速讀寫對(duì)于CPU是極大的負(fù)擔(dān)。

在這個(gè)過(guò)程中，會(huì)占用多個(gè)CPU核心，壓力急劇增大，占用較多的內(nèi)存，而此時(shí)其實(shí)GPU是處于閑置狀態(tài)的。

RTX IO的作用就是越過(guò)CPU解壓再傳輸數(shù)據(jù)這一步，直接從PCIE總線讀取硬盤上經(jīng)過(guò)壓縮的數(shù)據(jù)，并且完成解壓，降低CPU占用，變向提升了性能。

當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變，還需要借助微軟發(fā)布的DirectStorage來(lái)實(shí)現(xiàn)，對(duì)于目前容量的游戲來(lái)說(shuō)，RTX IO的改善效果有限，但假以時(shí)日等游戲容量上百G成為常態(tài)的時(shí)候，這項(xiàng)技術(shù)將會(huì)發(fā)揮巨大的功效。

最快的顯存

在RTX 3080中，采用了GDDR6X顯存，GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度，與采用GDDR6的Turing相比可提升40%的速度，在相同時(shí)間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。

這對(duì)于需要大量數(shù)據(jù)負(fù)載的工作尤為重要，如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。

同時(shí)搭配新增的HDMI2.1接口，可以支持單線8K的視頻輸出，而上一代HDMI2.0僅支持4K 98Hz的視頻輸出，如果想要連接8K電視，則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后，會(huì)有玩家會(huì)問(wèn)，RTX 20系顯卡如此“短壽”算不算失敗的一代，我認(rèn)為不算。

Turing為我們開(kāi)創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界，奠定了GPU未來(lái)的發(fā)展方向，真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。

而Ampere則是站在巨人的肩膀，將上一代的路走的更寬更扎實(shí)。

責(zé)任編輯：PSY

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4994

瀏覽量
103180
顯卡

顯卡

+關(guān)注

關(guān)注
16

文章
2437

瀏覽量
67723
架構(gòu)

架構(gòu)

+關(guān)注

關(guān)注
1

文章
515

瀏覽量
25491
Ampere

Ampere

+關(guān)注

關(guān)注
1

文章
67

瀏覽量
4546

評(píng)論

相關(guān)推薦

NVIDIA 推出高性價(jià)比的生成式 AI 超級(jí)計(jì)算機(jī)

人群提供更強(qiáng)大的生成式 AI 功能與性能，目前建議零售價(jià) 2070 人民幣。 ? 該開(kāi)發(fā)者套件現(xiàn)已上市，與上一代產(chǎn)品相比，其生成式

發(fā)表于 12-18 17:01 ?399次閱讀

<b class='flag-5'>NVIDIA</b> 推出高性價(jià)比的生成式 AI 超級(jí)計(jì)算機(jī)

相比上一代低功耗藍(lán)牙芯片，CC2745P到底升級(jí)了什么？

TI最近發(fā)布了新一代藍(lán)牙芯片CC2745P，那么相對(duì)于上一代CC2642芯片，做了哪些升級(jí)，在實(shí)際應(yīng)用中有哪些優(yōu)勢(shì)？。CC2745P/CC2642基本參數(shù)對(duì)比如下：型號(hào)CC2745PCC2642

發(fā)表于 11-15 14:11

capsense第四代和第五代在感應(yīng)模式上的具體區(qū)別是什么？

據(jù)我所知，第五代capsense相比第四代將電容（包括自電容+互電容技術(shù)）和電感觸摸技術(shù)集成到了一起，snr信噪比是上一代的十多倍，同時(shí)功

發(fā)表于 05-23 06:24

MediaTek與美團(tuán)攜手合作打造新一代餐飲系統(tǒng)硬件S4 Pro系列收銀機(jī)

MediaTek 與美團(tuán)攜手合作，打造新一代餐飲系統(tǒng)硬件 S4 Pro 系列收銀機(jī)。該系列收銀機(jī)采用 MediaTek 新一代高階物聯(lián)網(wǎng)芯片 Genio 510，對(duì)比上一代收銀產(chǎn)品性能大幅提升

發(fā)表于 05-17 10:09 ?561次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

帶寬和1.8TB/s的NVLink帶寬，使處理能力翻倍，大幅增加內(nèi)存容量和帶寬，為處理大規(guī)模人工智能模型和復(fù)雜計(jì)算提供必要資源。針對(duì)大規(guī)模模型如GPT-MoE-1.8T，HGX B200的推理性能比上一代

發(fā)表于 05-13 17:16

NVIDIA推出兩款基于NVIDIA Ampere架構(gòu)的全新臺(tái)式機(jī)GPU

兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來(lái)實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。

發(fā)表于 04-26 11:25 ?630次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實(shí)踐中，唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于 GPU 上進(jìn)行

發(fā)表于 04-20 09:39 ?746次閱讀

NVIDIA發(fā)布兩款新的專業(yè)顯卡RTX A1000、RTX A400

NVIDIA今天發(fā)布了兩款新的專業(yè)顯卡RTX A1000、RTX A400，從編號(hào)就能看出來(lái)定位入門級(jí)，而且架構(gòu)并非最新的Ada Lovelace，還是上一代的Ampere。

發(fā)表于 04-18 11:35 ?2287次閱讀

全新NVIDIA RTX A400和A1000 GPU全面加強(qiáng)AI設(shè)計(jì)與生產(chǎn)力工作流

兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來(lái)實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。

發(fā)表于 04-18 10:29 ?546次閱讀

使用NVIDIA Holoscan for Media構(gòu)建下一代直播媒體應(yīng)用

NVIDIA Holoscan for Media 現(xiàn)已向所有希望在完全可重復(fù)使用的集群上構(gòu)建下一代直播媒體應(yīng)用的開(kāi)發(fā)者開(kāi)放。

發(fā)表于 04-16 14:04 ?689次閱讀

英偉達(dá)發(fā)布性能大幅提升的新款B200 AI GPU

英偉達(dá)宣稱，B200在性能上比以往最好的GPU快30倍不止。由它構(gòu)成的服務(wù)器集群相比上一代，運(yùn)算能力飛躍性提升，甚至能使大語(yǔ)言模型的訓(xùn)練速度翻番。

發(fā)表于 03-20 09:37 ?821次閱讀

全面提升！英飛凌推出新一代碳化硅技術(shù)CoolSiC MOSFET G2

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）近日英飛凌推出了CoolSiC MOSFET G2技術(shù)，據(jù)官方介紹，這是新一代的溝槽柵SiC MOSFET技術(shù)，相比上一代產(chǎn)品也就是CoolSiC MOSFET G1有

發(fā)表于 03-19 18:13 ?3038次閱讀

NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

根據(jù)各方信息和路線圖，NVIDIA預(yù)計(jì)會(huì)在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。

發(fā)表于 03-04 09:33 ?1340次閱讀

NVIDIA的Maxwell GPU架構(gòu)功耗不可思議

整整10年前的2013年2月19日，NVIDIA正式推出了新一代Maxwell GPU架構(gòu)，它有著極高的能效，出場(chǎng)方式也非常特別。

發(fā)表于 02-19 16:39 ?1038次閱讀

英偉達(dá)Orin 的系統(tǒng)結(jié)構(gòu)解析

Orin SoC包含了高達(dá)170億晶體管，幾乎是Xavier SoC的兩倍，搭載了12個(gè)ARM Hercules內(nèi)核，并集成了NVIDIA下一代Ampere架構(gòu)的GPU，提供了驚人的2

發(fā)表于 01-29 12:33 ?2530次閱讀