持續(xù)了一個(gè)月的“顯卡發(fā)布季”已經(jīng)告一段落,截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個(gè)型號(hào)的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。
除了性能上的提升,新的NVIDIA Ampere架構(gòu)還帶來(lái)了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價(jià)格卻與上一代顯卡相同。
在9月2日發(fā)布會(huì)當(dāng)天,雖然過(guò)程僅有短短的40分鐘,卻震驚了全世界的用戶。
算力提升
下面我們就來(lái)看看,“有史以來(lái)最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu),做了哪些提升。
第一代RTX架構(gòu)Turing
第二代RTX架構(gòu) Ampere
首先來(lái)簡(jiǎn)單回顧一下在9月2日發(fā)布會(huì)的PPT上我們都看到了什么,相較于初代的Turing RTX架構(gòu),NVIDIA Ampere架構(gòu)在算力上有著成倍的增長(zhǎng),每個(gè)時(shí)鐘執(zhí)行2次著色器運(yùn)算。
而Turing為1次,著色器性能達(dá)到30 TFLOPS單精度性能,而Turing為11 TFLOPS。
NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量,RT Core達(dá)到58 RT TFLOPS,而Turing為34 RT TFLOPS。
另外在全新的Tensor Core中,可自動(dòng)識(shí)別并消除不太重要的DNN權(quán)重,處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
全新的NVIDIA Ampere GPU核心擁有280億個(gè)晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來(lái)自美光的GDDR6X顯存,以及我們上面說(shuō)的,三大處理核心均為初代Turing的兩倍速率,構(gòu)成了有史以來(lái)性能最強(qiáng)大的Ampere。
SM單元的改變
而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就,可以說(shuō)在20系顯卡中所采用的Turing架構(gòu)功不可沒(méi),下面我們先來(lái)看看完整的GA102核心。
完整的GA102 GPU包含7個(gè)GPC(圖形處理集群)42個(gè)TPC(紋理處理集群)以及84個(gè)SM(流處理器)組成。
GPC是占據(jù)主導(dǎo)地位的高級(jí)模塊,擁有所有的關(guān)鍵圖形處理單元,每個(gè)GPC包含一個(gè)專用光柵引擎。
在新的NVIDIA Ampere架構(gòu)中,每個(gè)GPC還包含了兩個(gè)ROP分區(qū),每個(gè)分區(qū)包含8個(gè)ROP單元。下面我們來(lái)看看每個(gè)SM單元的變化。
在每個(gè)SM中,包含四個(gè)大的處理分區(qū)共128個(gè)CUDA核心,4個(gè)第三代Tensor Core,1個(gè)第二代RT Core,1個(gè)256 KB的緩存文件,1個(gè)128 KB的L1緩存,這個(gè)L1緩存可以根據(jù)不同的工作需求來(lái)調(diào)配緩存,工作效率發(fā)揮至最大。
另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個(gè),而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個(gè)。
但是大家要知道專業(yè)計(jì)算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個(gè)CUDA,那RTX 3080又是如何達(dá)到這種效果的呢?
其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍。
我們?cè)诎l(fā)布會(huì)中經(jīng)常聽(tīng)到性能翻倍的說(shuō)法,其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍,同時(shí)吞吐量也就變?yōu)榱艘槐丁?/p>
而通常我們計(jì)算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來(lái)計(jì)數(shù),而是只統(tǒng)計(jì)FP32單元的數(shù)量,所以這樣一來(lái),SM中的【FP32 : INT32】 從 1:1 變?yōu)?2:1。
如RTX 3080的8704個(gè)CUDA,其實(shí)它只有4352個(gè)INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實(shí)現(xiàn)了8704這個(gè)驚人的數(shù)字。
而這樣粗暴的提升CUDA數(shù)量對(duì)于游戲有幫助嗎?
答案是有,不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計(jì)算要常用的多,圖形、算法以及各種計(jì)算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令,而FP32的加速也有助于光線追蹤降噪著色器。
第二代RT Core
在此次的NVIDIA Ampere架構(gòu)中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。
首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請(qǐng)求,交給RT Core來(lái)處理,它將進(jìn)行兩種測(cè)試,分別為邊界交叉測(cè)試(Box Intersection testing)和三角形交叉測(cè)試(Triangle Intersection testing)。
基于BVH算法來(lái)判斷,如果是方形,那么就返回縮小范圍繼續(xù)測(cè)試,如果是三角形,則反饋結(jié)果進(jìn)行渲染。
而光線追蹤最耗時(shí)的正是求交計(jì)算,因此,要提升光線追蹤性能,主要是對(duì)兩種求交(BVH/三角形求交)進(jìn)行加速。
在Turing的RT Core中,可以每個(gè)周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個(gè)新的三角形位置插值模塊以及一個(gè)的額外的三角形求交模塊,這樣做的目的是為了提升諸如運(yùn)動(dòng)模糊特效時(shí)候的光線追蹤性能。
第二代RT Core可以讓光線追蹤與著色同時(shí)進(jìn)行,進(jìn)行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動(dòng)態(tài)模糊的影像時(shí),按照NVIDIA自己的實(shí)測(cè),比Turing快8倍。
第三代Tensor Core
除了光線追蹤的強(qiáng)化,Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng),在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動(dòng)識(shí)別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡(luò))權(quán)重,同時(shí)依然能保持不錯(cuò)的精度。
首先原始的密集矩陣會(huì)經(jīng)過(guò)訓(xùn)練,刪除掉稀疏矩陣,再經(jīng)過(guò)訓(xùn)練稀疏矩陣,從而實(shí)現(xiàn)稀疏優(yōu)化,進(jìn)而提高Tensor Core的性能。
所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
RTX IO
與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動(dòng)輒幾十G甚至百G的安裝空間,對(duì)于存儲(chǔ)空間的負(fù)擔(dān)暫且不提,但存放在硬盤中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過(guò)的數(shù)據(jù),經(jīng)過(guò)解壓縮再發(fā)送到顯存中。
雖然隨著NVMe SSD的推出,讀取速度相較機(jī)械硬盤能夠快20倍,但受制于傳統(tǒng)I/O限制,NVMe高達(dá)7GB/秒的高速讀寫對(duì)于CPU是極大的負(fù)擔(dān)。
在這個(gè)過(guò)程中,會(huì)占用多個(gè)CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時(shí)其實(shí)GPU是處于閑置狀態(tài)的。
RTX IO的作用就是越過(guò)CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤上經(jīng)過(guò)壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。
當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變,還需要借助微軟發(fā)布的DirectStorage來(lái)實(shí)現(xiàn),對(duì)于目前容量的游戲來(lái)說(shuō),RTX IO的改善效果有限,但假以時(shí)日等游戲容量上百G成為常態(tài)的時(shí)候,這項(xiàng)技術(shù)將會(huì)發(fā)揮巨大的功效。
最快的顯存
在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時(shí)間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。
這對(duì)于需要大量數(shù)據(jù)負(fù)載的工作尤為重要,如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。
同時(shí)搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。
相信了解RTX 30系顯卡的性能后,會(huì)有玩家會(huì)問(wèn),RTX 20系顯卡如此“短壽”算不算失敗的一代,我認(rèn)為不算。
Turing為我們開(kāi)創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界,奠定了GPU未來(lái)的發(fā)展方向,真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。
而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實(shí)。
責(zé)任編輯:PSY
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4994瀏覽量
103180 -
顯卡
+關(guān)注
關(guān)注
16文章
2437瀏覽量
67723 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
515瀏覽量
25491 -
Ampere
+關(guān)注
關(guān)注
1文章
67瀏覽量
4546
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論