在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Ampere架構(gòu)解析:相比上一代做了哪些提升

工程師鄧生 ? 來(lái)源:中關(guān)村在線 ? 作者:曲楠 ? 2020-12-11 17:22 ? 次閱讀

持續(xù)了一個(gè)月的“顯卡發(fā)布季”已經(jīng)告一段落,截止目前NVIDIA發(fā)布了GeForce RTX 3060 Ti/3070/3080/3090共4個(gè)型號(hào)的顯卡,相比上一代顯卡,RTX 30系顯卡再次做到了性能翻倍的神話。

除了性能上的提升,新的NVIDIA Ampere架構(gòu)還帶來(lái)了第二代RT Core和第三代Tensor,雖然RTX 30系顯卡擁有諸多提升,但價(jià)格卻與上一代顯卡相同。

在9月2日發(fā)布會(huì)當(dāng)天,雖然過(guò)程僅有短短的40分鐘,卻震驚了全世界的用戶。

算力提升

下面我們就來(lái)看看,“有史以來(lái)最偉大性能提升”相比上一代的NVIDIA Turing架構(gòu),做了哪些提升。

第一代RTX架構(gòu)Turing

第二代RTX架構(gòu) Ampere

首先來(lái)簡(jiǎn)單回顧一下在9月2日發(fā)布會(huì)的PPT上我們都看到了什么,相較于初代的Turing RTX架構(gòu),NVIDIA Ampere架構(gòu)在算力上有著成倍的增長(zhǎng),每個(gè)時(shí)鐘執(zhí)行2次著色器運(yùn)算。

而Turing為1次,著色器性能達(dá)到30 TFLOPS單精度性能,而Turing為11 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量,RT Core達(dá)到58 RT TFLOPS,而Turing為34 RT TFLOPS。

另外在全新的Tensor Core中,可自動(dòng)識(shí)別并消除不太重要的DNN權(quán)重,處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心擁有280億個(gè)晶體管,628平方毫米的面積,基于三星的8nm NVIDIA定制工藝,來(lái)自美光的GDDR6X顯存,以及我們上面說(shuō)的,三大處理核心均為初代Turing的兩倍速率,構(gòu)成了有史以來(lái)性能最強(qiáng)大的Ampere。

SM單元的改變

而NVIDIA Ampere架構(gòu)的強(qiáng)大性能并不是NVIDIA一蹴而就,可以說(shuō)在20系顯卡中所采用的Turing架構(gòu)功不可沒(méi),下面我們先來(lái)看看完整的GA102核心。

完整的GA102 GPU包含7個(gè)GPC(圖形處理集群)42個(gè)TPC(紋理處理集群)以及84個(gè)SM(流處理器)組成。

GPC是占據(jù)主導(dǎo)地位的高級(jí)模塊,擁有所有的關(guān)鍵圖形處理單元,每個(gè)GPC包含一個(gè)專用光柵引擎。

在新的NVIDIA Ampere架構(gòu)中,每個(gè)GPC還包含了兩個(gè)ROP分區(qū),每個(gè)分區(qū)包含8個(gè)ROP單元。下面我們來(lái)看看每個(gè)SM單元的變化。

在每個(gè)SM中,包含四個(gè)大的處理分區(qū)共128個(gè)CUDA核心,4個(gè)第三代Tensor Core,1個(gè)第二代RT Core,1個(gè)256 KB的緩存文件,1個(gè)128 KB的L1緩存,這個(gè)L1緩存可以根據(jù)不同的工作需求來(lái)調(diào)配緩存,工作效率發(fā)揮至最大。

另外大家都知道本次RTX 3080的CUDA數(shù)量暴增至8704個(gè),而RTX 3090的CUDA數(shù)量更是達(dá)到了驚人的10496個(gè)。

但是大家要知道專業(yè)計(jì)算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的晶體管數(shù)量,理論上只有8192個(gè)CUDA,那RTX 3080又是如何達(dá)到這種效果的呢?

其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍。

我們?cè)诎l(fā)布會(huì)中經(jīng)常聽(tīng)到性能翻倍的說(shuō)法,其實(shí)是因?yàn)楸敬蜰VIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運(yùn)算單元,這就使得每個(gè)SM的FP32運(yùn)算單元數(shù)量提高了一倍,同時(shí)吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計(jì)算顯卡的CUDA數(shù)量,并不是把SM中的所有單元加起來(lái)計(jì)數(shù),而是只統(tǒng)計(jì)FP32單元的數(shù)量,所以這樣一來(lái),SM中的【FP32 : INT32】 從 1:1 變?yōu)?2:1。

如RTX 3080的8704個(gè)CUDA,其實(shí)它只有4352個(gè)INT32單元,但由于內(nèi)部的FP32數(shù)量翻了一倍,所以最終實(shí)現(xiàn)了8704這個(gè)驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對(duì)于游戲有幫助嗎?

答案是有,不僅有提升還很大。其實(shí)通常在游戲中浮點(diǎn)運(yùn)算相比整數(shù)計(jì)算要常用的多,圖形、算法以及各種計(jì)算操作中著色器工作負(fù)載通常需要混合使用FP32算數(shù)指令,而FP32的加速也有助于光線追蹤降噪著色器。

第二代RT Core

在此次的NVIDIA Ampere架構(gòu)中,NVIDIA官方宣布為第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,著色器發(fā)出光線追蹤的請(qǐng)求,交給RT Core來(lái)處理,它將進(jìn)行兩種測(cè)試,分別為邊界交叉測(cè)試(Box Intersection testing)和三角形交叉測(cè)試(Triangle Intersection testing)。

基于BVH算法來(lái)判斷,如果是方形,那么就返回縮小范圍繼續(xù)測(cè)試,如果是三角形,則反饋結(jié)果進(jìn)行渲染。

而光線追蹤最耗時(shí)的正是求交計(jì)算,因此,要提升光線追蹤性能,主要是對(duì)兩種求交(BVH/三角形求交)進(jìn)行加速。

在Turing的RT Core中,可以每個(gè)周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一個(gè)新的三角形位置插值模塊以及一個(gè)的額外的三角形求交模塊,這樣做的目的是為了提升諸如運(yùn)動(dòng)模糊特效時(shí)候的光線追蹤性能。

第二代RT Core可以讓光線追蹤與著色同時(shí)進(jìn)行,進(jìn)行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動(dòng)態(tài)模糊的影像時(shí),按照NVIDIA自己的實(shí)測(cè),比Turing快8倍。

第三代Tensor Core

除了光線追蹤的強(qiáng)化,Ampere架構(gòu)的Tensor Core也得到了極大地加強(qiáng),在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動(dòng)識(shí)別并消除不太重要的DNN(深度神經(jīng)網(wǎng)絡(luò))權(quán)重,同時(shí)依然能保持不錯(cuò)的精度。

首先原始的密集矩陣會(huì)經(jīng)過(guò)訓(xùn)練,刪除掉稀疏矩陣,再經(jīng)過(guò)訓(xùn)練稀疏矩陣,從而實(shí)現(xiàn)稀疏優(yōu)化,進(jìn)而提高Tensor Core的性能。

所以最終的結(jié)果就是Tensor Core在處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍,算力高達(dá)238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。

RTX IO

與此次RTX 30系顯卡一同發(fā)布的還有一項(xiàng)新技術(shù)——RTX IO。目前很多游戲動(dòng)輒幾十G甚至百G的安裝空間,對(duì)于存儲(chǔ)空間的負(fù)擔(dān)暫且不提,但存放在硬盤中的數(shù)據(jù),如果顯卡想要讀取到,需要先由CPU從硬盤中讀取壓縮過(guò)的數(shù)據(jù),經(jīng)過(guò)解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出,讀取速度相較機(jī)械硬盤能夠快20倍,但受制于傳統(tǒng)I/O限制,NVMe高達(dá)7GB/秒的高速讀寫對(duì)于CPU是極大的負(fù)擔(dān)。

在這個(gè)過(guò)程中,會(huì)占用多個(gè)CPU核心,壓力急劇增大,占用較多的內(nèi)存,而此時(shí)其實(shí)GPU是處于閑置狀態(tài)的。

RTX IO的作用就是越過(guò)CPU解壓再傳輸數(shù)據(jù)這一步,直接從PCIE總線讀取硬盤上經(jīng)過(guò)壓縮的數(shù)據(jù),并且完成解壓,降低CPU占用,變向提升了性能。

當(dāng)然這項(xiàng)技術(shù)作為系統(tǒng)底層的運(yùn)行方式改變,還需要借助微軟發(fā)布的DirectStorage來(lái)實(shí)現(xiàn),對(duì)于目前容量的游戲來(lái)說(shuō),RTX IO的改善效果有限,但假以時(shí)日等游戲容量上百G成為常態(tài)的時(shí)候,這項(xiàng)技術(shù)將會(huì)發(fā)揮巨大的功效。

最快的顯存

在RTX 3080中,采用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與采用GDDR6的Turing相比可提升40%的速度,在相同時(shí)間內(nèi)GDDR6X可以比GDDR6傳輸多2倍的數(shù)據(jù)。

這對(duì)于需要大量數(shù)據(jù)負(fù)載的工作尤為重要,如光線追蹤的游戲、AI學(xué)習(xí)和8K視頻渲染。

同時(shí)搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。

相信了解RTX 30系顯卡的性能后,會(huì)有玩家會(huì)問(wèn),RTX 20系顯卡如此“短壽”算不算失敗的一代,我認(rèn)為不算。

Turing為我們開(kāi)創(chuàng)了光線追蹤和AI學(xué)習(xí)的新世界,奠定了GPU未來(lái)的發(fā)展方向,真正意義上實(shí)現(xiàn)從性能的堆砌到質(zhì)的改變。

而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更扎實(shí)。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4994

    瀏覽量

    103180
  • 顯卡
    +關(guān)注

    關(guān)注

    16

    文章

    2437

    瀏覽量

    67723
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    515

    瀏覽量

    25491
  • Ampere
    +關(guān)注

    關(guān)注

    1

    文章

    67

    瀏覽量

    4546
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    NVIDIA 推出高性價(jià)比的生成式 AI 超級(jí)計(jì)算機(jī)

    人群提供更強(qiáng)大的生成式 AI 功能與性能,目前建議零售價(jià) 2070 人民幣。 ? 該開(kāi)發(fā)者套件現(xiàn)已上市,與上一代產(chǎn)品相比,其生成式
    發(fā)表于 12-18 17:01 ?399次閱讀
    <b class='flag-5'>NVIDIA</b> 推出高性價(jià)比的生成式 AI 超級(jí)計(jì)算機(jī)

    相比上一代低功耗藍(lán)牙芯片,CC2745P到底升級(jí)了什么?

    TI最近發(fā)布了新一代藍(lán)牙芯片CC2745P,那么相對(duì)于上一代CC2642芯片,做了哪些升級(jí),在實(shí)際應(yīng)用中有哪些優(yōu)勢(shì)?。CC2745P/CC2642基本參數(shù)對(duì)比如下:型號(hào)CC2745PCC2642
    發(fā)表于 11-15 14:11

    capsense第四和第五在感應(yīng)模式上的具體區(qū)別是什么?

    據(jù)我所知,第五capsense相比第四將電容(包括自電容+互電容技術(shù))和電感觸摸技術(shù)集成到了起,snr信噪比是上一代的十多倍,同時(shí)功
    發(fā)表于 05-23 06:24

    MediaTek與美團(tuán)攜手合作打造新一代餐飲系統(tǒng)硬件S4 Pro系列收銀機(jī)

    MediaTek 與美團(tuán)攜手合作,打造新一代餐飲系統(tǒng)硬件 S4 Pro 系列收銀機(jī)。該系列收銀機(jī)采用 MediaTek 新一代高階物聯(lián)網(wǎng)芯片 Genio 510,對(duì)比上一代收銀產(chǎn)品性能大幅提升
    的頭像 發(fā)表于 05-17 10:09 ?561次閱讀

    進(jìn)步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    帶寬和1.8TB/s的NVLink帶寬,使處理能力翻倍,大幅增加內(nèi)存容量和帶寬,為處理大規(guī)模人工智能模型和復(fù)雜計(jì)算提供必要資源。 針對(duì)大規(guī)模模型如GPT-MoE-1.8T,HGX B200的推理性能比上一代
    發(fā)表于 05-13 17:16

    NVIDIA推出兩款基于NVIDIA Ampere架構(gòu)的全新臺(tái)式機(jī)GPU

    兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來(lái)實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-26 11:25 ?630次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱 Embedding 全置于 GPU 上進(jìn)行
    的頭像 發(fā)表于 04-20 09:39 ?746次閱讀

    NVIDIA發(fā)布兩款新的專業(yè)顯卡RTX A1000、RTX A400

    NVIDIA今天發(fā)布了兩款新的專業(yè)顯卡RTX A1000、RTX A400,從編號(hào)就能看出來(lái)定位入門級(jí),而且架構(gòu)并非最新的Ada Lovelace,還是上一代Ampere
    的頭像 發(fā)表于 04-18 11:35 ?2287次閱讀
    <b class='flag-5'>NVIDIA</b>發(fā)布兩款新的專業(yè)顯卡RTX A1000、RTX A400

    全新NVIDIA RTX A400和A1000 GPU全面加強(qiáng)AI設(shè)計(jì)與生產(chǎn)力工作流

    兩款 NVIDIA Ampere 架構(gòu) GPU 為工作站帶來(lái)實(shí)時(shí)光線追蹤功能和生成式 AI 工具支持。
    的頭像 發(fā)表于 04-18 10:29 ?546次閱讀

    使用NVIDIA Holoscan for Media構(gòu)建下一代直播媒體應(yīng)用

    NVIDIA Holoscan for Media 現(xiàn)已向所有希望在完全可重復(fù)使用的集群上構(gòu)建下一代直播媒體應(yīng)用的開(kāi)發(fā)者開(kāi)放。
    的頭像 發(fā)表于 04-16 14:04 ?689次閱讀

    英偉達(dá)發(fā)布性能大幅提升的新款B200 AI GPU

    英偉達(dá)宣稱,B200在性能上比以往最好的GPU快30倍不止。由它構(gòu)成的服務(wù)器集群相比上一代,運(yùn)算能力飛躍性提升,甚至能使大語(yǔ)言模型的訓(xùn)練速度翻番。
    的頭像 發(fā)表于 03-20 09:37 ?821次閱讀

    全面提升!英飛凌推出新一代碳化硅技術(shù)CoolSiC MOSFET G2

    電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)近日英飛凌推出了CoolSiC MOSFET G2技術(shù),據(jù)官方介紹,這是新一代的溝槽柵SiC MOSFET技術(shù),相比上一代產(chǎn)品也就是CoolSiC MOSFET G1有
    的頭像 發(fā)表于 03-19 18:13 ?3038次閱讀
    全面<b class='flag-5'>提升</b>!英飛凌推出新<b class='flag-5'>一代</b>碳化硅技術(shù)CoolSiC MOSFET G2

    NVIDIA將在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”

    根據(jù)各方信息和路線圖,NVIDIA預(yù)計(jì)會(huì)在今年第二季度發(fā)布Blackwell架構(gòu)的新一代GPU加速器“B100”。
    的頭像 發(fā)表于 03-04 09:33 ?1340次閱讀
    <b class='flag-5'>NVIDIA</b>將在今年第二季度發(fā)布Blackwell<b class='flag-5'>架構(gòu)</b>的新<b class='flag-5'>一代</b>GPU加速器“B100”

    NVIDIA的Maxwell GPU架構(gòu)功耗不可思議

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架構(gòu),它有著極高的能效,出場(chǎng)方式也非常特別。
    的頭像 發(fā)表于 02-19 16:39 ?1038次閱讀
    <b class='flag-5'>NVIDIA</b>的Maxwell GPU<b class='flag-5'>架構(gòu)</b>功耗不可思議

    英偉達(dá)Orin 的系統(tǒng)結(jié)構(gòu)解析

    Orin SoC包含了高達(dá)170億晶體管,幾乎是Xavier SoC的兩倍,搭載了12個(gè)ARM Hercules內(nèi)核,并集成了NVIDIA一代Ampere架構(gòu)的GPU,提供了驚人的2
    的頭像 發(fā)表于 01-29 12:33 ?2530次閱讀
    英偉達(dá)Orin 的系統(tǒng)結(jié)構(gòu)<b class='flag-5'>解析</b>
    主站蜘蛛池模板: 黄色大毛片| 欧美成人亚洲欧美成人| 欧美+日本+国产+在线观看| yy肉戏多纯黄的小说| 色综合啪啪| 日日操夜夜爱| www.4虎| 欧美一级特黄aa大片视频| 亚洲香蕉毛片久久网站老妇人| www.av网| 夜夜爽免费视频| 成人免费视频一区| 九色综合久久综合欧美97| 日本大片免费一级| 无内丝袜透明在线播放| 国产成人高清精品免费5388密| 一道精品一区二区三区| 手机在线完整视频免费观看| 中文一区在线观看| baoyu污污网站入口免费| 爱爱天堂| www天天操| 亚洲欧美日韩一区| 亚洲 午夜在线一区| 中文字幕一区二区三| 一级毛片日韩a欧美| 高h水果榨汁play男男| 色在线免费视频| 色综合激情丁香七月色综合| 能看的黄色网址| 99久久综合| 亚洲免费小视频| 夜夜夜久久久| 久操综合| 国产免费爽爽视频免费可以看| 黑色丝袜美美女被躁视频| 久久99精品久久久久久秒播| 黄色的视频网站在线观看| caoporn97人人做人人爱最新| 99热精品一区| 欧美日韩在线成人免费|