Ampere架構將為GeForce RTX 3090,GeForce RTX 3080,GeForce RTX 3070和其他即將推出的Nvidia GPU提供動力。它代表了Team Green的下一次重大升級,因為這次在性能上它有可能實現巨大飛躍。該顯卡將于本月晚些時候上市,而3070要等到10月份。根據當前消息,這些GPU可以輕松遷移至我們的GPU層次結構的頂部,并將一些最好的顯卡淘汰一兩個。下文將詳細介紹Ampere架構,主要內容包括規格,功能和其他性能增強。
Ampere架構標志著NVIDIA的重要轉折點。這是該公司的首款7納米GPU,或用于消費類零件的8納米GPU。無論以何種方式,制程減小都能使其在比以前更小的面積內封裝更多的晶體管。它也是第二代消費者光線追蹤和第三代深度學習硬件。較雄昂的制程為Nvidia極大程度上改進以前的RTX 20系列硬件和技術創造了條件。
我們知道Ampere架構將在即將到來的GeForce RTX 3090,RTX 3080和RTX 3070顯卡中得到應用(預計明年RTX 3060和RTX 3050發布)。它也是Nvidia A100數據中心GPUs的一部分,該GPUs是完全獨立的硬件。在這里,我們將逐步分析Ampere體系結構的消費者和數據中心的變體,然后深入探討其中的一些差異。
Nvidia的Ampere GPU發布感覺就像是2016年的Pascal和2018年的Turing GPus的融合。Nvidia首席執行官黃仁勛(Jensen Huang)于5月14日發布了用于數據中心的A100,讓我們了解到即將推出的產品的官方消息,但A100不是為GeForce卡設計的。A100替代了Volta GV100,而GV100替代了GP100。消費類模型具有不同的功能集,并由單獨的GPU(如GA102,GA103等)提供支持。消費類顯卡還使用GDDR6X / GDDR6,而A100使用HBM2。
除了底層的GPU架構,Nvidia還改進了核心圖形卡設計,重點放在散熱和功耗上。正如Nvidia在視頻中所描述,“每當我們談論GPU性能時,其實就是在講我們可以賦予和散去的功率,這種功率越大,性能就越好。”經過改進的散熱解決方案,風扇和PCB(印刷電路板)都是改善Nvidia Ampere GPU整體性能計劃的一部分。當然,第三方設計可以自由調整Nvidia的設計。
隨著臺積電從12nm FinFET節點轉移到臺積電N7和三星N8,許多人期望Ampere在更低的功耗水平下提供更好的性能。與之相反的是,Nvidia以多多益善的方式采取了所有額外的晶體管并且提升功率(至少在產品堆棧的頂部是如此)。例如,GA100擁有540億個晶體管,其方形芯片尺寸是826mm。與GV100相比,晶體管數量增加了156%,而die尺寸僅增加了1.3%。我們預計消費類GPU也會有類似的變化。
雖然7nm / 8nm在相同性能下確實可以有更高的功率,但其在相同功率下也可以表現出更好的性能。Nvidia邁出了一步,并在更高的功率水平下提供了更高的性能。V100數據中心模型的功率是300W,而新發布的Nvidia A100則將其提高到400W。我們在消費者模型上得到了相同的結果。GeForce RTX 2080 Ti的功率為250 / 260W,Titan RTX的功率為280W。有傳言稱RTX 3090超越了它,并配備有歷史最高的TDP,可用于350W功率的單個GPU(顯然不包括A100)。
這對終端用戶意味著什么?除了可能需要升級電源以及在Nvidia自己的型號上使用12針電源連接器之外,還意味著性能的度量標準會做出相應改變。在我的印象中,這次是Nvidia性能上最大的單代提升。Nvidia表示,結合即將進行的體系結構更新,RTX 3080的性能是RTX 2080的兩倍。如果這些工作負載包括光線跟蹤和/或DLSS,那么差距可能會更大。
值得慶幸的是,最終價格不會比上一代GPU差很多(這取決于定價的比較方式)。GeForce RTX 3090的首發價為1,499美元,創下了單GPU的 GeForce顯卡的記錄,有效取代了Titan系列。RTX 3080的價格為699美元,RTX 3070的價格為499美元,與上一代RTX 2080 Super和RTX 2070 Super保持相同的價格。Ampere架構是否價格公道?我們需要再作等待才能實際測試硬件,但是這些規格至少看起來非常有吸引力。
Ampere GA100使Nvidia以前的GPU相形見絀,其晶體管的數量是GV100的2.5倍。
Nvidia Ampere體系結構規格
除了用于數據中心的GA100之外,Nvidia還計劃在2020年至少再推出三個Ampere GPU。來年,可能還會有多達三個額外的Ampere解決方案,盡管這些解決方案尚未得到證實。
規格最大并且性能最差的GPU是A100。它具有多達128個SM和6個8GB的HBM2堆棧,其中Nvidia A100當前僅啟用108個SM和五個HBM2堆棧。未來的版本可能具有完整的GPU和RAM配置。但是,GA100不會像普通的GP100和GV100那樣僅用作數據中心和工作站,而是成為消費類產品。如果沒有光線追蹤硬件,GA100不會像GeForce卡那樣遙不可及(因為無需考慮大型裸片,HBM2和硅中介層的成本)。
在把方向下調至消費者模型后,Nvidia進行了一些重大更改。我們還沒有完整的外觀,但是Nvidia顯然使每個SM的CUDA內核數量增加了一倍,從而在著色器性能上取得了巨大的進步。有了GA102和RTX 3090,Nvidia可能會削減相對于GA100軸上兩個SM集群,從而保留96個SM的最大配置。其中,RTX 3090僅啟用了82個。HBM2和硅中介層也消失了,取而代之的是12個GDDR6X芯片。
每個SM的CUDA內核增加一倍之后(相當于10496個CUDA內核),每個SM可能有兩個支持FP64的CUDA內核。Nvidia去除了剩余的FP64功能,并在其位置添加了第二代RT內核。至于四個第三代Tensor核心,其中每個核心的吞吐量是上一代Turing Tensor核心的每時鐘吞吐量的四倍。1700 MHz的boost頻率可提供FP32計算性能的35.7 TFLOPS,而19.5 Gbps GDDR6X可提供936 GBps的帶寬。大致來講,RTX 3090的性能可能會是RTX 2080 Ti的兩倍以上。
值得注意的是,目前有一大批SM被禁用。將來是否會完全啟用GA102的Titan卡?當然如此。也許它還將配備21 Gbps內存,并配上相應的高價。(友情提示:即便你壕氣沖天,也不要為了游戲而購買Titan GPU。3-5%的性能提升絕對不值這個價。)
相對于GA102,GA103做出了進一步修整。目前GA103有6個SM集群,最多72個SM。RTX 3080使用幾乎完整的GA103,其有68個SM和8704 CUDA內核,而我們認為RTX 3070使用僅具有46個active SM和5888 CUDA內核的harvest芯片(可能是GA104,但這并不重要)。3080還具有10GB的GDDR6X內存和320位總線,而3070禁用了兩個通道,最終在256位的總線上具有8GB的GDDR6內存。
與前幾代產品不同,所有三個RTX 30系列GPU的工作頻率都較為相似:1700-1730MHz。從理論性能上講,RTX 3080可以完成29.8 TFLOPS,并具有760 GBps的帶寬,Nvidia表示它的速度是即將發布的RTX 2080的兩倍。
同時,RTX 3070提供20.4 TFLOPS和512 GBps的帶寬。Nvidia表示RTX 3070的最終運行速度也將比RTX 2080 Ti快,盡管在某些情況下11GB與8GB VRAM相比,會讓前重量級冠軍略勝一籌。同樣,架構上的改進肯定會有所幫助。
現在我們開始討論Ampere架構。
A100是Nvidia有史以來規格最大的GPU,相比之下各種消費類芯片要小得多
英偉達的GA100 Ampere架構
隨著GA100和Nvidia A100的發布以及GeForce RTX 30系列的面世,我們現在對預期會有一個很好的了解。英偉達將繼續擁有兩條獨立的GPU系列,其中一條專注于數據中心和深度學習,另一條專注于圖形和游戲。數據中心GA100所做的一些更改會延伸至消費類產品線,但這并沒有擴展到FP64的Tensor核心增強功能。這就是我們對Ampere架構始于GA100的了解。
首先,GA100包含許多新內容。從較高的角度來看,GPU已從GV100中的最多80個SMs / 5120 CUDA內核增加到GA100中的128個SMs / 8192 CUDA內核。雖然核心數量增加了60%,但GA100使用的晶體管數量是其2.56倍。所有這些額外的晶體管都用于增強架構。如果您想深入了解所有細節,請查看Nvidia的A100 Architecture白皮書,我們只對其進行簡要總結。
GA100中的Tensor核心取得了最重要的升級。上一代GV100 Tensor內核在兩個4x4 FP16矩陣上運行,并且可以計算兩個矩陣的4x4x4融合乘加(FMA),每個周期具有第三個矩陣。每個Tensor內核每個周期可以進行128個浮點運算,而Nvidia將GV100評為FP16的125 TFLOPS峰值吞吐量。相比之下,GA100 Tensor內核每個工作頻率可以完成8x4x8 FMA矩陣運算,每個Tensor內核總共可以進行256 FMA或512 FP(吞吐量是其四倍)。即使它每個SM的Tensor內核數量只有上一代GV100 Tensor內核的一半,但它仍然是上一代GV100 Tensor內核每個SM的性能的兩倍。
GA100還增加了對Tensor內核稀疏性的支持。該改進考慮到許多深度學習操作最終會產生一堆不再重要的加權值,因此隨著訓練的進行,這些值基本上可以忽略。稀疏性將Tensor核心吞吐量提高了一倍。FP16的Nvidia A100的額定值為312 TFLOPS,而有稀疏性支持的Tensor 內核則為624 TFLOPS。
除了大幅提高原始吞吐量外,GA100 Tensor內核還增加了對更低精度的INT8,INT4和二進制Tensor運行的支持。INT8容許具有稀疏性的624 TOPS和 1248 TOPS,而INT4則將其翻倍,達到了1248/2496 TOPS。二進制模式不支持稀疏性,可能用途有限,但是A100可以在該模式下進行4992 TOPS。
另一方面,A100中的Tensor內核也支持FP64指令。FP64的性能在19.5 TFLOPS時遠低于FP16。但是,對于FP64工作負載,它仍然比GV100的最大FP64吞吐量快2.5倍。
最后一點,A100添加了兩種新的浮點格式。BF16(Bfloat16)已被其他一些深度學習加速器(例如Google的TPUv4)使用。就像FP16一樣,BF16使用16位,但是使用8位指數和7位尾數進行轉換,匹配FP32的8位指數范圍,同時降低了精度。事實已經證明,這可以提供比普通FP16格式更好的訓練和模型精度。第二種格式是Nvidia在Tensor Float 32(TF32)上的格式,該格式保留8位指數,但將尾數擴展到10位,使FP16的精度與FP32的范圍相匹配。TF32的性能也與FP16相同,因此深度學習仿真的額外精度基本上是“免費”的。
哇,這是一個具有公制對接晶體管的大芯片!
Tensor的核心增強功能很多,這也表明了Nvidia在GA100上的重心。深度學習和超級計算工作負載的性能大大提高。GA100還具有其他一些體系結構更新,我們將在此處作簡要介紹。SM晶體管的數量增加了50-60%,所有這些晶體管都必須放在某個地方。
多實例GPU(MIG)是一項新功能。這使得單個A100可以劃分為多達七個獨立的虛擬GPU。每個虛擬GPU(使用Tensor操作運行推理工作負載)都可能與單個GV100的性能相匹配,從而極大地增加了云服務提供商的橫向擴展機會。
每個SM的A100 L1高速緩存大了50%,與V100上的128KB相比為192KB。L2緩存的增加幅度更大,從V100的6MB增加到A100的40MB。它還具有新的分區交叉開關結構,可提供GV100 L2緩存的讀取帶寬的2.3倍。請注意,總的HBM2內存“僅”從GV100的16GB或32GB增加到GA100的40GB,但是增加的L1和L2緩存有助于更好地優化內存性能。
NVLink性能也幾乎翻了一番,從GV100中的每個信號對25.78 Gbps到GA100中的50 Gbps。A100中的單個NVLink在每個方向上提供25 GBps的速率,類似于GV100,但每個鏈路具有一半的信號對。鏈接總數也增加了一倍,達到12條,從而使NVLink總帶寬在A100下為600 GBps,而在V100下為300 GBps。此外還提供了PCIe Gen4支持,幾乎使x16連接的帶寬增加了一倍(從15.76 GBps到31.5 GBps)。
最后,A100添加了新的異步副本,異步屏障和任務圖加速。異步副本可提高內存帶寬效率并減少寄存器文件帶寬,并且可以在SM執行其他工作時在后臺完成。硬件加速障礙為CUDA開發人員提供了更大的靈活性和性能,并且任務圖加速有助于優化向GPU提交的工作。
還有其他體系結構增強,例如NVJPG解碼可加速JPG解碼,以用于基于圖像的算法的深度學習訓練。A100包含5核硬件JPEG解碼引擎,該引擎可勝過基于CPU的JPEG解碼并減輕PCIe擁塞。同樣,A100添加了五個NVDEC(Nvidia解碼)單元,以加速常見視頻流格式的解碼,這有助于與視頻一起使用的深度學習和推理應用的端到端吞吐量。
介紹完了GA100和Nvidia A100架構之后,以下將介紹消費類GeForce RTX卡的Ampere架構變化。
Nvidia GA102 / GA103 Ampere架構
與GV100相比,GA100進行了大量更改,而在消費類方面,更新同樣顯著。以上對Tensor核心的許多更改都直接帶入了消費類模型(自然很可能會減去FP64)。除了支持Micron的新GDDR6X存儲器(而不是HBM2)之外,其他主要更改還包括光線跟蹤和CUDA內核。
Nvidia在2018年使用Turing架構和GeForce RTX 20系列GPU在光線追蹤方面引起了很多爭議。兩年過去了……好吧,說實話:游戲中的光線追蹤并沒有真正發揮其潛力。《戰地風云5》具有更好的反射效果,《古墓麗影》和《使命召喚》的陰影得到了改善,《地鐵出埃及記》使用了RT全局照明,并且在每種情況下,性能的下降都使視覺效果有了相對較小的提高。迄今為止,關于光線追蹤可以做什么,最好的例子可以說是“控制游戲”,該游戲使用RT效果進行反射,陰影和漫射照明。它看起來相當不錯,盡管您可能抱有期望,但其對性能的影響仍然很大。
究竟有多大呢?對于RTX 2080 Ti和Core i9-9900K,在1440p和最高質量下運行Control且沒有光線追蹤的情況下,其性能為80 fps(這是我們在本文中剛剛完成的測試)。打開所有光線跟蹤功能之后,七性能降低到43 fps,慢47%,或基本上降低一半。盡管您可以通過啟用DLSS 2.0來緩解問題,但該功能在質量模式下可渲染為1707x960,并可以放大到1440p。但這會帶來一個痛苦的代價:性能降回72 fps。
還有“全路徑跟蹤”的演示,其中硬件進一步推向了更高的位置。以Quake II或Minecraft之類的相對古老且低保真的游戲為例,再添加照明,陰影,反射,折射等全光線追蹤效果。而且,結果可能是60 fps,而不是每秒數百幀。這還是在以至少1080p的RTX 2070 Super啟用DLSS的情況(這已經到達質量水平)。
或許有人認為光線跟蹤效果對性能造成的損失太大, Nvidia應該反其道而行之。但是說這類話的人對Nvida不是很了解。據Nvidia稱,GeForce 256是第一個GPU,它還將硬件轉換和照明計算引入了消費類硬件。大多數游戲要幾年后才能正確使用這些功能。第一批帶有著色器的GPU早在數年之前就已經普遍使用該硬件,但是今天幾乎所有發行的游戲都廣泛使用了著色器技術。Nvidia認為光線追蹤會有一個類似的演變過程。
好消息是,采用Ampere架構的光線追蹤性能正在迅速崛起。Nvidia表示,與RTX 2080 Ti的34 TFLOPS相比,RTX 3080可以進行58 TFLOPS的光線跟蹤計算。換句話說,光線追蹤的速度快了1.7倍。2080 Ti的光線三角相交計算速度達到每秒11千兆字節,因此RTX 3080可以達到每秒19千兆字節,而與以往的最佳紀錄相比,RTX 3090將翻倍甚至更躲。
這對光線追蹤游戲意味著什么?我們會很快找到答案,但是根據我們從Nvidia那里聽到的消息,我們將看到更多的游戲開發人員增加了光線跟蹤效果。賽博朋克2077將具有光線追蹤的反射,陰影,環境光遮擋等功能。像Control這樣的游戲可能在啟用所有光線跟蹤效果的情況下運行,并且一旦啟用DLSS,相對于傳統渲染而言,其性能不會顯著下降,甚至有可能會表現出性能提升。
Nvidia還從其使用完整路徑跟蹤的Marbles技術演示中提供了上述指標。一個未命名的Turing GPU(RTX 2080 Ti?)那能夠以720p和25 fps的速度運行Marbles,沒有景深,只有一個圓頂燈和一個間接光。同時,Ampere(RTX 3090?)可以以1440p和30 fps的速度運行演示,并啟用了景深和130個區域照明燈。結果是無論使用什么實際的GPU,都有可能將光線追蹤提升到一個全新的水平。
當然,這不僅與光線追蹤有關。英偉達還在DLSS上加倍努力,而且由于擁有更強大的Tensor內核,所以質量和性能應該比以前更好。我們即將實現質量模式下的DLSS 2.0看起來比使用TAA或SMAA的本機渲染效果更好。不難想象,許多游戲玩家選擇啟用DLSS來獲得健康的性能提升。
由于Ampere對8K顯示器具有本機支持,因此得益于HDMI 2.1,DLSS變得更加重要。什么樣的硬件能夠以絕佳的性能水平為8K提供動力?這很容易:打開DLSS并使用RTX 3090或RTX 3080以4K渲染。這是8K渲染嗎?當然不是。但這是個無關緊要的問題。
當然,8K顯示器的價格仍然高得驚人,如果您坐在沙發上,幾乎不可能看到4K和8K之間的差異。另外,如果您像我一樣視力老化,那這種可能性為零。但是在家庭影院領域,營銷力量很強大,因此我們可以肯定將來8K電視會以更大的推動力向前發展(這正是消費電子公司試圖說服所有4K HDR電視所有者做出升級的方式)。
Nvidia Ampere架構:第二輪光線追蹤
毫無疑問,現在使用Nvidia的RTX 20系列GPU的人會有一種受到欺騙的感覺。如果幾個月前您沒有收到我們所提出的關于等待購買新GPU直到Ampere發布的建議,那么看到RTX 30系列規格和Ampere架構可能會給您帶來更大的損失。問題在于,我們始終知道這一天會到來。就像Turing取代Pascal,Pascal取代Maxwell,Maxwell又取代Kepler一樣,GPU世界的迭代更新之路也在穩定發展。
另一方面,如果您在過去幾年中一直對游戲中的光線追蹤持懷疑態度,Ampere可能最終會成功說服您嘗試一下。然后您又拖一個月左右,想看看AMD的Big Navi表現。現實情況是,我們將看到更多支持某種形式的光線追蹤的游戲,尤其是計劃于今年秋天推出的下一代PlayStation 5和Xbox Series X控制臺。我們有望在足夠的硬件實力的支持下,游戲的光線追蹤效果具有現實意義。
可以肯定的一件事是:光線追蹤不會消失。它幾乎已經成為每部電影的重要組成部分,雖然目前還不是游戲與2020年好萊塢的電影競爭的時候,但他們也許可以追趕2000年代的好萊塢。目前,實時游戲通常希望每個像素僅使用幾條光線,以更好地貼近現實光線的表現方式。相比之下,好萊塢每個像素可能使用數千條光線(或路徑)。具有光線追蹤硬件的GPU仍處于早期階段,但是如果Nvidia(以及AMD和Intel)可以繼續升級我們的GPU,那么游戲和電影之間的差距將只會縮小。
Nvidia尚未透露所有關于Ampere架構更改的消息,因此我們后續將在了解更多信息后做出更新。
責任編輯:tzh
-
印刷電路板
+關注
關注
4文章
801瀏覽量
35200 -
gpu
+關注
關注
28文章
4742瀏覽量
128979 -
帶寬
+關注
關注
3文章
937瀏覽量
40942
發布評論請先 登錄
相關推薦
評論