NVIDIA Ada Lovelace架構的RTX 40系GPU繼續(xù)朝向縱深的主流市場延伸,繼RTX 4090、RTX 4080和RTX 4070系先后布局了4K+及1440p游戲市場之后,面向當前最為主流的1080p游戲市場的RTX 4060系GPU也在這個5月全面發(fā)布,而且NVIDIA一口氣發(fā)布了三款“60”家族的產品——GeForce RTX 4060 Ti 16GB、RTX 4060 Ti 8GB和RTX 4060。
相較于7月才會正式上市的GeForce RTX 4060 Ti 16GB和RTX 4060來說,RTX 4060 Ti 8GB將在5月下旬正式上市銷售。按照NVIDIA的構想,RTX 4060系GPU將在1080p全特效光追游戲的市場上找到屬于自己的位置,并取代當前的RTX 3060系級更老的RTX 2060系GPU完成產品的換代更迭。那么,RTX 4060系是否有這個實力扛旗前進,為RTX 40系GPU在主流級游戲市場上繼續(xù)開疆辟土呢?先上市的RTX 4060 Ti 8GB或許能告訴我們一些答案。
NVIDIA對RTX 40系GPU的游戲市場定位布局還是比較清晰的,最初面世的頂級產品RTX 4090和RTX 4080毫無疑問是主打4K+全特效游戲市場,而之后的RTX 4070系則主打1440p@100fps+的全特效光追游戲市場。那么按照系列的傳承邏輯,RTX 4060系GPU自然就應該是應對1080p分辨率的主流級游戲市場。在目前這個市場上,核心戰(zhàn)力還是RTX 3060 Ti、RTX 3060以及RTX 2060 SUPER等產品,RTX 4060系GPU的主要目標之一無疑是完成基于這些前一代甚至前兩代GPU的游戲升級,從RTX 20系、30系的“60”家族,進化到RTX 40系的“60”家族,為有此需求的游戲玩家?guī)碛螒蝮w驗的一波新定義升級——全特效、高光追的1080p@100fps+游戲,這就是RTX 4060系GPU的核心目標。而對于首發(fā)的RTX 4060 Ti 8GB GPU來說,按照NVIDIA官方對其的定位,其主要特色在于性能相較 RTX 3060Ti GDDR6提升 15%~70%(DLSS 3),相較 2060 SUPER 提升60%-160%(DLSS 3),同時得益于32MB大容量L2緩存的配置,CUDA核心、光追核心的執(zhí)行效率也更高,能為玩家?guī)?080p分辨率下的高幀率、低延遲優(yōu)秀游戲體驗。同時在AI內容和設計創(chuàng)作上,也有非常明顯的加速效果。因此對主流消費群體來說,它算是一款真正意義上的甜點級產品。
RTX 4060 Ti GPU核心解析
核心架構全面進化
作為首發(fā)上市的“60”家族成員,RTX 4060 Ti GPU在架構上是完全傳承了RTX 40系GPU Ada Lovelace核心的全部精髓。采用第三代光追核心和第四代AI核心設計,第三代 RT Cores 的有效光線追蹤計算能力達到 191 TFLOPS,是上一代產品 2.8 倍。新的 Tensor Cores 新增 FP8 引擎,具有高達 1.32 petaflops 的張量處理性能,超過上一代的5倍。
同時,在SM單元的設計上也是全新進化,效率達到了上一代的2倍。RTX 40系GPU所支持的著色器執(zhí)行重排序SER可以重新調度著色器的工作排序,從而避免部分著色器在等待中浪費算力和電能,以獲得更好的效率和性能。著色器執(zhí)行重排序 SER 為光線追蹤帶來最高可達 3 倍的性能提升,整體游戲性能提升可高達 25%以上。
DLSS 3與OFA光流加速器
基于Ada光流加速器的DLSS 3最高可帶來相對于DLSS 2達2 倍的性能提升,使 DLSS 3 能夠預測場景中幀和幀之間的運動變化,使神經網絡能夠在保持圖像質量的同時提高幀率。DLSS 3 技術支持 GeForce RTX 40 系列 GPU,它包括 3 個功能:幀生成技術、超分辨率(DLSS 2 的關鍵創(chuàng)新)和 NVIDIA Reflex。開發(fā)者只需整合 DLSS 3,即可默認支持 DLSS 2。
為DLSS 3優(yōu)化,更高效的GPU存儲系統(tǒng)設計
GPU的存儲系統(tǒng)整體由L1緩存、L2緩存、顯存(位寬、帶寬、頻率)以及系統(tǒng)內存四部分組成。
▲L1緩存位于SM單元內,與CUDA核心幾乎是一體的。
▲L2緩存,位于RTX 40系GPU芯片內,通過高速總線橋梁與SM單元(GPC)通信,由所有SM單元共享。
▲顯存位于顯卡的PCB板上,通過顯存控制器總線與GPU核心通信。
GPU在工作時需要頻繁且有效地訪問數據,數據訪問越快、越準確,那么GPU所表現(xiàn)出來的游戲或創(chuàng)作性能就越高。在RTX 40系GPU的每個SM單元內都存在一個超低延遲的L1緩存,這是CUDA核心、AI核心和光追核心在進行計算時的數據訪問首選項,理論速度上它是最快的。但由于L1緩存位于SM單元內,因此不可能設計得非常大(空間、散熱與成本的綜合考慮)。
如果GPU的核心在L1中訪問不到所需要的運算數據,那么就會轉向L2緩存中尋找,在L2緩存中如果找到了所需數據,則會直接調用到GPU內核,這叫緩存信息命中。反之,如果在L2緩存中仍然找不到數據(緩存信息缺失),那么就要由GPU的顯存控制器通過顯存總線接口去訪問GPU外部更大容量的顯存,這一速度是遠低于訪問GPU內部緩存的,而且產生了額外的工作流程。相比L1、L2緩存的信息訪問而言,在性能和功耗效率上都大大降低了。
▲傳統(tǒng)GPU的存儲系統(tǒng)設計中,如果在較低的L2緩存設計下,訪問未命中的情況會比較多(圖中紅色部分),此時這些訪問未命中的數據就需要通過總線接口到顯存(VRAM)中尋找,速度大大降低。如果顯存中仍然未找到需要的數據,那么就要通過系統(tǒng)總線去訪問系統(tǒng)內存,并復制到顯存中進行調用,這一過程是效率最低的。
▲RTX 40系GPU上,L2緩存容量得到了極大增強,RTX 4060 Ti GPU配置了32MB的大容量緩存,大大提高了L2緩存中的訪問命中率。因此在相同甚至更低的顯存帶寬下,大容量的L2緩存設計能有效提升GPU核心的效率,表現(xiàn)在游戲性能上就是大幅度提升了游戲幀率。
簡單來講,更高的L2緩存設計能極大提升GPU的數據訪問命中率,從而讓GPU核心能在整體顯存帶寬和容量成本控制上有更大的冗余空間,且擁有更高的效率。尤其是對于DLSS 3來說,更大的L2緩存也在很大程度上提升了DLSS 3的執(zhí)行效率,對整體游戲性能的表現(xiàn)提升有著巨大貢獻。
更多的GPU存儲系統(tǒng)控制理論在這里我們就不贅述了,后續(xù)我們會專門出一篇相關的技術解析文章為讀者解惑。
新一代NVIDIA編碼器(NVENC)
RTX 40系GPU全部采用了第八代NVENC編碼器的配置,能夠將視頻導出時間至多縮短一半,并支持 AV1 編碼。OBS、Blackmagic Design DaVinci Resolve、Discord 以及更多公司都已在采用 NVENC AV1 編碼器。RTX 4060 Ti也搭配了第八代NVENC編碼器和第五代NVDEC解碼器。
更強的Studio性能
除了游戲性能之外,RTX 40系GPU也是用于內容創(chuàng)作的優(yōu)秀GPU,在加速3D設計創(chuàng)作、視頻剪輯處理和AI計算方面,都有非常不錯的表現(xiàn)。
同時嗎,專用的NVIDIA Studio Driver在頂級創(chuàng)意應用上經過全面測試,能夠最大限度地提高可靠性,比如:
●主播可以用支持AV1的全新第八代編碼器來提高現(xiàn)場直播質量,利用 NVIDIA Broadcast AI
特效改善麥克風和網絡攝像頭,并進入AI驅動的 VTubing。
●得益于RTX 40 系列的雙編碼器和高達2倍的AI工具性能,視頻編輯的輸出速度最高可提升2倍。
●得益于第三代RT Core、SER、DLSS 3和NVIDIA Omniverse,3D 設計創(chuàng)作者可以在4K@60fps 下進行創(chuàng)作。
●Modder可以重制經典游戲,并通過RTX Remix開啟RTX。
AD106核心,1080p游戲設計優(yōu)化
▲完整版AD106核心(上)、RTX 4060 Ti 采用的AD106-350核心(中)、7月將會上市的RTX 4060所采用的AD106核心(下)。
從規(guī)格上來看,本次測試的主角RTX 4060 Ti 8GB FE采用的是代號為AD106的Ada Lovelace核心。完整版的AD106擁有三個完整的GPC,36個SM模組。RTX 4060 Ti的設計則去掉了一個GPC中的2個SM模組,共有三個GPC、34個SM模組。因此,RTX 4060 Ti 8GB FE配置了34個第三代光追核心和136個第四代AI核心,擁有4352個CUDA核心。同時,GPU配置了4個32bit的16Gb GDDR6顯存控制器(每個控制器控制2GB顯存),實現(xiàn)了128bit的顯存帶寬和8GB GDDR6顯存容量配置,整體顯存帶寬為288GB/s。與RTX 4070相比,硬件規(guī)格上的差距約35%。
和前一代的RTX 3060 Ti FE相比,RTX 4060 Ti 8GB FE在CUDA核心數和顯存位寬上都有所落后,不過在L2緩存容量上達到了前者的8倍之多,結合更高效的SM單元和更高的核心頻率,因此在游戲運行效率上有望超越RTX 3060 Ti不少。再加上DLSS 3的支持,RTX 4060 Ti 8GB FE的游戲性能表現(xiàn)還是可以期待的。
TGP設計為160W的GeForce RTX 4060 Ti 8GB FE在外觀尺寸上與RTX 4070 FE保持了一致,仍然是非常輕盈的“小卡”設計,而且傳承了RTX 40系公版顯卡的風格——X形的金屬中框搭配正反交錯的散熱風扇,而散熱片仍然是外露的分布式散熱片。不過與RTX 4070 FE不同的是,在金屬中框部分的顏色由RTX 4070 FE的香檳銀色改為了亮銀色,以與RTX 4070 FE在外觀上有一個顯眼的區(qū)隔。
▲整體設計樸素大方,沒有RGB燈效,非常素雅。
▲RTX 40系的特色標配——ATX 3.0電源規(guī)范支持的PCIe 5.0 16Pin 12VHPWR接口供電接口。
▲輸出接口部分仍然是3DP 1.4a+1 HDMI 2.1的組合
NVIDIA GeForce RTX 4060 Ti Founders Edition(8GB)產品參數
核心架構:Ada Lovelace
核心代號:AD106-350
制程工藝:TSMC 4N定制
SM單元:34
CUDA核心數(流處理器):4352
光追核心數(RT Cores):34
AI核心數(Tensor Cores):136
核心頻率:2310MHz~2535MHz
顯存容量:8GB GDDR6
顯存速率:16Gbps
顯存位寬:128bit
顯存帶寬:288GB/s
支持DLSS版本:DLSS 3
TGP:160W
建議搭配電源額定功率:550W
顯卡厚度:雙槽
首發(fā)參考價格:3199元
性能實測
傳統(tǒng)游戲性能超RTX 3060 Ti 15%左右,DLSS 3作用下增幅巨大
接下來讓我們進入實測環(huán)節(jié)。在這一環(huán)節(jié)中,我們將主要考察GeForce RTX 4060 Ti 8GB FE顯卡在游戲性能和設計創(chuàng)作性能兩大方面的實際表現(xiàn)。綜合玩家的實際情況與顯卡升級的需求,我們將前一代的GeForce RTX 3060 Ti FE(8GB GDDR6)、RTX 3070(8GB GDDR6,替代我們手中暫時沒有的RTX 3060 Ti GDDR6X版本,二者性能比較接近,RTX 3070 FE略強一點)以及更前一代的圖靈核心的GeForce RTX 2060 SUPER納入了對比參考測試的范疇,主要是看看對還在使用RTX 2060 SUPER這類老顯卡的用戶來說,從RTX 20系的“60”家族升級到RTX 40系的“60”家族,能帶來多大的性能提升。
測試平臺
GPU:NVIDIA GeForce RTX 4060 Ti 8GB FE、RTX 3070 FE、RTX 3060 Ti FE、RTX 2060 SUPER FE
主板:英特爾Z790
內存:影馳名人堂DDR5 6000 32GB
電源:鑫谷昆侖冰山1250W(ATX 3.0)
顯示器:戴爾UP3218K(7680×4320@60Hz)
操作系統(tǒng):Windows 11 Pro 22H2
顯卡驅動:NVIDIA Game Ready Driver 531.93
傳統(tǒng)游戲性能測試
先來看下在非DLSS 3的傳統(tǒng)游戲環(huán)境下,RTX 4060 Ti 8GB FE會有怎樣的性能表現(xiàn)。在這部分測試中,我們主要目的是考察在不開啟DLSS 3的狀態(tài)下,GeForce RTX 4060 Ti 8GB FE的游戲性能。測試選取了當前比較熱門的共16款游戲大作,來檢驗RTX 4060 Ti 8GB FE在1440p和1080p分辨率下的具體表現(xiàn)。游戲統(tǒng)一設置為最高畫質和最高光追效果,DLSS模式統(tǒng)一設置為“平衡”。
在3DMark理論性能測試部分,RTX 4060 Ti 8GB FE領先RTX 3060 Ti FE約13%,領先RTX 2060 SUPER FE近60%。在與RTX 3070 FE的比較中,RTX 4060 Ti 8GB FE平均性能落后約3%。
與前一代的對位產品RTX 3060 Ti FE相比,無論是1080p分辨率還是1440p分辨率,RTX 4060 Ti 8GB FE的性能都領先15%~18%,表現(xiàn)還是比較不錯的。而與更前一代的圖靈核心的RTX 2060 SUPER FE相比,RTX 4060 Ti 8GB FE的整體游戲性能領先更是達到了75%以上,這無疑大大增添了從RTX 2060 SUPER升級到RTX 4060 Ti的價值。
同時我們可以看到,在最高畫質、最高光追特效設置下,開啟DLSS之后,RTX 4060 Ti 8GB FE幾乎在所有游戲中都實現(xiàn)了60fps+的流暢游戲水平,在半數以上的游戲中甚至都達到了100fps+的絕對流暢游戲水平線,表現(xiàn)不錯。
從實際游戲的測試情況來看,RTX 4060 Ti 8GB FE在所有游戲的綜合測試結果中性能表現(xiàn)基本與RTX 3070 FE相差不大,綜合差距在2%左右。在不開啟DLSS時,RTX 4060 Ti 8GB FE整體綜合成績略略遜色于RTX 3070,開啟DLSS之后則略微領先,也說明第四代AI核心在DLSS的執(zhí)行效率上要強于RTX 30系所配置的第三代AI核心。
RTX 4060 Ti 8GB FE與RTX 3070 FE的紙面規(guī)格差距比較大,二者在核心規(guī)模,包括CUDA、AI和光追核心的數量上存在35%以上的差距,而且顯存位寬也相差一倍。我們在測試前曾想過RTX 4060 Ti 8GB FE相比RTX 3070 FE是否會有明顯的領先優(yōu)勢,測試結果顯示二者的傳統(tǒng)游戲性能基本相當,還讓我們感覺略有一點點意外。不過在核心規(guī)格相差35%的硬條件前提下,RTX 4060 Ti 8GB FE表現(xiàn)出與RTX 3070 FE跨代次與檔次而持平的性能,仔細想想,這也是可以接受的吧。何況它的首發(fā)價格也只是399美元而已,遠低于RTX 3070的首發(fā)價格499美元。
DLSS 3,性能跨越提升的主要價值
光追游戲環(huán)境目前來看肯定是已經成為未來游戲大作的發(fā)展主流,目前已經有超過300款游戲和應用提供了對DLSS的支持,而且已經有超過30款的游戲和應用已經實現(xiàn)了對DLSS 3的支持。從近期推出的各類熱門游戲大作來看,對實時光線追蹤的支持已經占據了游戲發(fā)展趨勢的主流。而為了在全特效+高光追的極致環(huán)境中流暢游戲,NVIDIA賦予RTX 40系GPU的正是DLSS 3。
在之前的多次首發(fā)評測中,我們都再三提到了RTX 40系GPU的這一秘密黑科技武器。現(xiàn)在有不少玩家還認為DLSS 3只是RTX 40系GPU的一個“添頭”,它只存在附加價值,而不是GPU本身的硬件性能表現(xiàn)。在衡量顯卡綜合性能乃至綜合性價比時,不能成為其中的加分項或參考水平,甚至很多玩家根本對其無視。
其實我們對此倒是有一些不同的看法。DLSS 3作為RTX 40系GPU的黑科技武器,正如我們之前在多次測試中再三強調過的一樣——它是GPU自身的價值體現(xiàn)之一,也是在綜合衡量GPU性能時的重要參考指數。支持DLSS幀生成功能,這就是RTX 40系GPU的一項巨大優(yōu)勢,也是它相較于前兩代光追GPU及與競爭對手產品進行市場競爭時的重要閃光點。
在DLSS 3的性能測試部分,我們選取了8款目前支持DLSS 3的熱門游戲大作在RTX 4060 Ti 8GB FE顯卡上進行了詳細測試。
毫無意外,DLSS 3再一次表現(xiàn)出了超強的游戲性能提升效果。相對于關閉DLSS的游戲環(huán)境,開啟DLSS 3之后,游戲幀率都獲得了100%以上的提升,部分游戲中的提升幅度甚至超過了200%。相比不開啟幀生成功能的DLSS 2而言,游戲幀率的提升也達到了50%~100%不等。表現(xiàn)非常優(yōu)秀。
再來看前后代產品在DLSS 2環(huán)境和DLSS 3環(huán)境下的游戲性能實際表現(xiàn)。前面的測試中我們看到在不開啟DLSS 3時,RTX 4060 Ti 8GB FE的游戲性能基本與RTX 3070相當。但在開啟DLSS 3之后,相比只支持DLSS 2的RTX 3070 FE而言,RTX 4060 Ti 8GB FE在1080p分辨率下的性能達到了RTX 3070 FE的1.5倍左右,在1440p分辨率下的性能也達到了RTX 3070 FE的1.4倍,徹底實現(xiàn)了對RTX 3070 FE的跨代跨檔次完全超越。
與前一代的對位產品RTX 3060 Ti FE相比,開啟DLSS 3之后,RTX 4060 Ti 8GB FE的性能領先優(yōu)勢達到了70%(1440p)和80%(1080p)。而對老顯卡RTX 2060 SUPER的用戶來說,升級到RTX 4060 Ti 8GB FE后,DLSS 3環(huán)境下的性能增幅更是可以達到150%以上。
開啟DLSS 3之后,可以看到在1080p分辨率下全部的測試游戲中,RTX 4060 Ti 8GB FE都實現(xiàn)了100fps+的絕對流暢游戲水準。即使在1440p分辨率下,也有半數游戲在最高畫質、最高光追效果的設置下實現(xiàn)了100fps+的游戲水平,表現(xiàn)還是非常搶眼的。
接下來再看看NVIDIA Reflex。NVIDIA在DLSS 3中囊括了NVIDIA Reflex低延遲技術,能夠極大地改善游戲體驗的流暢性,尤其是對FPS游戲來說更是意義重大,畢竟更低的延遲也就意味了更快速的反應操作。目前已經有超過70款的游戲和應用支持NVIDIA Reflex。另外隨著FrameView 1.4版本的更新,現(xiàn)在FrameView已經能夠在支持的游戲中監(jiān)測、記錄游戲的PCL系統(tǒng)延遲時間與1%L fps低幀,這兩個指標都是關系到游戲流暢與否的主要因素。
在RTX 4060 Ti 8GB FE的平臺上,開啟DLSS 3之后,游戲延遲是否能得到有效降低?1%L fps有沒有明顯的改善呢?
在這個部分的測試中,我們仍然基于前一測試選擇的八款支持DLSS 3的游戲進行了全面的測試。而從測試結果來看,也完全符合我們的預期。
從整體結果來看,DLSS 3不只是在幀率表現(xiàn)上相對于Native原生幀率有100%~400%的提升,而且在1%L fps和PCL系統(tǒng)延遲上也有驚艷的表現(xiàn)。比如在1440p分辨率設置的《賽博朋克2077》游戲中,在DLSS關閉的情況下游戲幀率不足30fps,游戲的1%L fps僅為22fps左右,說明游戲已經基本無法正常進行,卡頓的情況十分嚴重,而且PCL系統(tǒng)延遲在DLSS關閉時也高達118ms。在開啟DLSS 3的平衡模式之后,游戲幀率飆升到立刻90fps左右,達到了絕對流暢水準。同時1%L fps也提升到了64fps,說明已經不會在任何情況下影響到游戲的流暢運行。另一方面系統(tǒng)延遲也在開啟DLSS 3之后從118ms下降到了56ms,讓游戲更加絲滑順暢,能有效提升游戲體驗。在其余幾款測試游戲中,包含了NVIDIA Reflex技術的DLSS 3也有著同樣的表現(xiàn),比如在《巫師3:狂獵》測試中,1080p分辨率下開啟DLSS 3之后,游戲幀率從42fps飆升到105fps,同時在Reflex的作用下系統(tǒng)延遲也從131ms降低到了44ms左右,效果十分明顯。
最后再說兩句。DLSS 3的各大模式(除了在低于4K分辨率環(huán)境下開啟為8K分辨率準備的超級性能模式之外)開啟之后對游戲畫質幾乎沒有實質性的影響,肉眼幾乎不可察覺,甚至在質量和平衡模式下,游戲畫質還有略優(yōu)化的跡象。所以,面對支持DLSS 3的游戲,RTX 40系顯卡的用戶根本不需要考慮,直接開啟就好!魚與熊掌兼得的機會就擺在面前,為啥不要呢?
設計創(chuàng)作性能測試
從NVIDIA重點打造Studio生態(tài)圈以來,RTX GPU就在設計創(chuàng)作領域綻放出了異彩,當下RTX GPU已經能夠為超過110款的設計創(chuàng)作應用提供加速性能,無論是3D渲染加速,還是視頻剪輯、轉碼,都有著優(yōu)異的表現(xiàn)。我們之前在測試RTX 4090、RTX 4080和RTX 4070系GPU時也驗證過RTX 40系GPU的設計創(chuàng)作加速性能。到了面向主流群體的甜點GPU——RTX 4060系上市之時,它在設計創(chuàng)作性能上是否也還是有相對前一代產品的明顯優(yōu)勢呢?
在視頻轉碼測試部分,我們選擇了兩款主流的視頻剪輯處理軟件Davinci Resolve Studio和剪映Pro的最新版本進行了詳細測試。從測試結果可以看出,在Davinci Resolve Studio中,在視頻轉碼部分性能RTX 4060 Ti 8GB FE比RTX 3070 FE強10%,比RTX 3060 Ti強20%左右。魔法遮罩AI處理則比后二者強23%。相比RTX 2060 SUPER FE來說,性能領先程度更是達到了40%左右。新一代的NVENC性能更加強悍。
在剪映Pro的測試中結果也比較類似,除了在8K源視頻轉碼測試中RTX 4060 Ti 8GB FE與RTX 3070 FE和RTX 3060 Ti FE基本相當之外,在4K轉碼性能測試中性能也領先約20%。在AV1轉碼性能上,RTX 4060 Ti 8GB FE更是領先達到了200%左右,相比RTX 2060 SUPER FE,在AV1轉碼性能上領先超過了300%(RTX 30系與RTX 20系的NVENC不支持GPU硬件加速編碼AV1,只能采用軟算法轉碼)。
這里還是要強調一下RTX 40系GPU的第八代NVENC編碼器所支持的AV1格式硬件編碼加速。AV1格式相比H.264等傳統(tǒng)視頻格式,在同碼率下的視頻質量更優(yōu)秀,同時占用的體積也較小,代表著未來的視頻主流方向。對AV1格式硬件編碼加速的支持,也是RTX 40系GPU的特色之一。
▲我們用OBS錄制了《毀滅全人類2:重新探測》游戲中的一段原始視頻,并在Davinci Resolve Studio中用RTX 4060 Ti 8GB FE將其分別轉碼輸出為1080p@30fps、6000Kbps碼率的H.264格式(圖右)和AV1格式(圖左)的兩段視頻。通過在NVIDIA ICAT軟件中的逐幀比較分析,可以清晰地看到,AV1格式的視頻在相同碼率下視頻質量明顯比H.264格式的視頻要優(yōu)秀得多(圖片可點擊放大觀察)。
再來看3D渲染性能。在V-Ray Benchmark測試中,GPU CUDA加速性能測試中,由于CUDA核心數量相差了35%左右,RTX 4060 Ti 8GB FE性能略略小負于RTX 3070 FE,不過差距僅有2%左右,基本可以認為性能相當。而在GPU RTX加速性能測試部分,RTX 4060 Ti 8GB FE性能領先RTX 3070 FE約6%,領先RTX 3060 Ti FE約20%,也充分展現(xiàn)了第三代光追核心的優(yōu)秀架構與性能。相比前兩代的產品RTX 2060 SUPER FE而言,RTX 4060 Ti 8GB FE更是在兩項V-Ray Benchmark測試中平均性能領先達到150%左右。
Blender Opendata Benchmark與Blender 3.5的實際模型渲染測試中的結果也比較類似。RTX 4060 Ti 8GB FE綜合性能領先RTX 3070 FE約10%~15%,領先RTX 3060 Ti FE約20%~30%,相比RTX 2060 SUPER則有著平均約60%的性能領先幅度。
AI運算性能
在這部分的測試中,我們主要考察第四代Tensor Core AI核心配合全新設計的SM帶來的高效CUDA核心配合之下,RTX 4060 Ti 8GB FE在當下熱門的AI計算應用中會有怎樣的性能表現(xiàn)。
首先是ON1 Resize AI 2022軟件中的圖片AI縮放處理性能測試。和之前測試RTX 40系GPU時的方法與設置一樣,我們選擇了5張5K照片,并將其等比無損縮放到200%(10K+級精度照片)。從測試結果來看,RTX 4060 Ti 8GB FE的圖片AI處理性能明顯遙遙領先,相對RTX 3070和RTX 3060 Ti FE的領先程度分別達到了15%和25%,相對于RTX 2060 SUPER的性能領先達到了40%以上。
早在RTX 4070 Ti發(fā)布時,NVIDIA就公布了RTX VSR(RTX Video Super Resolution,RTX視頻超分辨率)的相關信息,這是一種基于RTX GPU之上的視頻縮放增強技術。在RTX 4070發(fā)布時,NVIDIA也正式在驅動控制面板中實現(xiàn)了對VSR的支持。簡單來說,它可以通過AI計算的細節(jié)增強,讓視頻播放更加清晰。
目前要實現(xiàn)VSR需要兩個硬性條件,其一是必須基于RTX 30系以上的GPU并得到驅動程序的支持,其二則是需要支持VSR功能的瀏覽器或播放器。我們測試所用的Game Ready Driver 531.91驅動程序已經開放了對VSR的支持,我們就通過FireFox瀏覽器(不支持VSR)和Google Chrome瀏覽器(支持VSR),播放兩段來自Bilibili網站的視頻,來體驗一下RTX VSR的表現(xiàn)。
▲勾選RTX視頻增強選項下的“超分辨率”,就能在支持VSR功能的瀏覽器中開啟RTX 視頻增強。增強等級有1~4可選。
▲在《黑神話:悟空》游戲8分鐘實戰(zhàn)演示視頻中,可以明顯地看到在Chrome瀏覽器中開啟VSR(圖右)后,視頻質量得到了較大程度的增強,相比FireFox瀏覽器中播放質量更好,更清晰(點擊放大觀察)。
▲在東方廢土題材的游戲《Ashfall》的演示視頻中,同樣可以看到在Chrome瀏覽器(圖左)中開啟VSR之后,相比FireFox瀏覽器播放時,視頻質量得到了明顯的增強,清晰度更好,細節(jié)更豐富(點擊放大觀察)。
最后我們再來看一下Stable Diffusion AI圖片生成計算性能的測試。和之前我們測試RTX 4070 FE時一樣,測試中我們也選擇了“一座都鐸風格的房子,在水邊,美麗渲染圖,日落,夢幻森林,照片般逼真,電影般構圖,電影般高細節(jié),超高逼真,電影般的照明,景深,超精細,色彩編碼精美,8k,多細節(jié),明暗錯落,夢幻”作為構圖的關鍵詞,分別按照這樣的關鍵詞生成1、4張高精度AI圖片。
考慮到RTX 4060 Ti 8GB FE及對比顯卡的顯存容量與硬件規(guī)格,參數設置如下:
采樣迭代步數:20
生成批次-每批數量:1-1、4-1
提示詞相關性:7.5
分辨率:768×768
我們就通過生成單張圖片與4張圖片的兩次簡單測試,來考察RTX 4060 Ti 8GB FE的AI圖片生成計算能力。
從最終測試結果來看,基于CUDA和Tensor Core加速的Stable Diffusion測試中,RTX 4060 Ti 8GB FE的性能領先RTX 3070 FE約6%~7%,領先RTX 3060 Ti FE約20%,領先RTX 2060 SUPER FE則達到了35%~45%。在CUDA核心與Tensor Core數量都遠低于RTX 3070 FE的情況下,RTX 4060 Ti 8GB FE的Stable Diffusion AI計算性能卻更強,顯然是Ada架構的CUDA核心與第四代Tensor Core的性能與效率更高所導致。
功耗與溫度
RTX 4060 Ti 8GB FE的TGP官方數據為160W,這顯卡的理論功耗上限。但在實際應用場景中,不同的顯卡卻有不同的表現(xiàn),比如4K游戲狀態(tài)、1440p游戲狀態(tài)、視頻編輯處理狀態(tài),3D建模渲染狀態(tài)等等,都有不同的功耗表現(xiàn)。在不同的應用場景下,RTX 4060 Ti 8GB FE在功耗上又會有怎樣的表現(xiàn)呢?
在《賽博朋克2077》游戲的1440p及1080p分辨率、最高畫質、超級光追效果、DLSS平衡設置下(關閉DLSS Frame Generation),可以清晰地看到,在1440p分辨率下,RTX 4060 Ti 8GB FE的功耗在140W左右波動,1080p分辨率下則在130W左右波動。對比RTX 3070 FE功耗則平均達到了200W左右。同時RTX 3070 FE功耗的波動幅度非常大且頻繁,相比之下RTX 4060 Ti 8GB FE的表現(xiàn)則非常穩(wěn)定,性能發(fā)揮更穩(wěn)定,有助于提升1%L fps,確保游戲運行更加順暢,減少卡頓的情況。
我們用《霍格沃茨之遺》《原子之心》《賽博朋克2077》以及《CS:GO》四款游戲測試了1080p和1440p分辨率下最高畫質、最高光追效果(如果支持光追)、DLSS平衡模式(關閉DLSS Frame Generation,如果支持DLSS 3)下的游戲幀率,并取其平均值匯總。最終我們發(fā)現(xiàn),在1080p分辨率和1440p分辨率下,RTX 4060 Ti 8GB FE的平均游戲功耗為130W和141W,對比之下RTX 3070 FE的平均游戲功耗則分別達到了163W和182W,RTX 3060 Ti FE更是在兩種分辨率下都達到了接近200W的程度。這也清晰地表明了全新架構設計的RTX 4060 Ti 8GB FE有著更高的能耗比。
▲在散熱部分,RTX 4060 Ti 8GB FE烤機溫度為71℃,與RTX 3070 FE相當,表現(xiàn)中規(guī)中矩。
主流游戲市場新甜點,重新定義1080p游戲升級
首先是測試總結,懶人福利:
1.RTX 4060 Ti 8GB FE的傳統(tǒng)游戲性能相比RTX 3060 Ti FE約有15%~20%的性能提升,相比RTX 2060 SUPER FE的性能提升則在80%左右。跨檔次對比RTX 3070 FE,在傳統(tǒng)游戲性能上二者基本相當,各有勝負。不開啟DLSS時,RTX 4060 Ti小幅度落后,DLSS開啟時,RTX 4060 Ti 8GB FE略略小幅領先,但差距都在2%以內。整體來看傳統(tǒng)游戲性能中規(guī)中矩,算是正常的迭代,不能說有特別驚艷的表現(xiàn),不過倒也不算差。
2.DLSS 3再次成為RTX 40系的核心亮點。在開啟DLSS 3之后,RTX 4060 Ti 8GB FE的游戲性能猛漲,相比RTX 3070 FE性能增幅達到了40%左右,相比RTX 3060 Ti的性能增幅也達到了70%以上,更是擁有了相對于RTX 2060 SUPER約2.7倍的性能。此時RTX 4060 Ti 8GB的表現(xiàn)是驚艷的。
3.全新的SM、第八代NVENC和第四代Tensor Core使得RTX 4060 Ti 8GB FE在設計創(chuàng)作性能上有著不俗的表現(xiàn),視頻轉碼性能整體領先RTX 3070 FE近15%,領先RTX 3060 Ti FE約15%~20%。設計創(chuàng)作性能上也表現(xiàn)不俗,領先RTX 3070 FE和RTX 3060 Ti FE分別達到接近10%和20%。
4.能耗比出色仍然是RTX 4060 Ti 8GB FE的一大亮點,平均游戲功耗僅為135W左右,遠低于RTX 3070 FE的170W左右以及RTX 3060 Ti FE的195W左右。
5.盡管CUDA核心相比RTX 3070 FE和RTX 3060 Ti FE更少,但憑借更高效的CUDA架構與效率,以及第四代的Tensor Core核心,RTX 4060 Ti 8GB FE在AI相關計算上仍然表現(xiàn)出了較為明顯的優(yōu)勢,相對于RTX 3070 FE和RTX 3060 Ti FE分別達到了7%和20%左右。
按照NVIDIA的官方定位,RTX 4060系GPU都是面向1080p主流游戲市場的,但3199元起的價格可能會讓很多玩家感到迷惑——這是1080p游戲顯卡的定位嗎?很顯然,NVDIA所說的1080p游戲市場應該是一個升級的概念——全特效、全光追下的高幀率1080p游戲市場,在最好的游戲環(huán)境中玩1080p游戲。從實際測試的情況來看,RTX 4060 Ti FE在傳統(tǒng)游戲環(huán)境下開啟DLSS之后,幾乎所有的測試游戲大作都能在全特效、全光追的設置環(huán)境下在1080p分辨率下達到60fps以上的流暢游戲水平,而在開啟DLSS 3之后,游戲幀率在全特效、全光追環(huán)境下則幾乎都能達到100fps+的絕對流暢游戲水準,達到了NVIDIA的預設構想。
這些年來我們一直在提倡消費升級,現(xiàn)在NVIDIA很明顯是要想帶來游戲體驗的升級,RTX 4090和RTX 4080帶來4K+游戲的體驗升級,RTX 4070系帶來1440p游戲升級,而這次面世的RTX 4060系則想要帶來的是1080p游戲升級。確實,受限于硬件規(guī)格配置,不開DLSS 3的話,RTX 4060 Ti 8GB FE跟RTX 3070 FE大差不差,性能非常接近,沒有表現(xiàn)出對RTX 3070的明顯性能領先,相信這也會讓不少玩家有些“吐槽”。但開了DLSS 3后性能突飛猛進,就明顯領先RTX 3070 FE。結合Ada架構大緩存的針對性設計思路,NVIDIA為RTX 4060系預設的戰(zhàn)場就是DLSS 3下的全特效1080p@100fps+光追游戲,這是RTX 3070和RTX 3060Ti 都達不到的。而且對DLSS 3的支持也是大加分項,它的戰(zhàn)場在更深遠的未來,我們也非常看好DLSS 3的發(fā)展,全特效光追+DLSS 3應該已經成為今后3A級游戲大作的核心方向之一。
最后實話實說,不吹不黑,不能說RTX 4060 Ti 8GB是一款非常優(yōu)秀的高性價比GPU產品,畢竟性能未能明顯超越RTX 3070相信在不少玩家看來都是一種遺憾。不過我們認為它算是一款合格的游戲市場布局產品。如果你追求的只是1080p下的“能游戲”,那么千元級的顯卡就能實現(xiàn),RTX 4060 Ti 8GB確實不是你的菜。但如果要追求高幀率、低延遲、高能耗比的1080p全特效光追游戲,目前來看RTX 4060 Ti 8GB是一個不錯的選擇。尤其是對于那些追求極致高能小鋼炮的玩家來說,擁有出色能耗比、低功耗、優(yōu)秀1080p游戲性能的RTX 4060 Ti 8GB更是合適的佳選。而對于RTX 2060 SUPER甚至是GTX 1660這類老顯卡玩家來說,升級到RTX 4060 Ti 8GB之后,1080p的游戲體驗也能直接從全特效能玩飛躍提升到全特效、全光追的高幀率體驗。如果你有足夠的預算,那它也是老的“60”家族顯卡升級或是萬元內新裝機的值得考慮的對象。
審核編輯 :李倩
-
加速器
+關注
關注
2文章
799瀏覽量
37874 -
gpu
+關注
關注
28文章
4740瀏覽量
128951 -
存儲系統(tǒng)
+關注
關注
2文章
410瀏覽量
40864
原文標題:DLSS 3加持40系甜點上市,NVIDIA GeForce RTX 4060 Ti 8GB FE解析
文章出處:【微信號:Microcomputer,微信公眾號:Microcomputer】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論