1.概述
隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),人類所產(chǎn)生的數(shù)據(jù)發(fā)生了前所未有的、爆炸性的增長(zhǎng)。IDC預(yù)測(cè),全球數(shù)據(jù)總量將從2019年的45ZB增長(zhǎng)到2025年的175ZB[1]。同時(shí),全球數(shù)據(jù)中近30%將需要實(shí)時(shí)處理,因而帶來(lái)了對(duì)FPGA等硬件數(shù)據(jù)處理加速器的需求。如圖1所示。
在這樣的數(shù)據(jù)高速增長(zhǎng)的情況下,用于傳輸數(shù)據(jù)的網(wǎng)絡(luò)帶寬和處理數(shù)據(jù)所需要的算力也必須急速增長(zhǎng)。傳統(tǒng)的CPU已經(jīng)越來(lái)越不堪重負(fù),所以用硬件加速來(lái)減輕CPU的負(fù)擔(dān)是滿足未來(lái)性能需求的重要發(fā)展方向。未來(lái)的硬件發(fā)展需求對(duì)于用于加速的硬件平臺(tái)提出了越來(lái)越高的要求,可以概括為三個(gè)方面:算力、數(shù)據(jù)傳輸帶寬和存儲(chǔ)器帶寬。Achronix的新一代采用臺(tái)積電7nm工藝的Speedster 7t FPGA芯片根據(jù)未來(lái)硬件加速和網(wǎng)絡(luò)加速的需求,在這三個(gè)方面都做了優(yōu)化,消除了傳統(tǒng)FPGA的瓶頸。下面我們重點(diǎn)說(shuō)一說(shuō)為了提高存儲(chǔ)器帶寬,Achronix通過(guò)采用硬核GDDR6控制器所帶來(lái)的優(yōu)勢(shì)。2.
GDDR6的發(fā)展
在GDDR的設(shè)計(jì)之初,其定位是針對(duì)圖形顯示卡所特別優(yōu)化的一種DDR內(nèi)存。因?yàn)?000年后電腦游戲特別是3D游戲的發(fā)展和火爆,使運(yùn)行電腦游戲的顯卡需要有大量的高速圖像數(shù)據(jù)交互需求,GDDR在這種情況下應(yīng)運(yùn)而生。第一個(gè)GDDR標(biāo)準(zhǔn)是基于DDR的GDDR2,隨后發(fā)展到了基于DDR3的GDDR5,在一段時(shí)間中非常流行。
2016年,GDDR5X正式發(fā)布,它引入了具有16n預(yù)取的四倍數(shù)據(jù)速率模式,但代價(jià)是訪問(wèn)粒度從GDDR5的32Byte提高到了64Byte。2018年,GDDR6發(fā)布,數(shù)據(jù)速率達(dá)到了16Gbps,帶寬幾乎是GDDR5X的兩倍,同時(shí)采用了雙通道設(shè)計(jì),訪問(wèn)粒度和GDDR5一樣是32Byte。
3.GDDR6和DDR4/5的比較
GDDR一直以來(lái)是針對(duì)圖形顯示卡所優(yōu)化的一種DDR內(nèi)存。因?yàn)轱@卡處理圖像數(shù)據(jù),特別是3D圖像數(shù)據(jù)對(duì)顯存帶寬的要求更高,GPU和GDDR之間的數(shù)據(jù)交換非常頻繁。而DDR內(nèi)存專注于與CPU進(jìn)行數(shù)據(jù)交換的效率,因此對(duì)于整體存取性能、低延遲更為看重,所以在CPU和傳統(tǒng)的FPGA中基本都是用DDR4。
隨著硬件加速需求對(duì)于存儲(chǔ)器的帶寬提出了越來(lái)越高的要求,傳統(tǒng)的DDR4帶寬顯然已經(jīng)無(wú)法滿足要求,Achronix看重了GDDR6在數(shù)據(jù)存儲(chǔ)中的帶寬優(yōu)勢(shì),創(chuàng)新地將GDDR6引入到了FPGA,徹底解決了傳統(tǒng)FPGA存儲(chǔ)帶寬不夠的瓶頸。2020年7月15日,JEDEC存儲(chǔ)協(xié)會(huì)正式發(fā)布了DDR5 SDRAM的標(biāo)準(zhǔn)(JESD79-5),內(nèi)存的頻率相對(duì)DDR4的標(biāo)準(zhǔn)頻率有了大幅的提升,總傳輸帶寬也提升了38%,但是還是和GDDR6的帶寬有一定的差距。GDDR6和DDR4/5的帶寬對(duì)比。
圖2 GDDR與DDR帶寬發(fā)展對(duì)比
如果實(shí)現(xiàn)同一個(gè)大帶寬存儲(chǔ)的應(yīng)用,在提供相同的存儲(chǔ)器帶寬的情況下,無(wú)論在設(shè)計(jì)復(fù)雜度,PCB占用面積,還是在功耗方面,與DDR4相比,GDDR6的性能都有很大的提高,如圖3所示[2]。
圖3 GDDR6和DDR4性能對(duì)比4.
GDDR6和HBM2的比較
HBM全稱High Bandwidth Memory,最初的標(biāo)準(zhǔn)是由JEDEC在2013年發(fā)布。2016年1月,HBM的第二代HBM2正式成為工業(yè)標(biāo)準(zhǔn)。HBM的出現(xiàn)也是為了解決存儲(chǔ)器帶寬問(wèn)題。與GDDR6不同的是,HBM內(nèi)存一般是由4個(gè)或者8個(gè)HBM的Die堆疊形成,我們稱之為一個(gè)Stack。如圖4所示[4]。
圖4 HBM Die的堆疊
我們以市面上帶有HBM2的高端 FPGA為例,這個(gè)系列的FPGA集成了1~2個(gè)這樣的HBM2 Stack。兩個(gè)Stack之間是相互獨(dú)立的,各自有自己的地址空間。
每個(gè)Die都有獨(dú)立的兩個(gè)128bit的Channel,所以4個(gè)Die 8個(gè)通道就是1024bit的位寬,HBM2的頻率是900MHz,按DDR的方式訪問(wèn),一個(gè)Stack總共帶寬是 900(MHz)x 2(DDR)x 1024(位寬)/8 = 230GB/s,兩個(gè)Stack最高可以到460GB/s的帶寬。
Achronix的Speedster 7t FPGA集成了8個(gè)GDDR6的硬核,每個(gè)GDDR6的硬核支持雙通道。總的帶寬是 16Gbps x 16(位寬)x 2(通道)x 8(控制器)/8 = 512 GB/s,略高于帶HBM2的FPGA存儲(chǔ)器帶寬。
從成本上來(lái)看,目前GDDR6與HBM2相比有著很大的優(yōu)勢(shì),HBM2技術(shù)工藝要求高,目前芯片的良率和產(chǎn)量都會(huì)受到很大的影響。同時(shí)GDDR6使用起來(lái)更靈活,使用片外的DRAM,可以根據(jù)應(yīng)用要求,選擇不同速率,不同容量的GDDR6顆粒。HBM2的優(yōu)勢(shì)在于集成度高,不占用PCB板的面積。圖5是DDR4、GDDR6和HBM2在成本上的一個(gè)綜合比較。
編輯:jq
-
FPGA
+關(guān)注
關(guān)注
1636文章
21841瀏覽量
608509 -
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7557瀏覽量
164951 -
帶寬
+關(guān)注
關(guān)注
3文章
976瀏覽量
41270 -
HBM
+關(guān)注
關(guān)注
0文章
393瀏覽量
14909
原文標(biāo)題:GDDR6給FPGA帶來(lái)的大帶寬存儲(chǔ)優(yōu)勢(shì)以及性能測(cè)試(上)
文章出處:【微信號(hào):Achronix,微信公眾號(hào):Achronix】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
求助,同時(shí)給ADC、運(yùn)算放大器以及FPGA供電的疑問(wèn)求解
新加坡高防服務(wù)器性能測(cè)試報(bào)告
HBM與GDDR內(nèi)存技術(shù)全解析

MXM 3.1 Type A GPU模塊MXM-ACMA:驅(qū)動(dòng)人工智能的性能標(biāo)桿

英偉達(dá)推出搭載GDDR6顯存的GeForce RTX 4070顯卡
電源紋波測(cè)試帶寬設(shè)置的應(yīng)用
FPGA在自動(dòng)駕駛領(lǐng)域有哪些優(yōu)勢(shì)?
基于FPGA的陣列相機(jī)的實(shí)時(shí)監(jiān)測(cè)和大容量存儲(chǔ)
美光科技發(fā)布新一代GDDR7顯存
美光出樣業(yè)界容量密度最高新一代 GDDR7 顯存
美光出樣用于游戲和人工智能的新一代顯存

評(píng)論