數(shù)據(jù)中心、有線應(yīng)用及其它帶寬密集型應(yīng)用所需的性能,遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的 DRAM 技術(shù)。和市場上已有的存儲(chǔ)器相比,HBM 存儲(chǔ)器在性能、功耗和尺寸上,能為系統(tǒng)架構(gòu)師和 FPGA 設(shè)計(jì)人員帶來前所未有的優(yōu)勢。
在過去的十年里,電子系統(tǒng)在計(jì)算帶寬上呈現(xiàn)出指數(shù)級(jí)的增長。計(jì)算帶寬的大幅提升,也顯著提高了存儲(chǔ)帶寬要求,以滿足計(jì)算需求。這類系統(tǒng)的設(shè)計(jì)人員經(jīng)常發(fā)現(xiàn)市場上的并行存儲(chǔ)器(例如 DDR4)再也無法滿足應(yīng)用的帶寬需求。賽靈思支持高帶寬存儲(chǔ)器 (HBM) 的 FPGA 能夠以最低的功耗、尺寸和系統(tǒng)成本提供高帶寬,顯然能夠輕松應(yīng)對(duì)這類挑戰(zhàn)。在設(shè)計(jì)這款 FPGA 的過程中,賽靈思與其他領(lǐng)先半導(dǎo)體廠商一樣,選擇了業(yè)界唯一經(jīng)過證明的堆疊硅片互聯(lián)技術(shù)(即臺(tái)積電 (TSMC) 的 CoWoS 集成工藝)。這篇白皮書將介紹賽靈思 Virtex?UltraScale+ ? HBM 器件如何滿足大幅提升的系統(tǒng)存儲(chǔ)帶寬需求,同時(shí)保持功耗、尺寸和成本在限定范圍內(nèi)。
行業(yè)趨勢 :帶寬和功耗
過去十年里,并行存儲(chǔ)器接口的帶寬功能進(jìn)步緩慢——如今 FPGA 中支持的最大 DDR4 數(shù)據(jù)速率仍然不足 2008 年 DDR3 數(shù)據(jù)速率的 2 倍。但就在這段時(shí)間內(nèi),存儲(chǔ)帶寬需求增長遠(yuǎn)遠(yuǎn)超過了 DDR4 的性能。考慮以太網(wǎng)的發(fā)展趨勢 :從 DDR3 時(shí)代開始,以太網(wǎng)端口速度從 10Gb/s 提高到了 40Gb/s,然后提高到100Gb/s,現(xiàn)在到了 400Gb/s——原始帶寬增加了 10 倍以上。
類似的趨勢也存在于高性能計(jì)算和視頻廣播市場。FPGA 機(jī)器學(xué)習(xí) DSP 容量已從最大型 Virtex-6 FPGA中的 2,000 個(gè) DSP 增加到了現(xiàn)在的最大型 Virtex UltraScale+ 器件中的超過 12,000 個(gè) DSP 元件。視頻廣播行業(yè)已經(jīng)從標(biāo)準(zhǔn)清晰度過渡到 2K,現(xiàn)已達(dá)到 4K,很快將達(dá)到 8K。這些應(yīng)用領(lǐng)域中,所需帶寬與DDR4 DIMM 能提供的帶寬之間都存在明顯的差距。見圖 1。
圖 1 :存儲(chǔ)器帶寬要求比較
為了彌補(bǔ)帶寬差距,系統(tǒng)架構(gòu)師若要在這些應(yīng)用中使用 DDR4,就必須增加系統(tǒng)中的 DDR4 元件數(shù)量——這不是為了增加容量,而是為了在 FPGA 與存儲(chǔ)器之間提供所需的傳輸帶寬。四個(gè) DDR4 DIMM以 2,667Mb/s 的數(shù)據(jù)速率運(yùn)行,所能實(shí)現(xiàn)的最高帶寬為 85.2GB/s。如果應(yīng)用所需的帶寬超過這個(gè)值,那么 DDR 方案就會(huì)因功耗、PCB 尺寸和成本問題變得不可行。不難看出,這些高帶寬應(yīng)用中需要一種新的DRAM 存儲(chǔ)方案。
從能效的角度重新審視這十年時(shí)間,很顯然這種不惜一切代價(jià)“提高性能”的時(shí)代已經(jīng)結(jié)束。MDPI發(fā)表的一篇文章中預(yù)測,到 2030 年,根據(jù)當(dāng)時(shí)數(shù)據(jù)中心設(shè)備的實(shí)際能效來看,僅數(shù)據(jù)中心就能消耗3%-13% 的全球能源供應(yīng) [ 參考資料 1]。設(shè)計(jì)人員極為重視能效性能,尤其在這個(gè)多兆瓦級(jí)數(shù)據(jù)中心時(shí)代。他們還重視高效散熱解決方案,因?yàn)榭煽康耐L(fēng)和冷卻需要很高運(yùn)營支出——總能耗的三分之一 [ 參考資料 2]。因此,供應(yīng)商如果能以較低散熱量實(shí)現(xiàn)最高單位成本計(jì)算性能和單位功耗計(jì)算性能,則其解決方案會(huì)極富吸引力。
DDR4 DIMM 的替代方案
為了彌補(bǔ)帶寬差距,半導(dǎo)體行業(yè)引入了多種巧妙方案來替代 DDR4。見表 1。最近,業(yè)行內(nèi)興起了基于收發(fā)器的串行存儲(chǔ)器技術(shù),例如混合存儲(chǔ)立方體 (HMC)。這些技術(shù)提供更高的存儲(chǔ)器帶寬,能夠在單個(gè)芯片中提供相當(dāng)于幾個(gè) DDR4 DIMM 的存儲(chǔ)帶寬——但需要將多達(dá) 64 個(gè)超高速串行收發(fā)器分配至存儲(chǔ)器子系統(tǒng)中。
表 1 :不同存儲(chǔ)器解決方案的關(guān)鍵特性對(duì)比
高帶寬存儲(chǔ)器簡介
通過移除 PCB,HBM 能以不同方式解決存儲(chǔ)器帶寬問題。HBM 利用硅片堆疊技術(shù)將 FPGA 和 DRAM并排放在同一封裝內(nèi)。這樣,采用相同封裝的 DRAM 結(jié)構(gòu)能夠?qū)崿F(xiàn)多個(gè) Tb/s 的帶寬。與其它存儲(chǔ)器技術(shù)相比,該技術(shù)使設(shè)計(jì)人員能夠?qū)崿F(xiàn)帶寬的大幅度跨越式提升。
HBM 器件采用臺(tái)積電 (TSMC) 的業(yè)界標(biāo)準(zhǔn) CoWoS(chip-on-wafer-on-substrate) 堆疊硅片組裝工藝進(jìn)行組裝。賽靈思已經(jīng)在過去三代高端 Virtex 器件中采用這種組裝技術(shù),因此該技術(shù)已得到了證明。CoWoS起初由賽靈思率先采用,作為硅片堆疊互聯(lián)技術(shù)應(yīng)用于 28nm Virtex-7 FPGA 中。CoWoS 組裝工藝將有源芯片放在無源硅中間層上。硅與硅的堆疊結(jié)構(gòu)允許通過非常小、分布非常密集的微凸塊來連接相鄰的硅器件——這里是將 FPGA 連接到 DRAM,之間有成千上萬的信號(hào)。見圖 2。
圖 2 :TSMC CoWoS 組裝工藝允許通過數(shù)千個(gè)非常小的線連接相鄰晶片
采用 CoWoS 組裝工藝,與典型的 DDR4 PCB 走線相比,不僅連接 HBM 的 DQ 走線總長度不足 3mm,而且電容和電感 (LC) 寄生效應(yīng)極低。這樣,HBM I/O 結(jié)構(gòu)的芯片面積比典型外部 DDR4 I/O 結(jié)構(gòu)的芯片面積小 20 倍。HBM 接口非常小,以致于單個(gè) HBM 堆棧接口就包含 1,024 個(gè) DQ 引腳,而且 I/O 芯片面積僅為單個(gè) DDR4 DIMM 接口 I/O 芯片面積的一半。具有 1,024 個(gè) DQ 引腳,而且低寄生效應(yīng),這樣能實(shí)現(xiàn)非常高的 HBM 堆棧輸入輸出帶寬,而時(shí)延與 DDR4 相近。
對(duì)于采用 HBM 的 FPGA,所使用的外部 DDR4 的數(shù)量與容量要求有關(guān),與帶寬要求無關(guān)。這樣所用的DDR4 組件數(shù)量大大減少,為設(shè)計(jì)人員節(jié)省了 PCB 空間和功耗。有些情況下根本不需要外部存儲(chǔ)器。
賽靈思 HBM 解決方案簡介
如圖 3 所示,Virtex UltraScale+ HBM 器件通過集成賽靈思合作供應(yīng)商提供的業(yè)經(jīng)驗(yàn)證的 HBM 控制器和存儲(chǔ)器堆棧,可使用與已投入量產(chǎn)的賽靈思 16nm UltraScale+ FPGA 系列相同的構(gòu)建塊來構(gòu)建。利用經(jīng)過量產(chǎn)驗(yàn)證的 CoWoS 組裝工藝集成 HBM,通過標(biāo)準(zhǔn)的 Virtex FPGA 組裝流程將基礎(chǔ) FPGA 組件與HBM 簡單地堆疊在一起。該方法消除了產(chǎn)能風(fēng)險(xiǎn),因?yàn)榛A(chǔ) FPGA 系列器件中使用的所有芯片、IP 和軟件都經(jīng)過了量產(chǎn)質(zhì)量級(jí)認(rèn)證。
圖 3 :SSI 技術(shù)與支持 HBM 的 XCVU37P
Virtex UltraScale+ HBM 器件中新增加的模塊只有 HBM、控制器和加速器的緩存一致性互連 (CCIX) 模塊。收發(fā)器、PCIe? 的集成模塊、以太網(wǎng)、Vivado? Design Suite 等均已經(jīng)得到量產(chǎn)質(zhì)量級(jí)認(rèn)證,使設(shè)計(jì)人員能夠集中精力充分發(fā)揮 HBM 的特性與功能,使產(chǎn)品在市場中脫穎而出。
時(shí)序收斂創(chuàng)新
由于 Virtex UltraScale+ HBM 器件的基礎(chǔ)已經(jīng)得到驗(yàn)證,因此賽靈思工程師可將創(chuàng)新工作重點(diǎn)放在優(yōu)化HBM 存儲(chǔ)器控制器上。HBM 與 FPGA 集成的過程中,最明顯的挑戰(zhàn)在于有效利用 HBM 提供的所有存儲(chǔ)器帶寬。賽靈思在這些器件中提供了幾大關(guān)鍵而獨(dú)特的創(chuàng)新特性,以幫助客戶獲得 HBM 堆棧最高可用的輸入輸出帶寬。
擴(kuò)展的 AXI 接口
第一個(gè)創(chuàng)新是 AXI 接口,用戶可通過該接口連接存儲(chǔ)器控制器。典型的集成 IP 與緊挨著嵌入式 IP 模塊的可編程邏輯進(jìn)行接口連接。對(duì)于大部分模塊來說這已經(jīng)足夠,因?yàn)楸镜芈酚傻膮R聚帶寬足以從該模塊輸入輸出數(shù)據(jù)。然而,進(jìn)出 HBM 的帶寬非常高,因而有必要?jiǎng)?chuàng)建新的接口結(jié)構(gòu)類型,以便擴(kuò)展到可編程互連。該結(jié)構(gòu)明顯增加接口表面積,極大提高用戶 AXI 接口的可用互連能力,可實(shí)現(xiàn) 3.7Tb/s 的運(yùn)行速度。見圖 4。
圖 4 :擴(kuò)展的 AXI 接口
靈活尋址
第二個(gè)創(chuàng)新是 HBM 存儲(chǔ)器控制器中包含的靈活尋址功能。HBM 堆棧將存儲(chǔ)器地址空間分成偽通道。這意味著任何給定的 HBM DQ 位都被分配到特定的存儲(chǔ)器地址區(qū)域。因此,如果設(shè)計(jì)人員想把數(shù)據(jù)寫入存儲(chǔ)地址,只能通過與該地址關(guān)聯(lián)的偽通道來寫入數(shù)據(jù)。
如果設(shè)計(jì)人員想把 HBM 堆棧視為單個(gè)連續(xù)存儲(chǔ)器,或者跨偽通道邊界將它們進(jìn)行分區(qū),那么這種限制并不理想。為了克服這種局限性,賽靈思在嵌入式存儲(chǔ)器控制器中包含了一個(gè) AXI 交換網(wǎng)絡(luò)。這個(gè)交換網(wǎng)絡(luò)能夠根據(jù)地址從任意源 AXI 接口將存儲(chǔ)器讀和寫路由到任意 HBM 偽通道。該功能稱為靈活尋址,因?yàn)樗试S任意用戶 AXI 接口訪問任意 HBM 存儲(chǔ)器地址。
對(duì)于想針對(duì)特定存儲(chǔ)器訪問形式來優(yōu)化存儲(chǔ)器控制器的用戶來說,也可以繞開靈活尋址。見圖 5。
圖 5 :AXI 接口(到用戶邏輯)和 HBM 偽通道(到 HBM 堆棧)
靈活尋址具備多個(gè)重要優(yōu)勢 :
1 讓用戶能夠完全控制對(duì) HBM 堆棧的尋址。由于交換網(wǎng)絡(luò)能路由整個(gè)器件,因而用戶無需遵守 HBM固有的嚴(yán)格偽通道要求。32 個(gè) AXI 接口都能讀寫任一 HBM 堆棧上的任意 HBM 偽通道,使用戶能完全控制地址分區(qū),無需考慮偽通道邊界。
2 允許設(shè)計(jì)人員根據(jù)設(shè)計(jì)的時(shí)序收斂情況使用最方便的 AXI 接口進(jìn)行連接。例如,向存儲(chǔ)器寫入數(shù)據(jù)的邏輯無需與從存儲(chǔ)器讀取數(shù)據(jù)的邏輯處在相同位置。在基本流量管理器實(shí)例中,數(shù)據(jù)包寫入和數(shù)據(jù)包讀取模塊的 AXI 接口均可處在距離模塊最近的位置。見圖 6。
圖 6 :典型的以太網(wǎng)橋接設(shè)計(jì)
利用靈活尋址,可將數(shù)據(jù)包寫入和數(shù)據(jù)包讀取邏輯分開,以避免爭奪路由資源。
4 大量減少可編程路由資源。存儲(chǔ)器控制器中有很多 AXI 總線,寬度均為 256 位。因此,如果集成存儲(chǔ)器控制器中提供 32 條在器件中水平路由的通道,就能為 FPGA 設(shè)計(jì)人員釋放可觀的資源,以便用于具有更高價(jià)值的功能。AXI 交換網(wǎng)絡(luò)如果完全在 FPGA 邏輯中實(shí)現(xiàn),會(huì)占用 250,000 個(gè) LUT。如果利用靈活尋址,則整個(gè)交換網(wǎng)絡(luò)無需使用 LUT。
5 與偽通道方案相比,允許設(shè)計(jì)人員更高效地使用 AXI 接口。HBM 偽通道具有典型的 DRAM 低效特征,例如激活、預(yù)充電和刷新延遲。盡管存儲(chǔ)器控制器確實(shí)通過重新排序來提高效率,但是 DRAM不可能達(dá)到 100% 高效。然而,單個(gè) AXI 接口能夠?qū)⒍鄠€(gè)偽通道訪問實(shí)現(xiàn)流水線,因此獲得高于HBM 偽通道效率的 AXI 接口效率。在眾多應(yīng)用中,這意味著所需的 AXI 接口數(shù)量更少,能夠釋放更多可編程資源。
能效和熱管理方面的創(chuàng)新
賽靈思客戶非常重視能效性能。TSMC 16nm FinFET+ 工藝支持雙電壓運(yùn)行,使客戶能夠選擇最高絕對(duì)性能或者最高每瓦特性能。利用此工藝,賽靈思能夠提供業(yè)界最低內(nèi)核電壓,將動(dòng)態(tài)總功耗降低 30%,提供行業(yè)領(lǐng)先的收發(fā)器技術(shù),以及在 FPGA 中混合多種集成模塊,例如以太網(wǎng)、Interlaken 和 PCIe。
HBM 技術(shù)使賽靈思能夠取消外部存儲(chǔ)器接口,用中間層上的走線取而代之,從而將節(jié)能設(shè)計(jì)推向新高度。這樣做可降低存儲(chǔ)器接口電容,從而降低多 Tb/s 存儲(chǔ)帶寬所需的功耗,將每比特功耗降低 5 倍。
熱管理方面,賽靈思提供多種獨(dú)特技術(shù),用以抵消在集成 HBM 之后產(chǎn)生的不可避免的熱密度增加問題。賽靈思的 Virtex UltraScale+ HBM 器件采用散熱片就緒型、無蓋、裸芯片、倒裝芯片封裝,能顯著改善散熱性能,緩和更高熱密度問題。這些無蓋封裝已用于其它 Virtex UltraScale+ FPGA,并在大多數(shù)使用案例中將散熱設(shè)計(jì)改善 10°C 左右。這實(shí)現(xiàn)了更高的計(jì)算性能上限和 / 或更低的散熱設(shè)計(jì)成本。 如需了解更多信息,敬請(qǐng)閱讀賽靈思應(yīng)用指南《UltraScale+ FPGA D2104 無蓋倒裝芯片封裝的機(jī)械和散熱設(shè)計(jì)指南》[ 參考資料 3]。見圖 7。
圖 7 :有蓋 vs 無蓋倒裝芯片封裝
應(yīng)用實(shí)例 :智能網(wǎng)絡(luò)接口卡
HBM 與高端可編程邏輯的聯(lián)姻在網(wǎng)絡(luò)、數(shù)據(jù)中心、音頻 / 視頻廣播、雷達(dá)、測試與測量等眾多應(yīng)用領(lǐng)域中發(fā)揮出巨大優(yōu)勢。其中一種應(yīng)用是智能網(wǎng)絡(luò)接口卡或智能 NIC。智能 NIC 包含 :一個(gè)或多個(gè)網(wǎng)絡(luò)端口,一個(gè)連接 CPU 的接口(例如 PCIe? 或 CCIX),要加速的網(wǎng)絡(luò)功能(例如 OVS、GZIP、IPSec、SSL 等),以及用于數(shù)據(jù)包存儲(chǔ)和鍵值查找的存儲(chǔ)器。傳統(tǒng)的智能 NIC 需要在 PCB 上安裝四個(gè) 72 腳DIMM,以提供足夠的存儲(chǔ)器帶寬來服務(wù)兩個(gè) 100G 端口。連接四個(gè) DIMM 需要驅(qū)動(dòng) 624 個(gè) I/O,會(huì)顯著增加總功耗。容納四個(gè) DIMM 需要全高全長 (FHFL) 尺寸,會(huì)帶來一系列功耗和空間效率挑戰(zhàn)。
如果在采用 HBM 的 VU35P 中實(shí)現(xiàn)相同方案,則尺寸能縮減到半高半長 (HHHL),因?yàn)橥獠?DRAM 元器件被 HBM 堆棧取代(見圖 8)。VU35P 方案(圖 9)的功耗約為 50%,因?yàn)楸苊饬?DIMM 接口的 I/O 功耗。若使用包含兩個(gè) HBM 堆棧的 VU35P 器件,那么得益于 HBM 帶寬,查找速度可提升 3 倍,而且搜索條目是市場上的 TCAM 的 2 倍。除了最終解決方案的這些固有優(yōu)勢外,HBM 方案還能簡化 PCB并降低存儲(chǔ)器子系統(tǒng)的復(fù)雜性,從而實(shí)現(xiàn)更簡單、風(fēng)險(xiǎn)更低的設(shè)計(jì)流程。
圖 8 :現(xiàn)有基礎(chǔ)架構(gòu)
圖 9 :Virtex UltraScale+ HBM 解決方案
結(jié)論
未來很多系統(tǒng)會(huì)超出 DDR 所能提供的帶寬,HBM 作為最佳選擇,能大幅提高存儲(chǔ)器帶寬,并實(shí)現(xiàn)最佳的單位功耗性能。賽靈思 Virtex UltraScale+ HBM 器件提供恰當(dāng)?shù)拇鎯?chǔ)器帶寬和可編程計(jì)算性能組合。憑借這些器件,賽靈思重點(diǎn)幫助設(shè)計(jì)人員充分利用 HBM 的性能,同時(shí)將經(jīng)過驗(yàn)證的芯片工藝和架構(gòu)、組裝技術(shù)以及設(shè)計(jì)工具作為設(shè)計(jì)開發(fā)的基礎(chǔ)。設(shè)計(jì)人員和系統(tǒng)架構(gòu)師都會(huì)領(lǐng)略通過 Virtex UltraScale+HBM 器件將 HBM 功能引入系統(tǒng)所帶來的優(yōu)勢。
-
FPGA
+關(guān)注
關(guān)注
1630文章
21781瀏覽量
604912 -
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7523瀏覽量
164130
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論