在 DRAM 世界中,散熱問題正處于危機(jī)點(diǎn)。在 14nm 及以下,在最先進(jìn)的封裝方案中,可能需要一個(gè)全新的指標(biāo)來解決熱密度如何越來越多地將小問題變成大問題的乘數(shù)效應(yīng)。
一些過熱的晶體管可能不會(huì)對(duì)可靠性產(chǎn)生很大影響,但數(shù)十億個(gè)晶體管產(chǎn)生的熱量會(huì)影響可靠性。對(duì)于 AI/ML/DL 設(shè)計(jì)尤其如此,高利用率會(huì)增加散熱,但熱密度會(huì)影響每個(gè)先進(jìn)的節(jié)點(diǎn)芯片和封裝,這些芯片和封裝用于智能手機(jī)、服務(wù)器芯片、AR/VR 和許多其他高-性能設(shè)備。對(duì)于所有這些,DRAM布局和性能現(xiàn)在是首要的設(shè)計(jì)考慮因素。
Nantero 的首席系統(tǒng)架構(gòu)師、《The JEDEC DDR5 NVRAM 規(guī)范。“從 90° 到 95°C,它開始恐慌。超過 95°C,您將開始丟失數(shù)據(jù),因此您最好開始關(guān)閉系統(tǒng)。”
Gervasi 說,這些數(shù)字基于 14nm 技術(shù)。他預(yù)計(jì)先進(jìn)節(jié)點(diǎn)和先進(jìn)封裝的情況會(huì)更糟。“當(dāng)你縮小到 10nm、7nm、5nm 或 3nm 時(shí),會(huì)發(fā)生什么?你的聯(lián)系失控了。你讓自己更容易受到串?dāng)_的影響,所以橫錘開始變得更加危機(jī)。這是一個(gè)非常嚴(yán)重的問題。”
造成這種情況的主要原因之一是 DRAM 的基本設(shè)計(jì)。盡管 DRAM 接口的數(shù)量不斷增加——無論是 DDR5、LPDDR5、GDDR6、HBM 還是其他接口——它們都保留了基本相似的結(jié)構(gòu)。
“DRAM 芯片的核心基本上是一個(gè)連接到開關(guān)的非常小的電容器,” Cadence產(chǎn)品營銷集團(tuán)總監(jiān) Marc Greenberg 說。“要將數(shù)據(jù)寫入該單元,您允許電流流入該電容器以從該單元讀取數(shù)據(jù)。你能感覺到那個(gè)電容器上是否有電荷。”
不幸的是,這導(dǎo)致了一個(gè)眾所周知的缺點(diǎn)。“存儲(chǔ)在這些微型電容器上的電荷是相對(duì)少量的電荷,”格林伯格說。“當(dāng)它變熱時(shí),它對(duì)泄漏非常敏感。”
無論架構(gòu)多么新穎,大多數(shù)基于 DRAM 的內(nèi)存仍面臨因過熱而導(dǎo)致性能下降的風(fēng)險(xiǎn)。易失性內(nèi)存的刷新要求(作為標(biāo)準(zhǔn)指標(biāo),大約每 64 毫秒一次)加劇了風(fēng)險(xiǎn)。“當(dāng)您將溫度提高到 85°C 以上時(shí),您需要更頻繁地刷新電容器上的電荷,”格林伯格說。“因此,您將開始轉(zhuǎn)向更頻繁的刷新周期,以解釋由于設(shè)備變得越來越熱,電荷從這些電容器中泄漏得更快的事實(shí)。不幸的是,刷新該電荷的操作也是電流密集型操作,它會(huì)在 DRAM 內(nèi)部產(chǎn)生熱量。天氣越熱,你就越需要更新它,但你會(huì)繼續(xù)讓它變得更熱,整個(gè)事情就會(huì)分崩離析。”
這是不歸路。“如果一個(gè) DRAM 由于熱量/熱量而發(fā)生故障,那么其他 DRAM 很可能也會(huì)發(fā)生故障,” Rambus的研究員和杰出發(fā)明家 Steven Woo 說。“原因是所有的 DRAM 通常都彼此靠近,所以如果溫度很高,那么對(duì)所有 DRAM 都是危險(xiǎn)的。即使使用強(qiáng)大的服務(wù)器內(nèi)存系統(tǒng),由于與熱相關(guān)的故障而僅丟失幾個(gè) DRAM 也可能意味著整個(gè)系統(tǒng)出現(xiàn)故障。所以熱量和熱量對(duì)于內(nèi)存系統(tǒng)來說是一個(gè)非常重要的問題。”
它不僅僅是服務(wù)器。一個(gè)芯片上大約有 80 億個(gè)晶體管,手機(jī)會(huì)變得很熱,可能需要在冰箱里呆上幾分鐘。發(fā)生這種情況時(shí),應(yīng)用程序?qū)o法正常運(yùn)行。
對(duì)于越來越密集的高級(jí)封裝也是如此。Synopsys研究員Victor Moroz 說:“熱量成為內(nèi)存的一個(gè)問題,特別是在使用堆疊技術(shù)時(shí),例如邏輯上的 SRAM 。” “當(dāng)你這樣做時(shí),會(huì)產(chǎn)生影響,因?yàn)槟鞘撬鼜南噜忂壿嬛幸绯鰺崃康臅r(shí)候,這對(duì)內(nèi)存來說是一件壞事——對(duì)于 SRAM 來說,不是那么多,但對(duì)于 DRAM 來說這是一件大事,因?yàn)檫@個(gè)刷新時(shí)間成倍地依賴于溫度,因?yàn)樗且粋€(gè)結(jié)泄漏。當(dāng)你把DRAM和邏輯放在同一個(gè)封裝里,如果是高性能計(jì)算的邏輯,那么DRAM就會(huì)吃虧。你的刷新時(shí)間縮短了,你必須更頻繁地刷新它。”
多年來,對(duì)耐熱性的需求不斷增加。“當(dāng)我第一次加入公司時(shí),0° 或負(fù) 40°C 可能是低端,而高端則為 100° 或 110°C,”Woo 說。“但如今,汽車行業(yè)需要一些最極端的溫度保證。”
更高的溫度會(huì)導(dǎo)致更高的刷新率,從而降低性能,尤其是在數(shù)據(jù)密集型應(yīng)用程序中。“在某些情況下,如果溫度接近可接受的工作范圍的上限,系統(tǒng)可能會(huì)選擇提高 DRAM 的刷新率,”他說。“DRAM 保留其數(shù)據(jù)的時(shí)間取決于溫度,在更高的溫度下,可能需要提高刷新率以確保數(shù)據(jù)不會(huì)丟失。更高的刷新率意味著我們正在占用 DRAM 的一些帶寬,因此系統(tǒng)的性能可能會(huì)在更高的刷新率下受到影響。”
這必須融入設(shè)計(jì)。“例如,如果你正在設(shè)計(jì)一個(gè) I/O 控制器,你就會(huì)有這個(gè)數(shù)據(jù)流被扔給你,你需要吸收它,”Gervasi 解釋說。“在當(dāng)今設(shè)計(jì)所有線卡的 DRAM 世界中,如果 DRAM 刷新 350 納秒,則該內(nèi)存處于離線狀態(tài)。但數(shù)據(jù)流不會(huì)停止。這意味著您必須圍繞緩沖數(shù)據(jù)設(shè)計(jì)整個(gè)架構(gòu) 350 納秒,然后才能再次開始清空該緩沖區(qū)。”
嘗試調(diào)整刷新率會(huì)導(dǎo)致不愉快的權(quán)衡。“現(xiàn)在 5% 的系統(tǒng)性能專門用于保留您已經(jīng)編寫的內(nèi)容,”Gervasi 說。“這是解決辦法嗎?顯然是這樣,因?yàn)槿绻藗兿胍?85°C 以上運(yùn)行,就必須這樣做——放棄一些系統(tǒng)性能以獲得數(shù)據(jù)完整性。”
內(nèi)存選擇很重要
為了應(yīng)對(duì)這些擔(dān)憂,半導(dǎo)體生態(tài)系統(tǒng)正在嘗試多種解決方案,以最大限度地減少熱問題并提高可靠性。是德科技內(nèi)存解決方案項(xiàng)目經(jīng)理 Randy White 指出,LPDDR 通過整合一種稱為“溫度補(bǔ)償自刷新”的功能來解決刷新問題。 “當(dāng)您需要刷新內(nèi)存庫時(shí),芯片上有一個(gè)內(nèi)置溫度傳感器。有一個(gè)查找表顯示,“核心溫度每升高 1 度,就需要按比例增加刷新周期的頻率。” 同樣,DDR5 DRAM 現(xiàn)在包括一個(gè)內(nèi)部溫度傳感器。設(shè)計(jì)精確的片上溫度傳感器很困難,因此它的精度只有 +/-5°C。但總比沒有好,這就是 DDR4 的存在。這至少有助于了解何時(shí)打開風(fēng)扇,并大致說明氣流設(shè)計(jì)的效果如何。”
在標(biāo)準(zhǔn)層面,JEDEC 一直在嘗試可能的修復(fù)方案,Gervasi 說,“我們已經(jīng)在 DRAM 內(nèi)部設(shè)置了熱跳閘點(diǎn),并討論了在下一代擁有后門訪問端口的可能性,DRAM 可以在說,‘我這里太熱了。你需要做點(diǎn)什么。要么減慢數(shù)據(jù)訪問速度,要么加快風(fēng)扇速度。‘”
格林伯格說,市場(chǎng)上已經(jīng)流行的一種方法是在芯片中內(nèi)置糾錯(cuò)功能。“在更先進(jìn)的 DRAM 類型中,如 LPDDR5 和 DDR5 等密度非常高的類型,內(nèi)存制造商正在實(shí)施片上糾錯(cuò)。當(dāng)一個(gè)位由于其電荷泄漏而變得不可讀時(shí),DRAM 設(shè)備上的糾錯(cuò)電路能夠通過將該位單元中應(yīng)該存在的數(shù)據(jù)與它周圍的其他位單元以及一些錯(cuò)誤拼湊在一起來糾正該錯(cuò)誤校正位,也包含在 DRAM 芯片中。”
這種技術(shù)使內(nèi)存制造商能夠提供擴(kuò)展溫度范圍的 DRAM。許多方法都基于漢明碼,這是一種可以追溯到打孔帶時(shí)代的糾錯(cuò)方案,但仍有助于糾正一個(gè)錯(cuò)誤并檢測(cè)兩個(gè)錯(cuò)誤。更先進(jìn)的方法也已進(jìn)入市場(chǎng)。當(dāng)然,沒有人會(huì)透露他們的專有算法,但在之前的博客文章中,Synopsys 的高級(jí)技術(shù)營銷經(jīng)理 Vadhiraj Sankaranarayanan 對(duì) DRAM 糾錯(cuò)進(jìn)行了高級(jí)概述。
Cadence 和其他公司還為高可靠性應(yīng)用提供了超出 ECC 現(xiàn)有功能的額外校正。
十多年來一直在取笑該行業(yè)的一項(xiàng)技術(shù)是微流體冷卻。除了散熱器、風(fēng)扇或外部液體冷卻等標(biāo)準(zhǔn)商用冷卻元件外,學(xué)術(shù)實(shí)驗(yàn)室正在進(jìn)行的實(shí)驗(yàn)正在將冷卻直接整合到芯片中,這種方法稱為集成微流體冷卻,其中微流體通道被蝕刻到芯片中,允許冷卻液流過它。
盡管這在理論上聽起來像是一個(gè)近乎完美的解決方案,并且已被證明可以在實(shí)驗(yàn)室中工作,但Siemens Digital Industries Software的電子和半導(dǎo)體行業(yè)負(fù)責(zé)人 John Parry指出,它不太可能在商業(yè)生產(chǎn)中發(fā)揮作用。“從流體腐蝕到泄漏問題,您都遇到了各種問題,因?yàn)槟谔幚順O小、非常精細(xì)的物理幾何形狀。他們被抽了。我們通常發(fā)現(xiàn)與之相關(guān)的可靠性最低的功能之一是機(jī)電設(shè)備,例如風(fēng)扇和泵,因此您最終會(huì)在許多不同的方向上變得復(fù)雜。”
不同的方法
Nantero 的 NRAM 是經(jīng)過徹底重新思考并成功走出實(shí)驗(yàn)室的內(nèi)存設(shè)計(jì)。它不是 DRAM,而是由碳納米管制成的非易失性芯片,并且已經(jīng)證明它可以承受極端的熱條件。概念驗(yàn)證:Gervasi 指出,它在修復(fù)哈勃望遠(yuǎn)鏡的航天飛機(jī)任務(wù)中在太空中進(jìn)行了測(cè)試。
對(duì)于 JEDEC,Gervasi 正在開發(fā)允許 NRAM 芯片無縫插入 DRAM 的規(guī)范。但不管 NRAM 最終取得怎樣的成功,他認(rèn)為碳至少提供了一條擺脫熱難題的方法。“碳納米管是卷起的鉆石。它們幾乎是熱分布。它們實(shí)際上將被部署,即使它們不將它們用作存儲(chǔ)單元,因?yàn)檫@是進(jìn)行熱擴(kuò)散和熱分布的好方法。碳納米管也被討論用于印刷電路板布線或芯片布線,因?yàn)樗跓岱植挤矫娣浅M昝馈!?/p>
格林伯格說,無論選擇何種芯片和其他組件,都必須在設(shè)計(jì)階段左移并模擬熱問題,而不是將它們視為以后可以修復(fù)的不便。“你一定要考慮事情會(huì)變得多熱。這往往是事后的想法。人們只是假設(shè)要完成您必須做的計(jì)算工作,總有一個(gè)更大的散熱器可以購買。那些制造電池供電設(shè)備、手機(jī)、平板電腦和手表的人關(guān)心的是功耗,而不是熱量。可以采用許多模擬技術(shù)來改善功耗和改善散熱狀況。”
當(dāng)然,生產(chǎn)前的模擬需要與生產(chǎn)后的物理分析相結(jié)合,特別是測(cè)試芯片并根據(jù)它們的性能對(duì)它們進(jìn)行分類。“如果可以的話,你真的想建立一種設(shè)計(jì),因?yàn)檫@可以讓你獲得規(guī)模經(jīng)濟(jì),”Rambus 的 Woo 說。“然后你可能想根據(jù)不同的規(guī)格對(duì)其進(jìn)行測(cè)試。測(cè)試流程是當(dāng)你有機(jī)會(huì)說,‘這個(gè)設(shè)備實(shí)際上覆蓋了非常廣泛的范圍,所以也許我們可以把它賣到汽車市場(chǎng)。
最后,如果更糟到絕對(duì)最壞,可以更改規(guī)范,但這對(duì)于某些用例(例如移動(dòng)設(shè)備)可能是一場(chǎng)災(zāi)難。相比之下,允許大型數(shù)據(jù)中心中的芯片溫度升高可能會(huì)帶來令人驚訝的環(huán)境效益。至此,是德科技的 White 回憶說,一家公司曾要求 JEDEC 將工作溫度的規(guī)格提高 5 度。對(duì)潛在節(jié)省的估計(jì)是驚人的。根據(jù)他們每年用于冷卻的能源消耗量,他們計(jì)算出 5 度的變化可以轉(zhuǎn)化為每年關(guān)閉三個(gè)燃煤電廠。JEDEC 最終在這個(gè)建議上妥協(xié)了。
-
DRAM
+關(guān)注
關(guān)注
40文章
2320瀏覽量
183610 -
晶體管
+關(guān)注
關(guān)注
77文章
9706瀏覽量
138476 -
NRAM
+關(guān)注
關(guān)注
1文章
12瀏覽量
9535
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論