電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))隨著這幾年數(shù)據(jù)中心算力持續(xù)飆升,風(fēng)冷已經(jīng)快要cover不住芯片的熱功率之際,以液體作為冷卻媒介的液冷方案很快就被推到臺(tái)前。在不同國(guó)家對(duì)于PUE指標(biāo)的要求越來(lái)越嚴(yán)格的情境下,要想借助GPU密集的計(jì)算集群打造智算網(wǎng)絡(luò),是肯定不能在散熱上馬虎的。為此,自19年起組建開(kāi)展商業(yè)化應(yīng)用的液冷服務(wù)器,開(kāi)始慢慢搶占更多的市場(chǎng)份額。
液冷的必要性
隨著英偉達(dá)B200 GPU的推出,8路B200的DGX B200接近15kW的最高功耗,已經(jīng)讓不少服務(wù)器廠商都已經(jīng)感受到了全面走向液冷勢(shì)在必行,尤其是在對(duì)比之下,如今的液冷方案已經(jīng)提供了更多的技術(shù)優(yōu)勢(shì)。
比如在相同標(biāo)準(zhǔn)的機(jī)柜下,相比風(fēng)冷服務(wù)器,液冷服務(wù)器可以提供更高的服務(wù)器計(jì)算密度,從而可以將更多的空間分配給計(jì)算資源。其次過(guò)熱的CPU、GPU和其他加速器抵達(dá)熱瓶頸后,會(huì)顯著降低服務(wù)器性能。盡管風(fēng)冷同樣可以解決散熱問(wèn)題,但在散熱效率和極限效果上,相較液冷還是有一定的差距,所以液冷方案更容易提高服務(wù)器的整體性能,并潛在降低失效率。
再者就是在噪聲上的優(yōu)勢(shì)了,無(wú)論是哪一種液冷方案,在噪聲控制上都要比風(fēng)冷方案安靜,因?yàn)榉?wù)器風(fēng)扇都運(yùn)行在極低的速度下。不僅如此,比起風(fēng)冷散熱,液冷散熱更容易保證均衡的散熱表現(xiàn),從而消滅任何熱點(diǎn)的存在。盡管風(fēng)冷和液冷都有節(jié)省能耗的作用,但液冷方案由于液體更高的比熱容和密度,更容易實(shí)現(xiàn)較低的PUE值,比如傳統(tǒng)的風(fēng)冷數(shù)據(jù)中心PUE為1.5到1.8,而液冷方案可以做到1.1以下,符合更低的碳足跡要求。
在技術(shù)路線上,液冷服務(wù)器主要分為浸沒(méi)式液冷服務(wù)器、噴淋式液冷服務(wù)器和冷板式液冷服務(wù)器,不同的服務(wù)器和數(shù)據(jù)中心往往會(huì)根據(jù)基礎(chǔ)設(shè)施的設(shè)計(jì),采取不同的液冷方案,比如阿里主要采用浸沒(méi)式,中科曙光、浪潮和華為等廠商主要采用冷板式液冷方案。目前的主流方案還是以浸沒(méi)式和冷板式為主,噴淋式在國(guó)內(nèi)外投入實(shí)踐應(yīng)用的都比較少。
浸沒(méi)式液冷
浸沒(méi)式液冷是一種將服務(wù)器組件整個(gè)浸入液體中的液冷方式,在浸沒(méi)式液冷系統(tǒng)中,服務(wù)器組件會(huì)被放入專有非導(dǎo)電液體中,隨后加熱的液體再?gòu)慕M件中循環(huán)出來(lái)。
阿里云單相浸沒(méi)式液冷 / 阿里巴巴
浸沒(méi)式冷卻又分為單相和雙相兩種,單相浸沒(méi)式冷卻是指冷卻液保持液體狀態(tài)不蒸發(fā),在捕捉了浸入組件的熱量后,液體仍需要通過(guò)冷卻塔、冷卻器或者現(xiàn)有的冷水機(jī)組進(jìn)行冷卻。而雙相浸沒(méi)式液冷所用的冷卻液在較低溫度下會(huì)蒸發(fā),所以需要用冷凝管將蒸發(fā)的冷卻液蒸汽冷凝回液態(tài),而這些冷凝管通常位于機(jī)架的頂部。
以服務(wù)器液冷方案廠商Asperitas為例,他們采用了殼牌的浸沒(méi)式冷卻液S5X,這是一種碳?xì)浠衔飭蜗嗔黧w,具有極高的冷卻效率和流動(dòng)特性。這種單相流體本身不會(huì)蒸發(fā),所以不需要加滿,也不需要更換液體,只需要定期對(duì)冷卻液的性能進(jìn)行測(cè)試即可。
考慮到這類冷卻液不少都是液體化合物,不少?gòu)S商也在擔(dān)心其是否會(huì)帶來(lái)一定的火災(zāi)隱患。然而,對(duì)于大部分浸沒(méi)式液冷廠商采用的冷卻液,在保證其高絕緣性、高流動(dòng)性和高散熱效率的同時(shí),也會(huì)保證這類材料的高燃點(diǎn),所以無(wú)需擔(dān)心點(diǎn)燃的情況。
冷板式液冷
冷板式液冷則是采用液體作為傳熱介質(zhì),在冷板內(nèi)部通道流動(dòng),從而實(shí)現(xiàn)熱傳遞的非接觸式液體冷卻技術(shù)。這種方式對(duì)于整個(gè)服務(wù)器芯片等各個(gè)組件所需要的改動(dòng)量較小,可操作性更強(qiáng),所以也是目前更為成熟的液冷散熱方案,在整個(gè)液冷服務(wù)器中的占比高達(dá)80%以上。
盡管在改善能效上,液冷技術(shù)提供了足夠的優(yōu)勢(shì),在各項(xiàng)方案成熟后也勢(shì)必會(huì)得到大量普及。但基于水的冷卻方案依然會(huì)消耗不少的水資源,尤其是對(duì)于一些水資源緊缺的環(huán)境而言。因此,如何控制好液冷方案的水循環(huán)就成了最大的挑戰(zhàn)。
ZutaCore提供了一種閉環(huán)的無(wú)水液冷解決方案Hypercool,采用了高效的雙相沸騰和冷凝工藝,將大量熱量從處理器和服務(wù)器中轉(zhuǎn)移走。這是一種直連芯片的冷卻方案,也是目前芯片冷卻方案中最高效的一種,將冷卻劑直接施加到芯片上提取和分散熱量。但ZutaCore的這套方案中并沒(méi)有用到水,所以不用擔(dān)心設(shè)備腐蝕之類的威脅。
無(wú)水冷板式液冷 / ZutaCore
據(jù)ZutaCore聲稱,這套液冷方案可以支持1500W以上功耗的處理器,且該方案具有可擴(kuò)展性。在經(jīng)過(guò)該方案改造后的數(shù)據(jù)中心中,可以支持100kW以上算力集群的冷卻,而且這種熱量再利用的設(shè)計(jì),可以在任何氣候條件下都能達(dá)到最低的PUE和最高的能效表現(xiàn)。
在近期戴爾舉辦的科技全球大會(huì)上,ZutaCore展示了基于這一方案打造的絕緣冷板,不僅可以直接適用于英偉達(dá)最新的GB200,也可以提供最高120kW的機(jī)架冷卻功率。據(jù)了解,ZutaCore已經(jīng)和戴爾、華碩、和碩和SuperMicro等行業(yè)巨頭達(dá)成合作,并獲得了相關(guān)服務(wù)器的認(rèn)證。UNICOM Engineering將成為首個(gè)用到HyperCool方案的用戶,他們將會(huì)把該液冷方案部署在戴爾的XE9680服務(wù)器上。
未來(lái)的液冷市場(chǎng)期望
從當(dāng)下的趨勢(shì)來(lái)看,冷板式液冷和單相浸沒(méi)式液冷還是絕大多數(shù)數(shù)據(jù)中心會(huì)選擇的方案,決心下血本改造或新建的數(shù)據(jù)中心,有一定可能會(huì)選擇單相浸沒(méi)式液冷。而追求盡可能最小改動(dòng)就能實(shí)現(xiàn)降低能效的數(shù)據(jù)中心,則會(huì)選擇更為成熟的冷板式液冷。在液冷服務(wù)器越來(lái)越普及的當(dāng)下,受益的不僅是浪潮、戴爾、華為、中科曙光等廠商,上游的接頭、CDU和冷卻液廠商也將迎來(lái)新一波的營(yíng)收增長(zhǎng)。
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9163瀏覽量
85428 -
液冷
+關(guān)注
關(guān)注
4文章
102瀏覽量
5053
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論