機(jī)器學(xué)習(xí)為數(shù)據(jù)中心運(yùn)營(yíng)商帶來了更好的散熱,功耗和性能。
隨著企業(yè)開始采用經(jīng)過大型數(shù)據(jù)中心運(yùn)營(yíng)商和托管服務(wù)提供商試用和測(cè)試過的機(jī)器學(xué)習(xí)技術(shù),人工智能將在數(shù)據(jù)中心運(yùn)營(yíng)中扮演更重要的角色。
今天的混合計(jì)算環(huán)境通常跨越了內(nèi)部數(shù)據(jù)中心、云和配置站點(diǎn)以及邊緣計(jì)算。企業(yè)發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)中心管理方法并不是最優(yōu)的。通過使用人工智能,機(jī)器學(xué)習(xí),可以簡(jiǎn)化復(fù)雜計(jì)算設(shè)施的管理。
目前,數(shù)據(jù)中心的AI主要圍繞機(jī)器學(xué)習(xí)來監(jiān)控和自動(dòng)化設(shè)施組件的管理,如電力和配電元件,冷卻基礎(chǔ)設(shè)施,機(jī)架系統(tǒng)和物理安全。
在數(shù)據(jù)中心設(shè)施內(nèi)部,越來越多的傳感器正在從設(shè)備(包括備用電源,配電設(shè)備,開關(guān)設(shè)備和冷卻器)收集數(shù)據(jù)。有關(guān)這些設(shè)備及其環(huán)境的數(shù)據(jù)將通過機(jī)器學(xué)習(xí)算法進(jìn)行分析,例如,該算法可以詳細(xì)了解性能和容量,并確定適當(dāng)?shù)捻憫?yīng),更改設(shè)置或發(fā)送警報(bào)。隨著條件的變化,機(jī)器學(xué)習(xí)系統(tǒng)能從變化中不斷學(xué)習(xí) - 它本質(zhì)上是通過訓(xùn)練進(jìn)行自我調(diào)整,而不是依靠特定的編程指令來執(zhí)行其任務(wù)。
目標(biāo)是使數(shù)據(jù)中心運(yùn)營(yíng)商能夠提高設(shè)施的可靠性和效率,并更自主地運(yùn)行它們。但是,獲取數(shù)據(jù)并不是一項(xiàng)簡(jiǎn)單的任務(wù)。
基本要求是獲得來自主要組件的實(shí)時(shí)數(shù)據(jù),施耐德電氣數(shù)據(jù)中心全球解決方案高級(jí)總監(jiān)Steve Carlini說。包括冷水機(jī)組,冷卻塔,空氣處理機(jī),風(fēng)機(jī)等等設(shè)備。在IT設(shè)備方面,你需要收集諸如服務(wù)器利用率,溫度和功耗等指標(biāo)。
“計(jì)量一個(gè)數(shù)據(jù)中心不是一件容易的事。”Carlini說, “如果你想嘗試做人工智能,你需要從數(shù)據(jù)中心獲取數(shù)據(jù),并且確保在數(shù)據(jù)中心有很多連接點(diǎn)用于供電和散熱。”
IT專業(yè)人員習(xí)慣于設(shè)備監(jiān)控和實(shí)時(shí)警報(bào),但在房屋設(shè)施方面則沒有這個(gè)傳統(tǒng)。“人們希望即時(shí)得到IT設(shè)備的通知。但在你的電力系統(tǒng)上,這不是直接能夠得到的數(shù)據(jù),“Carlini說。 “這是一個(gè)不同的世界。”
只有在過去的十年左右,第一批數(shù)據(jù)中心才完全裝備了儀器,并使用儀表來監(jiān)控電力和制冷。只要存在計(jì)量的地方,標(biāo)準(zhǔn)化的實(shí)現(xiàn)往往都是困難的:數(shù)據(jù)中心運(yùn)營(yíng)商依賴于使用多種通信協(xié)議來構(gòu)建管理系統(tǒng)——從Modbus和BACnet到LONworks和Niagara——它們必須滿足于那些無法共享數(shù)據(jù)或不能通過遠(yuǎn)程控制操作的設(shè)備。“TCP/IP,以太網(wǎng)連接——這些連接以前在動(dòng)力系統(tǒng)端和冷卻端是聞所未聞的,”Carlini說。
好消息是,數(shù)據(jù)中心的監(jiān)控正在向高級(jí)分析和機(jī)器學(xué)習(xí)所需的深度發(fā)展。服務(wù)提供商和托管服務(wù)提供商一直非常擅長(zhǎng)在機(jī)架級(jí)別進(jìn)行監(jiān)控,特別是監(jiān)控能源使用情況。企業(yè)正在開始部署它,這取決于數(shù)據(jù)中心的規(guī)模,“Carlini說。
機(jī)器學(xué)習(xí)使數(shù)據(jù)中心時(shí)刻保持涼爽
由于電力系統(tǒng)故障導(dǎo)致的達(dá)美航空數(shù)據(jù)中心停運(yùn)事件,使其在2016年的三天時(shí)間內(nèi)停飛約2000次航班,造成損失1.5億美元。這正是基于機(jī)器學(xué)習(xí)的自動(dòng)化技術(shù)可以避免的場(chǎng)景。 由于數(shù)據(jù)中心計(jì)量技術(shù)的進(jìn)步以及云中數(shù)據(jù)池的出現(xiàn),智能系統(tǒng)有可能以手動(dòng)流程無法發(fā)現(xiàn)的方式發(fā)現(xiàn)數(shù)據(jù)中心運(yùn)行中的漏洞并提高效率。
機(jī)器學(xué)習(xí)驅(qū)動(dòng)智能的一個(gè)簡(jiǎn)單示例是基于條件的維護(hù)策略,它應(yīng)用于數(shù)據(jù)中心中的消耗品,例如,冷卻過濾器。Carlini說,通過監(jiān)測(cè)通過多個(gè)過濾器的空氣流量,智能系統(tǒng)可以檢測(cè)出一些過濾器是否比其他過濾器堵塞更多,然后將空氣導(dǎo)向堵塞較少的單元,直到需要更換所有過濾器為止。
另一個(gè)例子是監(jiān)控UPS系統(tǒng)中電池的溫度和放電。智能系統(tǒng)可識(shí)別在較熱環(huán)境中運(yùn)行且可能比其他系統(tǒng)更頻繁運(yùn)行的UPS系統(tǒng),然后將其指定為備用UPS而不是主系統(tǒng)。 “它可以為你做一些思考。這原本是需要手動(dòng)完成的,但現(xiàn)在機(jī)器也可以做到。這些是基本的案例,”Carlini說。
更高層次的功能是動(dòng)態(tài)冷卻優(yōu)化,這是當(dāng)今數(shù)據(jù)中心中最常見的機(jī)器學(xué)習(xí)的例子之一,特別是在較大的數(shù)據(jù)中心操作人員和托管服務(wù)提供商之間。
通過動(dòng)態(tài)冷卻優(yōu)化,數(shù)據(jù)中心管理人員可以根據(jù)環(huán)境條件監(jiān)控和控制設(shè)施的冷卻基礎(chǔ)設(shè)施。當(dāng)設(shè)備移動(dòng)或計(jì)算流量激增時(shí),建筑物內(nèi)的熱負(fù)荷也會(huì)發(fā)生變化。動(dòng)態(tài)調(diào)整冷卻輸出以轉(zhuǎn)移熱負(fù)荷可幫助消除不必要的制冷量并降低運(yùn)營(yíng)成本。
451 Research數(shù)據(jù)中心技術(shù)和生態(tài)高效IT頻道的研究主管Rhonda Ascierto說,托管服務(wù)提供商是動(dòng)態(tài)冷卻優(yōu)化的主要采用者。“機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)中心來說并不陌生,”Ascierto說。 “在很長(zhǎng)一段時(shí)間內(nèi)人們都試圖根據(jù)容量和需求來改善散熱,機(jī)器學(xué)習(xí)可以讓你實(shí)時(shí)做到這一點(diǎn)。”
Vigilent是動(dòng)態(tài)冷卻優(yōu)化領(lǐng)域的領(lǐng)導(dǎo)者。其技術(shù)可以優(yōu)化數(shù)據(jù)中心設(shè)施的氣流,自動(dòng)發(fā)現(xiàn)并消除熱點(diǎn)。
Vigilent的創(chuàng)始人,總裁兼首席技術(shù)官Cliff Federspiel說,數(shù)據(jù)中心運(yùn)營(yíng)商之前傾向于運(yùn)行比他們所需要的更多的冷卻設(shè)備。 “它通常會(huì)產(chǎn)生半可接受的溫度分布,且成本非常高。”
如果有熱點(diǎn),傳統(tǒng)的措施是增加更多的冷卻能力。實(shí)際上,較高的空氣速度會(huì)產(chǎn)生壓力差,干擾穿過設(shè)備的空氣流動(dòng)或妨礙熱空氣返回到冷卻設(shè)備。可能這不是直覺,有時(shí)候降低風(fēng)扇速度可能更有效。
Vigilent的基于機(jī)器學(xué)習(xí)的技術(shù)可以了解哪些氣流設(shè)置可以優(yōu)化每個(gè)客戶的散熱環(huán)境。該公司表示,提供適當(dāng)?shù)睦鋮s量在需要的地方,通常能使冷卻能耗降低40%。
除了自動(dòng)化冷卻系統(tǒng)之外,Vigilent的軟件還允許客戶使用分析工具來對(duì)其設(shè)施進(jìn)行運(yùn)營(yíng)決策。
Federspiel說:“我們的客戶越來越有興趣利用這些數(shù)據(jù)來幫助管理他們的資本支出、能力規(guī)劃和可靠性計(jì)劃。這為數(shù)據(jù)中心內(nèi)的大量新型的數(shù)據(jù)相關(guān)的決策創(chuàng)造了機(jī)會(huì)。”
AI使現(xiàn)有流程更完善
展望未來,數(shù)據(jù)中心運(yùn)營(yíng)商正在努力將動(dòng)態(tài)制冷優(yōu)化的成功擴(kuò)展到其他領(lǐng)域。一般來說,適合機(jī)器學(xué)習(xí)的領(lǐng)域是那些需要大量重復(fù)性的工作的地方。
Ascierto表示:“新的基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心方法很可能會(huì)應(yīng)用于現(xiàn)有的業(yè)務(wù)流程,因?yàn)楫?dāng)您徹底了解業(yè)務(wù)問題和規(guī)則時(shí),機(jī)器學(xué)習(xí)會(huì)表現(xiàn)的更好。”
企業(yè)已經(jīng)有一些在使用中的監(jiān)控工具。有一種長(zhǎng)期存在的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件,可以為數(shù)據(jù)中心資產(chǎn)、相互依賴性、性能和容量提供可見性。DCIM軟件具有遠(yuǎn)程設(shè)備監(jiān)控,電力和環(huán)境監(jiān)控,IT資產(chǎn)管理,數(shù)據(jù)管理和報(bào)告等功能。企業(yè)使用DCIM軟件來簡(jiǎn)化容量規(guī)劃和資源分配,并確保盡可能高效地使用電力,設(shè)備和占地面積。
“如果你有一個(gè)基本的監(jiān)控和資產(chǎn)管理,你的預(yù)測(cè)能力將會(huì)大大提高,”Ascierto說。 “人們已經(jīng)在使用他們自己的數(shù)據(jù)。”
接下來的目標(biāo)是:將外部數(shù)據(jù)添加到DCIM組合中。這就是機(jī)器學(xué)習(xí)發(fā)揮關(guān)鍵作用的地方。
數(shù)據(jù)中心管理即服務(wù)或DMaaS是基于DCIM軟件的服務(wù)。但它不僅僅是一個(gè)SaaS版本的DCIM軟件。 DMaaS將進(jìn)一步收集數(shù)據(jù),匯總來自數(shù)十個(gè)數(shù)據(jù)中心的設(shè)備和設(shè)備數(shù)據(jù)。然后將這些數(shù)據(jù)匿名化,匯總并使用機(jī)器學(xué)習(xí)進(jìn)行大規(guī)模分析。
兩家DMaaS市場(chǎng)的早期參與者是Schneider Electric和Eaton。這兩家廠商都從他們?cè)跀?shù)據(jù)中心領(lǐng)域多年的經(jīng)驗(yàn)中挖掘出了大量數(shù)據(jù),其中包括設(shè)計(jì)和構(gòu)建數(shù)據(jù)中心,樓宇管理,配電以及電力和制冷服務(wù)。
“Schneider Electric和Eaton正在做的事情將產(chǎn)生重大的變化,那就是擁有眾多客戶數(shù)據(jù)的數(shù)據(jù)湖。這對(duì)于數(shù)據(jù)中心部門來說非常有趣,”Ascierto說。
通過從廣泛的操作環(huán)境中獲取這類數(shù)據(jù),使企業(yè)能夠?qū)⒆约旱臄?shù)據(jù)中心性能與全球基準(zhǔn)進(jìn)行比較。例如,Schneider的DMaaS產(chǎn)品名為EcoStruxure IT,它與來自500多個(gè)客戶和220萬個(gè)傳感器的基準(zhǔn)數(shù)據(jù)的數(shù)據(jù)湖相關(guān)聯(lián)。
“您不僅可以使用自己的數(shù)據(jù)理解和解決問題。而且,您還可以使用數(shù)千個(gè)其他設(shè)施的數(shù)據(jù),其中包括許多與您的設(shè)施非常相似的數(shù)據(jù)。這是最大的區(qū)別,”Ascierto說。
例如,預(yù)測(cè)性和預(yù)防性維護(hù)可以從更深層次的智能中受益。 Ascierto說:“以其他機(jī)器為基礎(chǔ),在使用水平相似、使用時(shí)間相近、部件相似的環(huán)境中工作,人工智能可以提前預(yù)測(cè)出可能會(huì)出現(xiàn)的故障。”
情景規(guī)劃是另一個(gè)可以從機(jī)器學(xué)習(xí)中獲益的過程。例如,公司今天進(jìn)行情景規(guī)劃,估算設(shè)備移動(dòng)對(duì)功耗的影響。 “這幾乎無法進(jìn)行機(jī)器學(xué)習(xí),”Ascierto說。“但通過將機(jī)器學(xué)習(xí)數(shù)據(jù)、歷史數(shù)據(jù)應(yīng)用到特定的配置和不同的設(shè)計(jì)中——使得確定特定配置或設(shè)計(jì)的結(jié)果的能力大大提升。”
風(fēng)險(xiǎn)分析和風(fēng)險(xiǎn)對(duì)沖計(jì)劃也將受益于更深入的分析。 Ascierto說:“數(shù)據(jù)中心非常復(fù)雜,今天的規(guī)模如此之大,以至于人類真的很難從中找到規(guī)律,但對(duì)于機(jī)器來說這是輕而易舉的。”
未來,機(jī)器學(xué)習(xí)在數(shù)據(jù)中心的廣泛應(yīng)用將為企業(yè)在決定運(yùn)行某些工作負(fù)載的位置時(shí)提供更多建議。 “這對(duì)組織來說非常有價(jià)值,特別是如果他們正在圍繞最佳執(zhí)行場(chǎng)所做出決定時(shí),”Ascierto說。 “這個(gè)應(yīng)用程序應(yīng)該在這個(gè)數(shù)據(jù)中心運(yùn)行嗎?或者我們應(yīng)該使用額外的數(shù)據(jù)中心嗎?”
展望未來,智能系統(tǒng)可以承擔(dān)更復(fù)雜的任務(wù),使數(shù)據(jù)中心能夠根據(jù)運(yùn)行效率最高或最可靠的設(shè)置來動(dòng)態(tài)調(diào)整工作負(fù)載。 Carlini說:“復(fù)雜的人工智能在未來仍有一段路要走。”
與此同時(shí),對(duì)于剛?cè)腴T的公司,他強(qiáng)調(diào)了讓設(shè)備和IT團(tuán)隊(duì)進(jìn)行更多合作的重要性。
Carlini說:“考慮到數(shù)據(jù)中心的所有部件 - 電源系統(tǒng),冷卻系統(tǒng)和IT管理室都是非常重要的。必須努力保證不同領(lǐng)域的技術(shù)之間的互操作性。同時(shí),企業(yè)需要在人員配置方面也這樣做。
“雖然這在技術(shù)層面上很容易做到,但在組織上,提升的空間依然非常巨大,”他說。
評(píng)論
查看更多