(文章來源:環(huán)球網(wǎng))
硬盤作為服務(wù)器數(shù)據(jù)的載體、一旦出現(xiàn)故障,就會(huì)出現(xiàn)信息的缺失和遺漏。為了解決企業(yè)級(jí)場(chǎng)景下,硬盤對(duì)于精準(zhǔn)海量記憶的苛刻要求,騰訊云一方面與全球領(lǐng)先的數(shù)據(jù)存儲(chǔ)解決方案提供商希捷合作,率先在國(guó)內(nèi)引入定制化機(jī)制,保證硬盤質(zhì)量的源頭管理;另一方面,利用大數(shù)據(jù)分析技術(shù)對(duì)硬盤健康狀況作多維度 “體檢”,實(shí)現(xiàn)了對(duì)硬盤品質(zhì)和可靠性的有效管控,為騰訊云數(shù)百萬用戶的底層數(shù)據(jù)安全能力提供了強(qiáng)有力保障。
據(jù)了解,在當(dāng)前大數(shù)據(jù)應(yīng)用場(chǎng)景中,TB級(jí)的大容量機(jī)械式硬盤是最為廣泛的物理載體,其主流數(shù)據(jù)記錄方式普遍采用垂直磁記錄技術(shù),在該技術(shù)下主要依靠同等體積內(nèi)增加磁頭、磁碟的數(shù)量,以及增加單盤容量的方式來堆高容量。這不僅對(duì)硬盤的工藝、機(jī)械結(jié)構(gòu)、伺服系統(tǒng)、信號(hào)處理等帶來極大的挑戰(zhàn),也增加了硬盤數(shù)據(jù)管理的難題。
與此同時(shí),大數(shù)據(jù)業(yè)務(wù)場(chǎng)景下往往伴隨著長(zhǎng)時(shí)間的高工作負(fù)載,即便硬盤本身有強(qiáng)大的自恢復(fù)機(jī)制,但在龐大的強(qiáng)負(fù)載壓力下,內(nèi)部的重試糾錯(cuò)機(jī)制也會(huì)影響到上層的數(shù)據(jù)讀寫,影響系統(tǒng)的穩(wěn)定性。為有效解決這樣的難題,騰訊云攜手希捷聯(lián)合開展獨(dú)家質(zhì)量提升項(xiàng)目,率先在國(guó)內(nèi)云廠商中引入定制化機(jī)制,實(shí)現(xiàn)了根據(jù)自身業(yè)務(wù)需求對(duì)硬盤可靠性的“量身定制”。
希捷根據(jù)騰訊云的業(yè)務(wù)需求開發(fā)了定制化內(nèi)部日志,建立新產(chǎn)品聯(lián)合導(dǎo)入測(cè)試機(jī)制,幫助硬盤加速進(jìn)入穩(wěn)定運(yùn)營(yíng)期,提升產(chǎn)品的性能與穩(wěn)定性,保障用戶體驗(yàn)。經(jīng)過數(shù)月的運(yùn)營(yíng)統(tǒng)計(jì)數(shù)據(jù)表明,騰訊云大數(shù)據(jù)業(yè)務(wù)中希捷12TB硬盤的可靠性表現(xiàn)得到了顯著提升。
據(jù)騰訊服務(wù)器供應(yīng)鏈總經(jīng)理劉裕勛介紹,硬盤的健康維護(hù)是一項(xiàng)綜合性工程,騰訊云在硬盤數(shù)據(jù)安全防護(hù)上做了大量的探索,除了和希捷在強(qiáng)化源頭管理的同時(shí),為最大程度保護(hù)云端用戶的安全和穩(wěn)定,騰訊云還借助最新的大數(shù)據(jù)AI技術(shù)優(yōu)化硬盤的健康管理。
例如,騰訊云開發(fā)的硬盤健康度打分系統(tǒng),不僅可以智能化對(duì)單盤本身的參數(shù)進(jìn)行健康評(píng)估,識(shí)別出參數(shù)惡化的硬盤。在實(shí)際業(yè)務(wù)中,運(yùn)維人員根據(jù)該打分情況,實(shí)時(shí)掌握重點(diǎn)客戶的硬盤健康狀況,對(duì)運(yùn)行著重要業(yè)務(wù)的機(jī)器提前進(jìn)行低分盤更換,保障業(yè)務(wù)系統(tǒng)和數(shù)據(jù)安全。
實(shí)際上,除了上述高負(fù)載給硬盤帶來的威脅以外,隨著硬盤本身容量的不斷上升,其自身可靠性的挑戰(zhàn)也在不斷加大。面對(duì)這樣的挑戰(zhàn),騰訊云通過不斷優(yōu)化自身業(yè)務(wù)架構(gòu),將單盤故障做到業(yè)務(wù)零感知。
例如,騰訊云對(duì)象存儲(chǔ)COS業(yè)務(wù)中就通過就近訪問的方式減少訪問延遲。在多副本架構(gòu)下,采用一寫多讀的讀寫策略,結(jié)合容錯(cuò)機(jī)制保證數(shù)據(jù)一致性。同時(shí),基于該讀寫策略,計(jì)算框架會(huì)根據(jù)硬盤位置信息采用離數(shù)據(jù)最近的機(jī)器存儲(chǔ)數(shù)據(jù),很好地規(guī)避了由于單盤故障和網(wǎng)絡(luò)讀寫導(dǎo)致的延遲和服務(wù)不可用情況,有效提升了服務(wù)的可靠性。
此外,當(dāng)出現(xiàn)單塊硬盤故障的時(shí)候,騰訊云對(duì)象存儲(chǔ)COS業(yè)務(wù)會(huì)將硬盤置臟處理,同時(shí),將請(qǐng)求分流至可用的硬盤上,并后端進(jìn)行無感的數(shù)據(jù)恢復(fù)措施,保障數(shù)據(jù)保持持久高可用狀態(tài)。
騰訊服務(wù)器供應(yīng)鏈總經(jīng)理劉裕勛表示:“大容量的機(jī)械硬盤仍然是當(dāng)前大數(shù)據(jù)業(yè)務(wù)的主力存儲(chǔ)設(shè)備。面對(duì)技術(shù)以及業(yè)務(wù)的雙重挑戰(zhàn),騰訊云除了加強(qiáng)與全球存儲(chǔ)巨頭之間的合作之外,還將進(jìn)一步依托領(lǐng)先的大數(shù)據(jù)分析技術(shù)和業(yè)務(wù)架構(gòu)的持續(xù)優(yōu)化,來全面降低硬盤故障對(duì)云端業(yè)務(wù)的影響,為數(shù)百萬用戶的數(shù)據(jù)安全保駕護(hù)航。”
(責(zé)任編輯:fqj)
-
騰訊
+關(guān)注
關(guān)注
7文章
1665瀏覽量
49535 -
云技術(shù)
+關(guān)注
關(guān)注
1文章
189瀏覽量
18848
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論