服務(wù)器故障&檢測(cè)&分析:
HP EVA存儲(chǔ)設(shè)備中的RAID5磁盤有兩塊硬盤掉線,lun丟失。硬件工程師對(duì)故障服務(wù)器進(jìn)行物理故障檢測(cè),發(fā)現(xiàn)掉線硬盤能夠正常讀取,無(wú)物理故障,也沒(méi)有發(fā)現(xiàn)壞道。
故障服務(wù)器掉線硬盤沒(méi)有物理故障,所以掉線極有可能是硬盤讀寫不穩(wěn)定造成的。EVA控制會(huì)將讀寫不穩(wěn)定的硬盤默認(rèn)為壞盤并踢出。raid5冗余允許最大掉線硬盤的數(shù)量是2,掉線的硬盤超過(guò)了2塊就會(huì)導(dǎo)致服務(wù)器崩潰。
通過(guò)分析故障服務(wù)器內(nèi)raid條目的存儲(chǔ)形式,發(fā)現(xiàn)每個(gè)硬盤的不同塊組成一個(gè)raid條目。通過(guò)分析后解析出來(lái)raid條目信息,發(fā)現(xiàn)每個(gè)LUN都有一份LUN_MAP。由于EVA將LUN_MAP分別存放在不同的磁盤中,用一個(gè)索引來(lái)指定其位置,因此在磁盤中找出這個(gè)指定LUN_MAP位置的索引就可以找到現(xiàn)存LUN的信息。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將故障存儲(chǔ)中所有硬盤連接到北亞企安數(shù)據(jù)恢復(fù)平臺(tái)上,以只讀方式將硬盤數(shù)據(jù)鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始數(shù)據(jù)造成二次破壞。
2、通過(guò)故障分析確定硬盤掉線的原因是讀寫不穩(wěn)定,被控制器踢出掉線。這些掉線的硬盤中有一部分?jǐn)?shù)據(jù)是老舊數(shù)據(jù),LUN使用的是RAID5,只需要將一個(gè)LUN的RAID條目通過(guò)RAID5的校驗(yàn)算法算出校驗(yàn)值,再和原有的校驗(yàn)值做比較就可以判斷這個(gè)條目中是否有掉線盤。
將一個(gè)LUN的所有LUN_MAP都校驗(yàn)一遍就可以知道這個(gè)LUN中的哪些RAID條目中有掉線盤。在這些RAID條目中都存在的那個(gè)盤就一定就是掉線盤。排除掉線盤后根據(jù)LUN_MAP即可恢復(fù)所有LUN的數(shù)據(jù)。由北亞企安數(shù)據(jù)恢復(fù)工程師編寫相對(duì)應(yīng)程序來(lái)實(shí)現(xiàn)這個(gè)方案,根據(jù)編寫好的程序去實(shí)現(xiàn)不同的功能:
a、編寫程序掃描全部LUN_MAP,結(jié)合人工分析獲取到LUN_MAP。
b、編寫檢測(cè)RAID條目的程序檢測(cè)所有LUN中掉線的磁盤,結(jié)合人工分析排除掉線的磁盤。
c、編寫LUN數(shù)據(jù)恢復(fù)程序,結(jié)合LUN_MAP恢復(fù)所有LUN數(shù)據(jù)。
恢復(fù)出所有LUN的數(shù)據(jù)后由人工核對(duì)每個(gè)LUN,驗(yàn)證是否和用戶方工程師描述的一致。
3、根據(jù)用戶方工程師描述,所有LUN的數(shù)據(jù)可以分成兩部份:1、Vmware的虛擬機(jī);2、HP-UX上的裸設(shè)備,裸設(shè)備存放Oracle的dbf數(shù)據(jù)庫(kù)。由于通過(guò)恢復(fù)出來(lái)的LUN無(wú)法看到里面的文件,因此需要人工核對(duì)哪些LUN是存放Vmware的數(shù)據(jù),哪些LUN是HP-UX上的裸設(shè)備。核對(duì)完成后將不同的LUN掛載到不同的驗(yàn)證環(huán)境中進(jìn)行驗(yàn)證。
4、將所有存放vmware虛擬機(jī)數(shù)據(jù)的LUN里面的虛擬機(jī)文件都生成出來(lái),通過(guò)NFS共享的方式掛載到虛擬主機(jī)上,然后將虛擬機(jī)一個(gè)一個(gè)添加到清單。所有虛擬機(jī)加電開(kāi)機(jī)后都能啟動(dòng)系統(tǒng)。用戶方工程師親自對(duì)虛擬機(jī)里面的數(shù)據(jù)進(jìn)行驗(yàn)證沒(méi)有發(fā)現(xiàn)問(wèn)題。本次數(shù)據(jù)恢復(fù)工作完成。
服務(wù)器數(shù)據(jù)安全Tips:
1、定期巡查服務(wù)器&存儲(chǔ)設(shè)備,發(fā)現(xiàn)報(bào)警及時(shí)處理。
2、操作要謹(jǐn)慎,避免誤操作導(dǎo)致設(shè)備數(shù)據(jù)丟失。
3、如果發(fā)現(xiàn)EVA控制器模塊不穩(wěn)定,應(yīng)當(dāng)及時(shí)更換。
4、本案例中的EVA存儲(chǔ)故障是由磁盤讀寫不穩(wěn)定導(dǎo)致的,如果EVA存儲(chǔ)中所有磁盤(掉線和沒(méi)有掉線的)是同一批次,這些沒(méi)有掉線的磁盤也應(yīng)該快到極限,如果有條件建議更換掉這批磁盤。
審核編輯:湯梓紅
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4340瀏覽量
86009 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9262瀏覽量
85781 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
584瀏覽量
17555
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論