服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某品牌X系列服務(wù)器,4塊SAS硬盤組建了一組RAID5陣列,還有1塊磁盤作為熱備盤使用。服務(wù)器上層安裝的linux操作系統(tǒng),操作系統(tǒng)上部署了一個(gè)基于oracle數(shù)據(jù)庫(kù)的OA(oracle已經(jīng)不再為該OA系統(tǒng)提供后續(xù)服務(wù)支持)。
服務(wù)器故障:
raid5中一塊磁盤離線,熱備盤未自動(dòng)激活rebuild(原因不明)。服務(wù)器在運(yùn)行一段時(shí)間后,另一塊磁盤離線,RAID5陣列崩潰。用戶方要求盡可能恢復(fù)服務(wù)器操作系統(tǒng)和服務(wù)器中的數(shù)據(jù)。
將故障服務(wù)器中所有磁盤編號(hào)后取出,硬件工程師檢測(cè)后沒(méi)有發(fā)現(xiàn)有磁盤(包括離線的2塊磁盤和熱備盤)存在明顯的物理故障。熱備盤完全沒(méi)有啟用,無(wú)明顯同步表現(xiàn)。
服務(wù)器數(shù)據(jù)恢復(fù)方案:
1、將所有磁盤以只讀方式進(jìn)行扇區(qū)級(jí)的全盤鏡像,鏡像完成后將所有磁盤按照編號(hào)還原到原服務(wù)器中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析RAID5結(jié)構(gòu),獲取到RAID5條帶規(guī)則、條帶大小、校驗(yàn)方向、META區(qū)域等raid結(jié)構(gòu)相關(guān)信息。
3、根據(jù)獲取到的RAID結(jié)構(gòu)信息虛擬重構(gòu)RAID5。
4、解釋虛擬磁盤及文件系統(tǒng)。
5、檢測(cè)重構(gòu)的raid5結(jié)構(gòu)是否正確,如不正確,重復(fù)2-4過(guò)程。
6、檢測(cè)raid5結(jié)構(gòu)沒(méi)有問(wèn)題以及數(shù)據(jù)無(wú)誤后,按用戶要求回遷數(shù)據(jù)。
服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、在對(duì)故障服務(wù)器中磁盤做鏡像時(shí),發(fā)現(xiàn)后離線的那塊磁盤有十幾個(gè)壞扇區(qū),其余磁盤沒(méi)有發(fā)現(xiàn)有壞道。
2、基于鏡像文件分析獲取raid5結(jié)構(gòu)相關(guān)信息。
北亞企安數(shù)據(jù)恢復(fù)——Raid5數(shù)據(jù)恢復(fù)
3、根據(jù)獲取到的raid結(jié)構(gòu)信息虛擬重組raid5,重組完成后驗(yàn)證數(shù)據(jù),發(fā)現(xiàn)200M以上的壓縮包解壓沒(méi)有報(bào)錯(cuò),由此可以確定分析出來(lái)的raid5結(jié)構(gòu)正確。
4、按照該raid5結(jié)構(gòu)生成虛擬RAID到一塊單硬盤上,打開(kāi)文件系統(tǒng)沒(méi)有出現(xiàn)報(bào)錯(cuò)。
5、確定備份包沒(méi)有問(wèn)題和經(jīng)過(guò)用戶方的同意后,用新硬盤更換存在壞扇區(qū)的那塊磁盤,然后對(duì)原盤重建RAID。
6、將恢復(fù)好的單盤用USB方式接入故障服務(wù)器,用linux SystemRescueCd啟動(dòng)故障服務(wù)器,然后使用dd命令進(jìn)行全盤回寫。
7、dd所有數(shù)據(jù)后,啟動(dòng)操作系統(tǒng),無(wú)法進(jìn)入操作系統(tǒng)桌面并出現(xiàn)報(bào)錯(cuò),報(bào)錯(cuò)信息為:“/etc/rc.d/rc.sysinit:Line 1:/sbin/pidof:Permission denied”,北亞企安數(shù)據(jù)恢復(fù)工程師初步判斷此文件權(quán)限有問(wèn)題。用SystemRescueCd重啟后檢查,發(fā)現(xiàn)此文件時(shí)間、權(quán)限、大小均有明顯錯(cuò)誤,很顯然節(jié)點(diǎn)損壞。
8、重新分析重組數(shù)據(jù)中的根分區(qū),定位出錯(cuò)的/sbin/pidof/,發(fā)現(xiàn)出錯(cuò)是由磁盤壞道導(dǎo)致的。
9、北亞企安數(shù)據(jù)恢復(fù)工程師使用3塊完好的磁盤對(duì)后離線、存在壞道的那塊磁盤的損壞區(qū)域進(jìn)行xor補(bǔ)齊。補(bǔ)齊后重新校驗(yàn)文件系統(tǒng)依然有錯(cuò)誤。再次檢查inode表,發(fā)現(xiàn)后離線、存在壞道的磁盤的損壞區(qū)域有部分節(jié)點(diǎn)表現(xiàn)為(55 55 55部分):
北亞企安數(shù)據(jù)恢復(fù)——Raid5數(shù)據(jù)恢復(fù)
很明顯,雖然節(jié)點(diǎn)中描述的uid正常存在,但屬性、大小、最初的分配塊全部是錯(cuò)誤的。北亞企安數(shù)據(jù)恢復(fù)工程師按照所有可能性進(jìn)行分析,確定無(wú)法找回此損壞節(jié)點(diǎn)。只能修復(fù)此節(jié)點(diǎn)或者復(fù)制一個(gè)相同的文件過(guò)來(lái)。
10、針對(duì)所有可能有錯(cuò)的文件,通過(guò)日志確定原節(jié)點(diǎn)塊的節(jié)點(diǎn)信息,再做修正。
11、修正后重新dd根分區(qū),執(zhí)行fsck -fn /dev/sda5/進(jìn)行檢測(cè),依然報(bào)錯(cuò)。
北亞企安數(shù)據(jù)恢復(fù)——Raid5數(shù)據(jù)恢復(fù)
12、根據(jù)報(bào)錯(cuò)提示,在系統(tǒng)中發(fā)現(xiàn)有多個(gè)節(jié)點(diǎn)共用同樣的數(shù)據(jù)塊。按照提示分析底層,發(fā)現(xiàn)存在節(jié)點(diǎn)信息的新舊交集。
13、按節(jié)點(diǎn)所屬的文件進(jìn)行區(qū)別,清除錯(cuò)誤節(jié)點(diǎn)后,再次執(zhí)行fsck -fn /dev/sda5進(jìn)行檢測(cè),依然有極少量的報(bào)錯(cuò)信息。根據(jù)報(bào)錯(cuò)提示,發(fā)現(xiàn)這些節(jié)點(diǎn)多位于doc目錄下,不影響系統(tǒng)啟動(dòng)。直接執(zhí)行fsck -fy /dev/sda5/強(qiáng)行修復(fù)。
14、修復(fù)完成后重啟系統(tǒng),成功進(jìn)入操作系統(tǒng)桌面。
15、啟動(dòng)oracle數(shù)據(jù)庫(kù)服務(wù),啟動(dòng)應(yīng)用軟件,一切正常,無(wú)報(bào)錯(cuò)。
16、用戶方對(duì)操作系統(tǒng),oracle數(shù)據(jù)庫(kù)以及OA數(shù)據(jù)進(jìn)行檢測(cè),經(jīng)過(guò)多部門的反復(fù)檢測(cè),確認(rèn)恢復(fù)數(shù)據(jù)完整可用。本次數(shù)據(jù)恢復(fù)工作完成。
審核編輯 黃宇
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9218瀏覽量
85579 -
數(shù)據(jù)恢復(fù)
+關(guān)注
關(guān)注
10文章
578瀏覽量
17505 -
RAID5
+關(guān)注
關(guān)注
0文章
121瀏覽量
12737
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論