服務器存儲數據恢復環境:
某品牌MSA2000FC存儲中有一組由7塊盤組建的RAID5陣列,另外還有1塊硬盤作為熱備盤使用。
基于RAID5陣列劃分的幾個LUN分配給小機使用,存儲空間通過LVM管理,重要數據為Oracle數據庫及OA服務端。
服務器存儲故障:
RAID5陣列中2塊硬盤離線,唯一的熱備盤成功激活,RAID5陣列還是變得不可用,上層LUN無法使用。
服務器存儲數據恢復過程:
1、將故障存儲中所有磁盤標記后取出,由硬件工程師對所有磁盤做物理故障檢測,檢測后沒有發現有磁盤存在物理故障,都可以正常讀取。以只讀方式將所有磁盤進行扇區級全盤鏡像,鏡像過程中沒有發現有磁盤存在壞道。
北亞企安數據恢復—vxfs文件系統數據恢復
2、由于所有磁盤經過檢測都不存在物理故障或者壞道,基本上可以判斷磁盤掉線的是磁盤讀寫不穩定造成的。故障存儲的控制器通常會將某些性能不穩定的磁盤識別為壞盤,并踢出RAID。而一旦RAID中掉線的盤數達到該RAID級別允許掉盤的極限,這個RAID將變得不可用,上層基于RAID的LUN也無法正常使用。
基于鏡像文件分析所有磁盤底層數據,獲取到重組raid所需信息(RAID級別,條帶規則,條帶大小,校驗方向,META區域等)并找到熱備盤和2塊掉線硬盤的掉線順序,然后根據這些信息重組RAID。
3、raid重組完成后分析LUN在RAID中的分配情況,以及LUN分配的數據塊MAP,將每一個LUN的數據塊分布MAP提取出來。北亞企安數據恢復工程師編寫程序解析所有LUN的數據MAP,然后根據數據MAP導出所有LUN的數據。
北亞企安數據恢復—vxfs文件系統數據恢復
4、分析所有LUN,發現所有LUN中均包含LVM邏輯卷信息。嘗試解析每個LUN中的LVM信息,一共發現三套LVM:第一個LVM中劃分了一個LV,存放OA服務器端的數據;第二個LVM中也劃分了一個LV,里面存放臨時備份數據;剩下幾個LUN組成一個LVM,也劃分了一個LV,里面存放Oracle數據庫文件。北亞企安數據恢復工程師編寫解釋LVM的程序,將每套LVM中的LV卷都解釋出來,但是解釋過程中出現錯誤。
5、分析程序報錯的原因,由開發工程師debug程序出錯的位置。文件系統工程師檢測恢復出來的LUN,檢測LVM邏輯卷的信息是否損壞。經過檢測,發現LVM信息確實因為存儲癱瘓而損壞。嘗試人工修復損壞的區域,并同步修改程序,然后重新解析LVM邏輯卷。
6、搭建環境,將解釋出來的邏輯卷映射到小機,并嘗試掛載文件系統,結果文件系統掛載出錯。嘗試使用“fsck –F vxfs” 命令修復vxfs文件系統,修復后還是無法掛載。數據恢復工程師懷疑vxfs文件系統的元數據被破壞,需要修復。
7、分析解析出來的LV,根據VXFS文件系統的底層結構校驗此文件系統的完整性。經過分析發現底層VXFS文件系統果然有問題,部分文件系統元文件損壞。人工修復這些損壞的元文件,保證VXFS文件系統能夠正常解析。將修復好的邏輯卷掛載到小機上,并嘗試掛載文件系統。這回沒有報錯,成功掛載。
8、在小機上掛載上文件系統后,將所有用戶數據備份至指定空間。
北亞企安數據恢復—vxfs文件系統數據恢復
9、使用Oracle數據庫文件檢測工具“dbv”檢測每個數據庫文件的完整性,沒有發現錯誤。使用北亞企安自主開發的Oracle數據庫檢測工具檢測,發現部分數據庫文件和日志文件校驗不一致。修復此類文件并再校驗,直到所有文件校驗均通過。
10、將恢復出來的Oracle數據庫附加到原始生產環境的小機中,嘗試啟動Oracle數據庫,Oracle數據庫啟動成功。
北亞企安數據恢復—vxfs文件系統數據恢復
11、在用戶方的配合下,啟動Oracle數據庫和OA服務端。在本地電腦上安裝OA客戶端,通過OA客戶端驗證最新的數據記錄以及歷史數據記錄,并且安排不同部門工作人員進行遠程驗證。經過仔細驗證,用戶方確認數據完整可用,認可數據恢復結果。
審核編輯 黃宇
-
服務器
+關注
關注
12文章
9160瀏覽量
85421 -
數據恢復
+關注
關注
10文章
573瀏覽量
17457 -
RAID5
+關注
關注
0文章
120瀏覽量
12726
發布評論請先 登錄
相關推薦
評論