服務器數據恢復環境:
DELL POWEREDGE某型號服務器中有一組由6塊SCSI硬盤組建的RAID5陣列,LINUX REDHAT操作系統,EXT3文件系統,存放圖片文件。
服務器故障&分析:
服務器raid5陣列中有一塊硬盤離線,管理員沒有及時發現,直到服務器raid5陣列中的另一塊硬盤掉線,raid5陣列癱瘓,服務器無法正常工作。管理員聯系DELL售后,DELL工程師建議將其中一塊離線硬盤強制上線并強調了該操作的風險性。和領導的商量后,管理員將其中的一塊離線盤強制上線。上線過程中發現服務器操作系統啟動異常,管理員于是馬上關閉服務器。
此類故障非常普遍。RAID5陣列僅支持一塊硬盤掉線的冗余保護,如果有兩塊硬盤離線,RAID5陣列便會崩潰。為了保護數據,RAID控制器廠商的設計思路為:只要有硬盤下線,RAID控制器是不會自動讓離線硬盤上線的。由于RAID控制器的高敏感度,通常掉線的硬盤大概率不會存在嚴重的物理故障,甚至很多離線硬盤是完好的(掉線原因可能是信號受阻、電源波動或控制器BUG等)。正如DELL工程師強調的,強制上線有較大的風險性,如果強制上線出現問題,RAID控制器會自動做出某些不可逆操作。這個時候進入操作系統,文件系統的不一致會造成系統進行自我修復,然后導致所有的硬盤數據不一致。
服務器數據恢復過程:
1、將故障服務器中所有磁盤編號后取出,以只讀方式做扇區級別的鏡像備份,后續的數據分析和數據恢復操作都基于鏡像文件進行,備份后將所有磁盤按照編號還原到原服務器中。在備份過程中發現多塊硬盤存在壞道,只是RAID控制器沒有檢測到,暫時沒有下線。
2、基于鏡像文件分析原RAID5陣列的結構,根據分析出來的RAID結構相關信息構建虛擬RAID。
3、驗證RAID結構的正確性,北亞企安數據恢復工程師修復部分被破壞的結構后將數據導出到另一存儲中。
4、在原服務器上搭建新的RAID并將數據遷移至新RAID中。
5、用戶通過抽樣檢測,絕大部分圖片文件可以正常打開,只有有極少數文件有問題,用戶認可數據恢復結果。
審核編輯 黃宇
-
服務器
+關注
關注
12文章
9204瀏覽量
85548 -
數據恢復
+關注
關注
10文章
577瀏覽量
17486 -
磁盤
+關注
關注
1文章
379瀏覽量
25212 -
RAID5
+關注
關注
0文章
121瀏覽量
12737
發布評論請先 登錄
相關推薦
評論