RGF算法+遷移學習精確預測硬盤故障。《Predicting Disk Replacement towards Reliable Data Centers》由IBM研究院發表于數據挖掘頂會議KDD 2016。磁盤是當今數據中心中最常見的硬件設備,也是最易發生故障的設備。盡管有如RAID的防御機制,系統的可用性和可靠性仍然經常嚴重沖擊。 本文采用RGF算法和遷移學習精確預測硬盤故障從而判斷硬盤是否應該更換。其方法對硬件設備的故障預測有借鑒意義。
互聯網迅速發展,網絡服務數量驟增, 大規模海量數據存儲系統是必不可少的支持。雖然新的存儲介質例如SSD,已經在讀性能等很多方面擁有了比磁盤更好的性能,但就目前來講,其高昂的花費使大部分數據中心難以負擔。因此,大型數據中心依然采用傳統的以磁盤為主的存儲系統。這樣做采購成本上雖然有了節省,但磁盤頻繁損壞導致的數據丟失給企業帶來的損失也是不可忽視的重大問題。
據美國63個數據中心組織進行的一項研究顯示,數據中心的停機費用在過去幾年中顯著增加,從2010年的5600美元/分鐘增加到2016年的8851美元/分鐘。以往基于磁盤SMART屬性建立的各種磁盤故障預測模型,雖然取得了一定的效果,但是其在SMART屬性選擇、準確性以及模型的復用性上存在不足之處。
因此,本文提出了一個自動、精確的磁盤故障預測的方法,判斷磁盤在接下來一段時間內需不需要替換。下面兩個圖展示的是有無替換預測的磁盤可用性示意圖。左圖代表的是傳統的磁盤異常檢測,磁盤狀態開始變差后才檢測到磁盤故障,這時的可用性已經降到了最低才開始更換磁盤。右圖展示的是使用磁盤故障預測的情況,首先系統判斷磁盤的狀態即將要變差,然后工程師在磁盤可用性降低之前更換磁盤。通過這兩個圖的對比,我們可以看出提前預測磁盤故障可以降低故障對系統可用性的沖擊。
磁盤故障預測的挑戰
但是,磁盤故障預測,存在如下挑戰:
不是所有的SMART屬性都與磁盤故障相關。因為缺乏SMART屬性對磁盤狀態指示的標準,所以需要從SMART屬性中選擇與一部分磁盤故障相關的屬性,作為故障預測模型的輸入。
磁盤故障數據高度不平衡。隨著時間的推移,健康磁盤的SMART數據量一直在增加,但是只有一小部分磁盤(2%)被替換,即被替換的磁盤數據非常少。分類算法通常最大限度地提升整體精度,少數類所包含的信息就會很有限,從而難以確定少數類數據的分布,即在其內部難以發現規律,進而造成少數類的識別率低。
不同類型的磁盤SMART存在差異。SMART是特定于制造商的,它們的編碼和標準化在制造商之間差別很大,所以不能使用同一個預測性模型來判斷不同型號的磁盤。下面兩個圖展示的是不同類型磁盤的SMART數據差異,其中左圖表示的是溫度,右圖表示的是開機關機的周期,從兩個圖的對比可以看出,不同類型的磁盤SMART確實存在差異。
設計思想
本文分為如下五步來解決故障預測的挑戰:
選擇SMART屬性。使用突變點(changepoint)檢測的方法對SMART屬性分類,選擇與磁盤替換相關的SMART屬性。
生成時間序列。使用指數平滑來生成簡化但是信息豐富的時間序列。
解決數據不平衡性。通過欠抽樣(downsampling)選擇具有代表性的健康磁盤的數據,然后用這些數據來代表全部的健康磁盤,從而使健康磁盤與替換磁盤的比例達到平衡。
對磁盤狀態分類。RGF是一個分類算法,可以將磁盤的狀態分成0/1的狀態,如果當前時間序列被分成1狀態,則認為磁盤即將出現故障,需要更換磁盤。
遷移學習。考慮到同一廠商生產的不同磁盤模型之間也存在一定差異,本文使用了遷移學習的方法,從而利用某種磁盤上訓練的模型來預測同一廠商的其他磁盤的故障替換情況。
1、選擇SMART屬性
因為SMART數據是隨著時間的增長而生成的,所以文中是通過時間序列突變點(changepoint)檢測來確定SMART與磁盤替換的相關性。當被替換的磁盤SMART時間序列中某個SMART屬性發生突變,而且這個轉變是永久性不可恢復的,那么可以認為這個屬性與磁盤替換是相關的。
下圖展示的是SMART_187_raw(無法糾正的錯誤)的折線圖,這是報告給操作系統的無法通過硬件ECC校正的錯誤。如果數據值不為零,就應該備份磁盤上的數據了。從圖中可以看出在第50天的時候,SMART_187_raw值突然增大,即第50天為突變點。
通過檢測每一個SMART屬性,本文得到了下表中展示的結果(只展示部分結果)。在表格中,SgtA和HitA分別表示希捷和日立的磁盤型號,Ratio表示磁盤替換前該屬性值出現突變的比例。我們可以看出有些SMART屬性確實與磁盤替換無關,而且對于不同型號的磁盤,與磁盤替換事件相關的SMART屬性是不相同的。
2、生成時間序列
經過第一步的SMART屬性值的挑選,下一步需要做的是生成預測模型可以使用的時間序列。使用時間序列作為模型的數據是基于如下三點考慮的:
每天的數據都是不穩定的,可能某天的SMART數據缺失。
磁盤具有一定的自恢復性,不能根據某一天的數據來判定磁盤接下來一段時間的狀態。
如果只看某一天的數據,則無法提前一段時間來預測磁盤故障,也就無法留出充足的時間給工程師更換磁盤。
所以本文使用指數平滑的方法來生成時間序列,S_t=α·Y_t+(1-α)·S_(t-1)是指數平滑的公式,其中α是平滑參數,Y_t是之前t個數據的平滑值。α越接近1,平滑后的值越接近當前時間的數據值。指數平滑不舍棄過去的數據,而是僅給予逐漸減弱的影響程度,即隨著數據的遠離,賦予逐漸收斂為零的權數。
3、解決數據不平衡性
遇到不平衡數據時,以總體分類準確率為學習目標的傳統分類算法會過多地關注多數類,而使少數類樣本的分類性能下降。因為這些算法大多數建立在各類數據分布平衡的假設之下,以尋求數據總體分類準確率為最大目標。而在磁盤故障預測的場景下,磁盤故障的數量是遠遠小于正常磁盤的。本文使用了欠抽樣(downsampling)的方式來平衡數據。
具體做法是這樣的,對健康磁盤的時間序列樣本做K-means聚類,聚類之后每一個類別中樣本都是相似的,然后選擇距離聚類中心最近的n個點作為健康磁盤樣本的抽樣結果。
4、對磁盤狀態分類
本文使用了RGF算法對磁盤狀態分類。RGF 算法是一個分類算法,它是GBDT(梯度提升決策樹)算法最好的變種之一。針對 GBDT 每次迭代只優化新建樹以及過擬合的問題,RGF使用了正則化的全局優化貪心搜索改進算法:
每次迭代直接對整個貪心森林進行學習
新增決策樹后進行全局的參數優化
引入顯式的針對決策樹的正則項來防止過擬合
文中對比了RGF與其他分類算法的分類結果,上表中的P、R、F分別表示準確率(precision)、召回率(recall)、F-分數(F-score)。從表中可以看出,RGF的效果是最好的。
5、遷移學習
同一廠商生產的不同磁盤模型之間也是存在差異的。本文發現,不同磁盤模型之間具有相似的SMART屬性,但相同的SMART屬性之間的數據分布不同。因此,直接將訓練集磁盤模型上建立的預測模型用于同一廠商生產的其他磁盤模型的故障預測,不能達到最好的預測效果。
首先我們來說明遷移學習中的兩個重要概念,域(domain)和任務(task)。如下圖所示。
域(domain):包括特征空間(feature space)X和邊緣概率分布(marginal probability distribution)P(x), x ∈X。例如,一組圖片中的所有可能顏色構成一個特征空間,而各種顏色出現的頻率則為邊緣概率分布。
任務(task):給定一個域,任務還包含兩個要素,標簽空間(label space)y和預測函數(predictive function)f(·)=P(y|x)。例如,一組圖片中可能出現的所有元素構成一個標簽空間,而通過預測函數可以得出某幅特定圖片中包含哪些元素。
同一廠商生產的不同磁盤模型之間具有一定的關聯性,但它們之間存在樣本選擇偏差(sample selection bias)。即不同種磁盤模型之間雖然具有大量的重疊特征,但源數據實例(帶標簽的訓練數據)和目標數據實例(無標簽的測試數據)的分布不同。因此,作者采用了基于實例的遷移學習方法來消除源數據和目標數據之間的樣本選擇偏差,從而將某種磁盤上訓練的模型應用于其他磁盤上。
具體的,對于兩種磁盤模型1和2,將帶標簽的磁盤1實例與無標簽的磁盤2實例放在一起。訓練一個分類函數,使f(x)表示一個磁盤屬于模型1或模型2的概率。利用分類函數f對帶標簽的訓練數據集進行重新采樣,從而消除樣本選擇偏差,使訓練集與測試集數據服從同一分布。此時,根據重新采樣的訓練集,利用前文所述的RGF算法訓練出函數,g(x)代表該類型磁盤的一個實例需要進行替換的概率。由于重新采樣的訓練集與測試集服從相同的數據分布,因此可將預測函數g直接應用于同一廠商生產的其他磁盤模型上(測試集)。
作者分別使用兩個廠商生產的磁盤的數據集SgtA和HitA訓練模型,并使用遷移學習的方法將兩種模型分別應用于同廠商的其他磁盤數據集SgtB和HitB上。上表分別展示了直接將模型 A應用于磁盤B上以及運用遷移學習方法將模型A應用于磁盤B的替換預測的準確率、召回率、F-分數。可以看出,應用遷移學習方法后,預測準確性得到了很大提高,從而大大減少了需要訓練的模型數量。
總結
本文介紹了一套自動、精確的磁盤故障預測方法,用于判斷磁盤在接下來一段時間內是否需要替換。通過選擇SMART屬性、生成時間序列、解決數據不平衡性等步驟,將磁盤故障預測轉化為對時間序列數據的分類問題。之后使用RGF算法對磁盤狀態進行分類,從而找出可能發生故障的磁盤。對于同一廠商生產的不同型號的磁盤,采用遷移學習的方法進行處理,在保證預測準確性的同時減少模型訓練開銷。最后,文中采用不同廠商、多種類型的磁盤SMART數據驗證該方法,達到了較高的準確率和召回率。
-
IBM
+關注
關注
3文章
1760瀏覽量
74762 -
磁盤
+關注
關注
1文章
379瀏覽量
25235 -
機器學習
+關注
關注
66文章
8428瀏覽量
132841
發布評論請先 登錄
相關推薦
評論