當網絡問題并不復雜,并且當大家都來自同一個組織的時候,專家團隊方法能夠有效地對事故作出響應。但近年來,隨著基礎架構云端化,相關利益主體分布在不同的部門、公司和地理區域,針對網絡事故和業務應用性能問題的根本原因分析(RCA)變得越發困難。
為滿足服務水平協議(SLA)要求并防止客戶流失,快速查明根本原因已成為許多企業的首要任務。但是,據《Emulex可視性調查》表明,79%的企業曾經將事故發生的原因錯誤地歸咎于某個IT部門,這不僅增添了混亂程度,還推遲了解決問題的時間。
針對以上問題,本文將介紹一個由數據包分析驅動的故障域隔離(FDI)方法,幫助企業進行故障檢修并解決網絡和應用性能問題。
外包成為主流
即使整個基礎架構由一家企業所有,要充分了解整個基礎架構的實際狀態也會非常困難。更何況,當外包業務迅速擴張時,端到端業務應用就會逐漸出現許多盲點。如果整個技術層都被外包出去,就會出現一個巨大的盲點,導致您無法在該技術域內進行RCA。為了順應技術外包的趨勢,企業必須清楚地區別事故響應工作流程中FDI階段與RCA階段的目的和要求。
什么是FDI?
FDI的理念很簡單,任何看過病的人都不難理解,它跟醫療保健領域的“事故調查”流程在本質上相似。首先,一名全科醫生會進行初步評估、安排診斷測試并評估結果。然后,患者將接受專科醫生的檢查,而且只有在證據充分、可以確定病情時才會進行其他診斷和治療。診斷過程以事實而不是以猜測作為依據。
部署FDI的企業希望最大限度地減少參與每次事故調查的技術專家的人數和類型,這就是FDI需要在RCA之前進行的原因。這樣做的目的是為了在開始深入分析根本原因之前找到一個可疑的技術層。為什么要按技術進行隔離呢?一是因為IT部門和外包業務通常是按技術劃分的,二是因為這樣有助于快速減少參與人員的數量。由于只會牽涉到一個故障域,技術隔離可以避免整個部門及外部企業由于接受調查而導致業務停頓。這就好比您不會讓一名神經外科醫生來檢查腳趾骨折一樣。
FDI的一個主要目的是防止調查過程中“相互推諉”的現象。要使FDI更為有效,必須提供確鑿的證據,證實某個“可疑”子系統或技術層是導致問題的根本原因。同時,還需要確認任何其他子系統或技術層不可能是問題的根源所在。當故障域位于外包技術中時,這一點尤為重要。
在將問題移交給負責的團隊或服務提供商處理的時候,有效的FDI還有助于提供與特定技術相關、可付諸行動的數據,這將為技術團隊提供相關情景、癥狀和信息,以便他們立即針對其所負責的系統進行深入的根本原因分析。
圖1: 事故響應流程
只需要一組事實
為保證其效率及有效性,FDI需要根據在技術層之間交換的實際數據包進行分析。數據包不會“撒謊”,它們也不會掩蓋平均值或統計數據中的關鍵細節。以基本數據包作為證據可以確保FDI流程找到對于事故具有不可推卸責任的故障技術層。
“首要FDI”指的是將事故交予特定技術團隊或外包服務提供商。它的目標相對簡單,即在少數部門、團隊以及外包服務商中分配事故,因而是一種極為經濟的實施方法。在實際操作中,它涉及的技術層、網絡中的分路點以及在每個技術層之間進行監控的網絡記錄器均相對較少。
什么原因導致了延遲?
當人們認真地進行RCA并且有自信確定問題所在的時候,人們就可以降低成本并縮短解決問題的時間。當負責處理問題的人員擁有正確評估原因及解決問題的專業技能時,RCA就能達到最佳效果。
在前文,我們提到以數據包為導向的FDI流程能夠有效加快事故調查并減少參與人員數量。此外,FDI不需要很多分路器和設備即可對主要技術層進行隔離,從而實現其首要目標——僅指派相關的人員參與事故調查。那么,為什么很多重大事故調查仍然需要召開專家小組會議呢?
問題在于,有的人認為,僅僅依靠若干分路器和網絡記錄器不足以完全解決復雜的事故。您知道嗎?他們的看法是正確的。但是,這并不是事故調查流程FDI階段的目標,該階段的目標是隔離故障。通過基本數據包以及數據包分析的流程,您可以簡單有效地實現這一目標。
分而治之
首要/一級FDI流程會將事故隔離到由企業內部結構和外包安排所定義的單一技術層。要達到首要FDI的最佳效果,我們需要:1) 使用網絡記錄工具監控和儲存技術層之間產生的網絡流量;2) 通過應用事務分析(Application Transaction Analysis)來進行故障隔離。數據包存儲對于高效的FDI所依賴的回顧性分析(Back-in-time Analysis)至關重要。
您可能已經猜到,FDI是一個可以分層部署的“分治”流程。您還可以在每個技術層次中進行FDI,從而進一步隔離問題,直到高效完成RCA。這個過程可以稱為“層內FDI”或“輔助FDI”。
輔助FDI工作流程尤其適用于網絡事故調查。同理,為達到FDI的最佳效果,我們需要監控并儲存關鍵網絡組件之間的實際數據包流,從而進行有效的回顧性分析。
如果以網絡內FDI作為目標,則需要了解應在哪些位置部署網絡分路器和網絡記錄工具。首要FDI與網絡內FDI之間的主要區別在于觀察點的位置更多與物理位置、技術、員工專業技能以及外包程度和外部提供商有關,與組織問題關系不大。但是,FDI流程較為類似:執行基于數據包的分析以提供確鑿證據,從而確定哪些技術或服務提供商存在問題、哪些不存在問題。
始終運行還是始終可用?
我們不希望等到發生重大事故時才開始部署執行FDI所需的分路器和監控工具,這將與FDI的初衷背道而馳。因此,我們應部署并始終運行執行主要/一級FDI所需的分路器和網絡記錄工具。
但是,如何執行輔助/技術內FDI呢?如何處理遠程站點、地區性數據中心和非關鍵性應用呢?您不可能四處進行分路,也無法儲存一切內容。
幸運的是,人們開發了許多網絡記錄工具,以滿足主要技術層之間的“始終運行”記錄需求,以及通過網絡數據包代理連接到眾多二級分路點的“始終可用”記錄需求。始終可用的設備不一定能夠保證長期的回顧可視性,但您可以在需要時快速配置這些設備,根據當前事故調查的特定可視性需求進行監控。
如此簡單?
那么,FDI真的像我們所說的那么簡單嗎?我們需要辯證地回答這個問題。很顯然,在現代企業聯網業務應用基礎架構這樣復雜的動態系統中,可能會出現各種反常、復雜甚至是匪夷所思的問題。您始終需要對這些類型的問題進行深入調查,并利用專家的技能和知識來加以解決。但這并不能說明FDI與有效解決這些負載問題無關。事實上,這些問題使一個嚴格、可重復、由數據驅動的FDI流程更為重要了。要解決復雜問題,為什么不采用FDI這種久經考驗的“分治”方法呢?
責任編輯:gt
-
驅動
+關注
關注
12文章
1844瀏覽量
85405 -
架構
+關注
關注
1文章
517瀏覽量
25502
發布評論請先 登錄
相關推薦
評論