作者:京東物流 翁美婷
一、前言
隨著系統數量增多,復雜度提高,線上應急問題時有發生;加之需投入大量人力進行服務治理和驗證,為了減少日常應急問題及提前排除風險,發起對生產系統的持續綜合性治理,實現常態化穩定性治理。在常態化治理過程中我們將識別問題等重復性有規律的工作實現自動化,技術人員更專注于解決問題。
二、穩定性治理常態化
保障穩定性治理常態化,部門組建了一支由研發團隊、測試團隊、架構師組成的穩定性治理隊伍,對部門核心應用,核心服務風險、服務器資源風險、日志風險、性能防劣化、以及技術專項等多維度持續風險識別和治理。
1、核心服務風險:重點關注服務響應時間TP99跳點、響應時間max跳點、可用率小于100%、秒級調用量1500次以上TP99性能等。
2、服務器資源風險:巡檢的服務器有應用服務器、DB、MDC、ES、Redis、Tidb、ClickHouse等;關注指標:CPU、內存、磁盤、網絡……;注意不同的服務器關注的指標側重點不同。
3、性能防劣化:針對服務和資源的性能指標分析峰值、趨勢、對比及偏差情況識別系統的劣化發生。服務維度:UMP調用量、響應時間、可用率;資源維度:主機CPU、內存、磁盤,數據庫慢SQL、QPS;其他中間件:JVM等。
4、日志風險治理:日志問題包含異常日志治理、日志規范性、日志清理及磁盤監控、日志級別動態配置等方面。
5、其他專項常態化:性能測試覆蓋日常架構升級、重點項目需求,安全測試針對代碼安全、組件安全、敏感接口、數據安全的專項測試,數據庫慢SQL、數據結轉、主從延遲等,針對內部外的應急問題架構和質量復盤借鑒,識別自身系統可以改進提升項。
此外,應急薄弱點專項、應急演練、接口限流風險等各類穩定性保障專項持續推進。
三、穩定性治理自動化
常態化治理的痛點:部門應用多,覆蓋全部應用耗費大量時間人力,當增加review項時,工作量大幅增加,落地難度增大。如何提升review效率和可落地性?
自動化解決問題
1、線上問題巡檢自動化,降低重復性人力工作,研發更專注于問題優化和高可用建設。
2、豐富風險項檢測,風險項擴充不會額外增加大量人力排查
3、部門全盤穩定性監控,問題檢測能力復用,從核心服務review復制到全量不需要增加人力。
自動化過程
1、定義問題:明確指標,確定異常規則。在穩定性常態治理過程沉淀了一套覆蓋核心服務風險、服務器資源風險、日志風險、性能防劣化、以及其他專項的風險項和識別方法,這部分是問題的來源。
2、自動識別:自動巡檢,識別線上異常。數據來源于兩部分,已有的UMP、Logbook、MDC,此外來源還有壓測數據、SLA定義等。
3、閉環問題:工單跟進,提升閉環效率,通過問題線上報表跟蹤治理進度,每日/每周的定時巡檢,回歸驗證,檢驗修復效果。
四、治理實踐
從UMP異常、資源異常、性能防劣化、logbook異常關鍵字、等維度線上服務穩定性治理實踐案例。
1、UMP異常-可用率<100%
案例:
1、定義問題:可用率<100%
2、自動識別問題:獲取T+1的UMPkey監控數據,獲取可用率小于100異常點信息,統計可用率小于100的次數,最低可用率及對應的時間為輔助排查問題的依據。
3、問題跟進:UMP監控XXXServiceImpl.buildBusinessSummary可用率經常小于100%,排查因為正常業務問題未從方法監控ump可用率中剔除,通過主動上報提高報警精準度。
2、資源異常-磁盤使用率風險
案例:
1、定義問題:磁盤使用率>80%
2、自動識別問題:獲取T+1的資源監控數據,獲取磁盤/和/export的磁盤使用率>80%信息,統計出現次數,最高利用率及對應的時間。
3、問題跟進:0級應用服務器磁盤使用超過80%,優化log4j配置,補充監控報警。
3、Logbook關鍵字-空指針異常
案例:
1、定義問題:
log關鍵字分為程序類異常和業務類異常關鍵字:
(1)業務類異常:業務異常時主動輸出的錯誤日志,例如“下單失敗”,各系統根據需要自行打印和配置
(2)程序類異常:程序出現預期外的異常,自動拋出的錯誤日志,例如:NullPointerException
2、識別問題:某應用日志報空指針異常。
4、 性能防劣化-CPU劣化
案例:CPU劣化案例
2月5日11:00-19:20之間核心鑒權服務分組機器12臺服務器CPU使用率先后峰值13%到27%異常增長,并持續高于日常值,對外提供服務無明顯異常,客戶無感知。對服務JVM分析發現,頻繁FullGC引起CPU升高,打印堆棧信息某中間件占用內存1.4G(JVM共4G),經與中間件團隊溝通當前版本存在線程池資源無法釋放問題。
五、結語
通過自動化的方式每日對線上核心UMP、Logbook、主機、數據庫、ES、Redis風險進行巡檢,降低人工review工作量。穩定性治理重在持續,過程中可能會遇到痛點和艱難,值得技術人用技術不斷提升。
審核編輯 黃宇
-
自動化
+關注
關注
29文章
5581瀏覽量
79283 -
系統穩定性
+關注
關注
0文章
8瀏覽量
6910
發布評論請先 登錄
相關推薦
評論