在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

質量視角下的系統穩定性保障--穩定性保障常態化自動化實踐

京東云 ? 來源:京東物流 翁美婷 ? 作者:京東物流 翁美婷 ? 2024-11-19 11:19 ? 次閱讀

作者:京東物流 翁美婷

一、前言

隨著系統數量增多,復雜度提高,線上應急問題時有發生;加之需投入大量人力進行服務治理和驗證,為了減少日常應急問題及提前排除風險,發起對生產系統的持續綜合性治理,實現常態化穩定性治理。在常態化治理過程中我們將識別問題等重復性有規律的工作實現自動化,技術人員更專注于解決問題。

wKgaoWc8A6SAY9UtAAB1kYm656o378.png

二、穩定性治理常態化

wKgZoWc8A6eACij3AAH7IfdLMRI455.png

保障穩定性治理常態化,部門組建了一支由研發團隊、測試團隊、架構師組成的穩定性治理隊伍,對部門核心應用,核心服務風險、服務器資源風險、日志風險、性能防劣化、以及技術專項等多維度持續風險識別和治理。

1、核心服務風險:重點關注服務響應時間TP99跳點、響應時間max跳點、可用率小于100%、秒級調用量1500次以上TP99性能等。

2、服務器資源風險:巡檢的服務器有應用服務器、DB、MDC、ES、Redis、Tidb、ClickHouse等;關注指標:CPU、內存、磁盤、網絡……;注意不同的服務器關注的指標側重點不同。

3、性能防劣化:針對服務和資源的性能指標分析峰值、趨勢、對比及偏差情況識別系統的劣化發生。服務維度:UMP調用量、響應時間、可用率;資源維度:主機CPU、內存、磁盤,數據庫慢SQL、QPS;其他中間件:JVM等。

4、日志風險治理:日志問題包含異常日志治理、日志規范性、日志清理及磁盤監控、日志級別動態配置等方面。

5、其他專項常態化:性能測試覆蓋日常架構升級、重點項目需求,安全測試針對代碼安全、組件安全、敏感接口、數據安全的專項測試,數據庫慢SQL、數據結轉、主從延遲等,針對內部外的應急問題架構和質量復盤借鑒,識別自身系統可以改進提升項。

此外,應急薄弱點專項、應急演練、接口限流風險等各類穩定性保障專項持續推進。

三、穩定性治理自動化

常態化治理的痛點:部門應用多,覆蓋全部應用耗費大量時間人力,當增加review項時,工作量大幅增加,落地難度增大。如何提升review效率和可落地性?

自動化解決問題

1、線上問題巡檢自動化,降低重復性人力工作,研發更專注于問題優化和高可用建設。

2、豐富風險項檢測,風險項擴充不會額外增加大量人力排查

3、部門全盤穩定性監控,問題檢測能力復用,從核心服務review復制到全量不需要增加人力。

wKgaoWc8A6eAWjEzAAEoKD5kVKI274.png

自動化過程

1、定義問題:明確指標,確定異常規則。在穩定性常態治理過程沉淀了一套覆蓋核心服務風險、服務器資源風險、日志風險、性能防劣化、以及其他專項的風險項和識別方法,這部分是問題的來源。

2、自動識別:自動巡檢,識別線上異常。數據來源于兩部分,已有的UMP、Logbook、MDC,此外來源還有壓測數據、SLA定義等。

3、閉環問題:工單跟進,提升閉環效率,通過問題線上報表跟蹤治理進度,每日/每周的定時巡檢,回歸驗證,檢驗修復效果。

四、治理實踐

從UMP異常、資源異常、性能防劣化、logbook異常關鍵字、等維度線上服務穩定性治理實踐案例。

1、UMP異常-可用率<100%

案例:

1、定義問題:可用率<100%

2、自動識別問題:獲取T+1的UMPkey監控數據,獲取可用率小于100異常點信息,統計可用率小于100的次數,最低可用率及對應的時間為輔助排查問題的依據。

3、問題跟進:UMP監控XXXServiceImpl.buildBusinessSummary可用率經常小于100%,排查因為正常業務問題未從方法監控ump可用率中剔除,通過主動上報提高報警精準度。

wKgZoWc8A6iASahzAAPqZQajJag676.png

2、資源異常-磁盤使用率風險

案例:

1、定義問題:磁盤使用率>80%

2、自動識別問題:獲取T+1的資源監控數據,獲取磁盤/和/export的磁盤使用率>80%信息,統計出現次數,最高利用率及對應的時間。

3、問題跟進:0級應用服務器磁盤使用超過80%,優化log4j配置,補充監控報警。

wKgaoWc8A6mAaIhpAAMZ19CfQGE644.png

3、Logbook關鍵字-空指針異常

案例:

1、定義問題:

log關鍵字分為程序類異常和業務類異常關鍵字:

(1)業務類異常:業務異常時主動輸出的錯誤日志,例如“下單失敗”,各系統根據需要自行打印和配置

(2)程序類異常:程序出現預期外的異常,自動拋出的錯誤日志,例如:NullPointerException

2、識別問題:某應用日志報空指針異常。

wKgZoWc8A6qAK41YAALpvu2aROc143.png


4、 性能防劣化-CPU劣化

案例:CPU劣化案例

2月5日11:00-19:20之間核心鑒權服務分組機器12臺服務器CPU使用率先后峰值13%到27%異常增長,并持續高于日常值,對外提供服務無明顯異常,客戶無感知。對服務JVM分析發現,頻繁FullGC引起CPU升高,打印堆棧信息某中間件占用內存1.4G(JVM共4G),經與中間件團隊溝通當前版本存在線程池資源無法釋放問題。

wKgZoWc8A6uANZS2AAJB--UnzJQ710.png

五、結語

通過自動化的方式每日對線上核心UMP、Logbook、主機、數據庫、ES、Redis風險進行巡檢,降低人工review工作量。穩定性治理重在持續,過程中可能會遇到痛點和艱難,值得技術人用技術不斷提升。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自動化
    +關注

    關注

    29

    文章

    5581

    瀏覽量

    79283
  • 系統穩定性
    +關注

    關注

    0

    文章

    8

    瀏覽量

    6910
收藏 人收藏

    評論

    相關推薦

    智能測徑儀:高穩定性成就高精測量之選!

    環境保持穩定的測量性能。它以其高度的準確性和可靠性,為生產過程中的直徑測量提供了堅實的保障。 精準測量是高穩定性智能測徑儀的核心優勢之一。無論是微小的零件還是大型的工件,它都能夠快速
    發表于 06-05 17:30

    系統開環判斷閉環穩定性

    閉環系統的開環傳遞函數可以用來判斷閉環系統穩定性,也就是奈奎斯特穩定性判據。第一種說法:如果開環傳遞函數穩定(S復平面不存在右極點),若頻
    發表于 09-05 17:04

    阿里巴巴測試環境穩定性提升實踐

    摘要: 測試環境是研發/測試同學最常用的功能,穩定性直接影響到研發效率,那如何提升測試環境的穩定性?阿里巴巴應用與基礎運維平臺高級開發工程師張勁,通過阿里內部實踐,總結了一套測試環境穩定性
    發表于 03-07 17:18

    如何提高lwip的穩定性

    如題、如何提高lwip的穩定性,目前用的是f107+lwip1.4.1目前系統運行一段時間后lwip就掛掉啦(時間很不固定)問題;應主要從那幾個方面來提高穩定性,懇請大家指點一二,小弟在此不勝感激
    發表于 07-09 23:36

    電力系統中的電壓穩定性介紹

      電力系統中的電壓穩定性定義為電力系統在正常條件和受到干擾后在系統中的所有總線上保持可接受電壓的能力。在正常工作條件
    發表于 04-21 16:14

    電感的穩定性

    電感的穩定性 穩定性是表示電感線圈參數隨環境條件變化而改變的程度。通常用電感溫度系數αL 來評定線圈的穩定程度,它表示電感量相對淚度的穩定
    發表于 08-22 14:33 ?1562次閱讀

    系統穩定性

    現代控制理論-5.系統穩定性
    發表于 12-13 22:20 ?0次下載

    電力系統中電壓穩定性與攻角穩定性問題的研究及綜述

    穩定性問題是電力系統中一個復雜的問題。隨著大系統互聯方興未艾,同時市場之后的電力系統在經濟性的驅動
    發表于 11-08 16:39 ?10次下載

    整流電路交流輸電系統穩定性的簡單分析與提高穩定性的措施

    輸電系統運行的穩定性,是輸電系統安全可靠運行的重要因數 隨著輸電系統規模的擴大,輸電距離和輸送容量大大增大,系統
    發表于 12-06 04:22 ?2229次閱讀

    什么是熱電偶穩定性?如何檢測熱電偶穩定性

    在規定的條件,熱電特性變化大即表明穩定性差,變化小則表明穩定性良好。熱電偶的穩定性好壞會直接影響到熱電偶測量的準確性,因此,穩定性是衡量熱
    發表于 12-31 09:19 ?2638次閱讀
    什么是熱電偶<b class='flag-5'>穩定性</b>?如何檢測熱電偶<b class='flag-5'>穩定性</b>?

    如何測試ERP系統穩定性

    一個軟件的穩定性對企業的工作產生著重要的影響,ERP系統如果在使用過程中安全性出現問題的,可能會導致數據的缺失,這將會影響決策。那么如何測試ERP系統穩定性呢?下面一起來了解一
    發表于 05-13 17:00 ?1033次閱讀

    怎么分析電路的穩定性

    怎么分析電路的穩定性?? 電路的穩定性是指電路在不同條件保持穩定的能力。穩定性是電路設計中十分重要的一個方面,因為
    的頭像 發表于 09-17 16:44 ?1975次閱讀

    如何在電壓不穩的情況保障SSD的穩定性能?

    如何在電壓不穩的情況保障SSD的穩定性能?
    的頭像 發表于 11-24 15:50 ?650次閱讀
    如何在電壓不穩的情況<b class='flag-5'>下</b><b class='flag-5'>保障</b>SSD的<b class='flag-5'>穩定性</b>能?

    自動控制原理怎么判斷系統穩定性

    自動控制原理是研究控制系統行為和性能的科學。穩定性是控制系統的一個重要性能指標,它描述了系統在受到擾動后能否恢復到平衡狀態的能力。 1.
    的頭像 發表于 07-29 10:28 ?1871次閱讀

    反射內存卡是如何保障數據傳輸的穩定性

    反射內存卡數據傳輸穩定性保障
    的頭像 發表于 11-14 10:21 ?168次閱讀
    反射內存卡是如何<b class='flag-5'>保障</b>數據傳輸的<b class='flag-5'>穩定性</b>的
    主站蜘蛛池模板: 天天干夜夜笙歌| 欧美另类高清| 亚洲免费视频网址| 国产免费的野战视频| 丝袜美腿一区| 日本三级最新中文字幕电影| freesexvideo性残疾| 欧美在线性| 色佬网| 真实的国产乱xxxx在线| 天天爽夜夜爽夜夜爽精品视频| 免费观看黄色网| 四虎精品永久在线网址| 4hc44四虎www亚洲| ssswww日本免费网站片| 日韩在线视频免费观看| www.黄网| jzzjlzz亚洲乱熟在线播放| 日韩城人视频| 视频网站免费看| 最色成人网| 色国产精品| 午夜影院一区二区三区| 日本一区二区免费在线观看| 男人的天堂一区二区视频在线观看| 人人干人人干| 亚洲黄色色图| 亚洲永久免费视频| 免费在线观看一区二区| 黄色三级在线看| 在线视频永久在线视频| 三级黄色一级视频| 天天干天天看| 亚洲四虎在线| 伊人天天干| 99精品国产在热久久| 成人久久精品| 日韩孕交| 岛国最新资源网站| 亚洲光棍天堂| 国产色爽女|