互聯網+時代對傳統運維帶來新的挑戰,維護單位需要做好數以萬計的設備管理,實現設備故障快速定位,需要維護海量的設備配置信息,滿足負責的業務服務以實現快速的業務響應,降低人工操作成本并保證支撐質量,做好相關運維資源的有效運營,是中國聯通IT運營平臺亟待解決的問題。從中國聯通運維支撐系統建設現狀出發,對中國聯通IT運營平臺建設思路進行探討,從系統定位、能力需求,技術路線等多方面對平臺功能需求、技術架構、系統框架等方面進行研究,進而提出相應的IT運營平臺建設方案。
1
研究背景
經過多年的建設,中國聯通已建成OSS2.0。作為集中化的運營支撐系統,OSS2.0形成了全網集中的智能監控、電子運維、移網業務保障、客服支撐等核心應用,具備全國統一的資源管理能力、全網O域大數據分析能力,有力支撐了全國運維工作的集約化改革,切實提升了網絡運營效率與效益。
1.1 運維支撐系統建設現狀
中國聯通總部運維支撐系統現狀如圖1所示。其中應用和能力管控系統共有26個,控制層網管系統15個。
圖1 中國聯通總部運維支撐系統現狀
1.2 系統需求背景
中國聯通IT運維現狀如下:
a) 缺乏統一的IT管控平臺,每個系統對IT層面的管理水平參次不齊,獨立維護。
b) 管理單元突增,缺少配套的管理手段。
c) 數據分散且無法動態準確維護,依靠人工臺賬進行管理。
d) 維護單位人員之間在運維活動的協同基本依靠電話、短信及第三方通信軟件溝通,無法做到歷史留存以及運維閉環。
e) 虛擬化技術、云化技術、容器技術、集群化技術的應用導致監控采集數據海量增長,存儲和計算能力不足,且缺乏有效利用。
f) 運維工作不規范,缺少制度化和流程化的電子支撐手段。
g) 大部分維護工作還是依靠維護人員手工操作,依靠運維人員的經驗,效率有待提升。
h) 傳統相對靜態的閾值設定方式,無法根據業務趨勢變化而動態變化,導致預警不準確。
i) 業務系統復雜度增加,伴隨新技術的發展與應用,新生系統的部署與監控方式更加復雜,對監控策略及配置的靈活性要求更高。
j) 隨著SDN/NFV、5G、物聯網、AI、NB-IoT等新技術不斷發展,業界標準組織、國內外運營商等,也積極進行著網絡轉型及下一代運營支撐系統的研究,中國聯通也提出了5G戰略、CubeNet2.0戰略、物聯網+戰略等積極適配網絡的轉型。從業務角度,也向下一代運營系統提出了新的需求,面向管理,需要實現數據端到端的閉環呈現及管理;面向客戶,需要提供按需隨選的服務,實現實時響應、操作便捷;面向運維,需要提供自動化、智能化的運維保障支撐,以縮減人工,簡化流程、縮短處理時長。網絡新技術的演進、運營的變革以及IT技術本身的發展,使得未來運營系統應具備“智能運維、網絡使能、能力開放、業務編排”特征,以便更充分地發揮未來網絡的技術優勢,支撐整體網絡效率的提升。
2
建設思路
2.1 技術要求
IT系統在迅猛發展的同時,對于IT系統的運維管理的要求同步發展。最早期缺乏有效運維系統支撐時依靠人工方式,維護效率低下、錯誤率高,后來有了ITIL(information Technology Infrastructure Library)開始成體系地進行運維管理,缺點是流程較長、效率低下。再后來從被動運維向主動運維轉換(ITOM),敏捷開發與自動化運維相互結合的開發運維一體化(DevOps),運維大數據分析輔助運維決策(ITOA)。目前運維領域正嘗試將人工智能技術引入運維管理,從而實現以AI為中樞調度同時關注效率、質量與成本的無人運維。
根據IT運維管理的技術發展方向,中國聯通新建的IT運維平臺應以業務運營支撐需求為驅動,建立規范化的流程支撐體系。近期目標著眼于支撐業務運營并鞏固IT運營支撐的核心競爭力,中長期目標集中于積極探索轉型IT運營。
新建的IT運維平臺實現一體化管理,被動向主動轉變、應用向業務轉變;由被動工具型運維向主動管理型運營轉變;從保證應用系統安全、穩定、可靠運行,向支撐業務全生命周期的體驗、效率和效益的能力轉變。全面提供IT業務運營支撐能力,加強前后端運營支撐的協作,建立靈活的支撐模式。
2.2 系統定位
中國聯通總部需建設一套向各級管理單位與合作伙伴提供統一的IT運營與運維服務能力的運營支撐系統。
a) 中國聯通總部IT運營平臺定位。中國聯通總部IT運營平臺是對運維工作中的計劃、組織、實施、控制、升級、改造、需求等工作進行合集管理,為產品生產、運維、服務創造密切相關的各項管理工作提供集中自動化、智能化、運營化的平臺。
b) 中國聯通總部IT運營平臺與OSS2.0總部系統、省分運維系統關系。中國聯通總部IT運營平臺作為OSS2.0及省分系統之上的系統,對總部智能監控、沃網絡、電子運維、資源管理、客服支撐、統一采集與指令適配等OSS2.0系統及省分系統提供管理手段和運營支撐工具。
2.3 建設思路
具體建設目標:通過技術運營的手段,推進運營體系向智能化運維轉變,實現四化的效果(可視化、標準化、自動化和智能化),最終實現AI調度中樞管理的質量、成本、效率三者兼顧的無人值守運維。
2.3.1 運維可視化
新建的IT運營平臺以配置管理數據庫為核心,以監控管理(基礎設施監控、應用監控、日志監控)為手段,通過網絡掃描以及機器學習等自動發現技術,將系統抽象、龐雜、海量的數據、IT物理機房、邏輯架構以及業務流程以數據驅動的直觀圖的形式呈現在人們眼前,實現“數圖互換,全棧監控”。
運維人員通過直觀圖,按圖索驥,在架構圖中精準定位,檢測告警、性能等各類信息,輔助排查故障。通過可視化運維的建設,避免了因IT系統運維人員的離職而造成“信息斷層”情況的發生,而且通過直觀圖,企業的管理層底層、決策層甚至是底層員工都能有效認知企業的IT架構,并隨時洞悉最新動態,從而高效地完成各類運維工作,并為運維自動化,智能運維(AIOPS)打下基礎。
2.3.2 運維標準化
制定基于IT服務管理(ITSM)的輕量級運維服務流程,再基于該流程建立線上支撐模塊,是運維過程中管理意識的落地與標準實現。規范日常運維工作,工作內容可留痕、可評估、可評價。
2.3.3 運維自動化
以IT運營管理場景化為目標,強化企業運維工具以及業務數據的整合。通過搭建場景,在場景中一站式整合各種管理要素,包括IT架構圖、運維數據、運維工具、處理規則等,模式化、場景化的整合管理,從而實現IT系統自動化部署、故障預處理、業務連續性保障、系統維護功能,達到高效的運營管理目的。
計劃建設或集成的運維工具包括:
a) 代碼管理:代碼管理工具具備對源代碼全生命周期管理的能力,主要功能包括代碼庫管理、代碼審計、版本審核。
b) 自動化測試:軟件自動化測試是在軟件發生變更后,可利用自動化測試工具按照事先制定的測試用例對變更后軟件進行測試,可以大大提高軟件變更上線的效率,減少測試工作量。
c) 自動巡檢:自動化運維模塊自動收集服務器的監控數據,對異常數據進行告警,并支持以接口形式將告警發送給ITMS進行派單處理,形成巡檢異常的閉環操作。
d) 自動化部署:自動化部署用于在操作系統安裝完成后的應用軟件安裝和升級,并根據實際運行狀態對IT資源進行縮擴容。
e) 批量自動化配置:將日常運維工作中存在的批量配置工作,根據特定運維場景固化為自動化腳本,由自動化運維模塊執行,可以大大降低人為操作失誤,降低維護復雜度,進而降低運維成本。
f) 故障預處理:設備發生故障或告警時,需要能夠根據預定義的故障處理規則自動連接故障設備進行預處理,預處理內容包括查詢操作和恢復操作。
g) 自動作業計劃:將具有自動化執行條件的作業計劃按照指定規則自動執行,再把執行結果上報給作業計劃管理模塊進行填報,進而最大程度地提高工作效率,提高運維工作水平。
2.3.4 運維智能化
充分利用大數據和AI技術,構建智能化運維管控模型,自動識別業務問題,簡化運維操作復雜度,持續改善IT系統健康狀況。
主要技術手段包括:
a) 基于知識圖譜技術建立運維知識庫,建立以事件為核心的全閉環運維問題處理模型和評價體系,通過問題事件的關聯推薦,把解決方法與經驗推送給運維人員,實現快速解決故障的知識支撐。
b) 通過根因分析、關聯分析、智能分析,實現對海量監控數據與歷史數據的關聯分析,利用決策推導和權重分析方法快速定位問題原因。
c) 通過異常檢測、動態基線、故障預測、指標預測,自動發現時間序列數據中的異常波動,提高復雜IT環境下的檢測能力,有效發現故障,實現風險預測。
d) 通過告警抑制,統一告警管理,實現告警風暴的有效抑制和告警消息的統一管控,減少大量告警對運維人員的干擾,提高運維工作的效率。
2.4 技術架構
平臺技術架構如圖2所示。
圖2 IT運營平臺技術架構
IT運營平臺采用開放式微服務架構,支持無狀態事務化處理,能夠獨立運行且靈活橫向擴展,支持當下新技術的應用,具有持續迭代發展的能力,能夠不斷滿足未來發展的需要。
接口服務層:通過豐富的接口支撐實現IT資源的資源數據采集、資源部署、資源開通交付、資源運行保障等完善的生命周期管理。
數據層:支持多元化數據結構,滿足海量數據實時消費的場景。
消息傳輸層:通過Kafka實現各功能模塊之間的消息交互、調用與服務能力的整合。
功能層:采用集群式框架,實現單元模塊的負載均衡,平臺能力可橫向擴展支持微服務化。
展現層:前臺技術基于輕量級、跨平臺、多元化、組件化的設計理念,實現互聯網化的站點模式。
2.5 系統框架
中國聯通總部IT運營平臺為總部一級系統,對總部與省分IT資源進行統一管理,對總部智能監控、沃網絡、電子運維、資源管理、客服支撐、統一采集與指令適配等OSS2.0系統及省分系統提供管理手段和運營支撐工具。
IT運營平臺集成框架支持各系統間的低耦合部署,配置管理通過對外接口實現IaaS、PaaS、SaaS層配置數據的采集;監控系統和運維自動化根據配置管理的資源數據,實現對設備應用、網絡、硬件、日志、動環設備的數據采集、監控、告警、故障處理經驗,并具備了日常運維自動化的功能;同時把故障處理經驗存儲到知識庫中進行管理,為運營分析提供應用性能、設備性能、告警數據和業務數據等分析數據。
根據IT運營支撐管理要求和應用性能、設備性能等分析數據為管理部門提供了綜合展示的工具,為運維人員提供了統一的門戶操作界面。流程管理貫穿IT運營支撐的各個環節,為IT運營工作提供了流程化的管理;安全管理實現了系統的分權分域和用戶管理的功能。
運營平臺的能力包括:配置信息管理能力、全棧監控能力、標準化輕量級運維流程能力、應用發布管理能力、運維自動化能力、安全管控能力、知識分享與學習能力。
建議建設的模塊功能如下。
a) 配置管理。配置管理即管理全量資源的可配置項。向整個系統內提供統一的資源數據消費服務,在消費過程中持續改善數據質量。通過完善配置模型形成立體化資源配置管理,實現全面準確的資源信息管理覆蓋,支持多種資源數據獲取和維護手段,建立資源全生命周期管控流程保證數據的完整性與一致性。
b) 監控管理。對網絡設備、主機、數據庫、中間件、存儲、應用、業務、虛擬化等資源信息、告警信息、性能及運行狀態的統一監控和管理。
c) 流程管理。建設一套完整的運維支撐體系流程,對人員、技術、流程進行高效管理。具備快速適應總部IT運營業務支撐需求的能力,能夠從人員、技術和流程3個方面提高IT運營能力,確保高質量地完成IT運營工作。
d) 自動化運維。構建一個模塊化、可全部覆蓋各資源類型 、支持以可視化方式管理和定義其操作腳本、操作步驟和邏輯,能自動發現故障自動解決的閉環運維自動管理運維平臺。具備作業計劃、巡檢、測試、部署等日常重復性運維工作自動化的能力。
e) 安全管理。實現統一的用戶管理、認證、授權,日志管理及應用系統接入,提供全流程、全時段、全場景的全生命周期的安全運維支撐。具備統一的安全管理窗口,實現人員和資源的統一管理,訪問權限和運維操作安全的權限及認證管理,運維操作的安全審計和可追溯性。
f) 知識庫管理。專題知識庫將傳統人工整理總結知識和互聯網手段結合,進一步擴充知識庫的內涵與外延,提高用戶的問題自解決率,降低工單量,減少后臺支撐壓力,節省平臺運維成本。
g) 運營分析。引入大數據技術,如IT運維過程中生產的業務數據、日志數據、用戶訪問與偏好數據,來對IT運營進行全生命周期、多維度的分析,并將分析結果用于應用開發與優化、隱患的整改等方面。IT運維數據集中化,支撐運營分析管理的場景,提供端到端分析的能力。
h) 統一門戶。統一門戶是進入IT運營支撐系統的統一通道,基于界面集成技術,面向不同的角色可自定義定制分析場景,為領導決策、監控運維、運營分析提供不同的工作臺視角。
i) 綜合展示。提供移動展示、大屏展示、Web展示。
3
結論
伴隨建立互聯網化網絡運營支撐體系的發展規劃,中國聯通適配網絡IT化演進,構建開放網絡服務體系IT運營平臺,整合集中、持續優化,建成行業領先的IT技術支撐體系,支撐運行維護信息共享、高效運營,實現信息化與運營模式的有機融合等行為,有利于支撐企業戰略實現。
-
互聯網
+關注
關注
54文章
11163瀏覽量
103430 -
IT
+關注
關注
2文章
866瀏覽量
63551 -
中國聯通
+關注
關注
12文章
3648瀏覽量
61653
原文標題:中國聯通IT運營平臺建設思路探討
文章出處:【微信號:C114-weixin,微信公眾號:C114通信網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論