倒計時1天!
2023華為金融網絡創新峰會
邀您相聚云南,共話金融數字化
凝新聚智 網行天下!
隨著金融科技發展和數字化轉型深化,線上業務、移動銀行等業務飛速發展,帶動數據中心網絡規模和流量飛速增長,網絡運維和網絡安全保障的復雜度與難度也日益提高。同時金融業務連續性要求7*24小時不中斷,金融賬務、交易等可回溯性要求高,也要求數據中心運維更加智能和高效。為此中國農業銀行(簡稱“農行”)在ABC ONE+網絡新三年規劃的指導下,全面開啟業務網絡一體化智能運維的研究探索,并率先通過流量回溯與分析系統的創新和優化,突破性實現網絡端到端流量采集、業務路徑還原和實時智能分析,為金融科技發展和數字化轉型保駕護航。
金融數字化轉型背景下的
運維趨勢與挑戰
互聯網、云計算和大數據的發展促使數據中心的基礎架構和管理對象正在發生天翻地覆的變化。一方面基礎架構改變,云化和服務器資源池化驅動網絡虛擬化發展,多云多地多數據中心成為諸多大行和股份制銀行的選擇。數據中心流量飛速增長,并從傳統“南北向流量為主”向“東西向流量為主”轉變,數據中心運維的規模和復雜度日益提升。另一方面管理對象改變,數據中心從傳統的集中式大小機逐步轉向分布式架構,運維和管理的對象也從“傳統的主機、設備等物理硬件”轉向“應用、服務等軟件資源和數據”,數據中心運維的管理范圍和要求逐步提高。
在這種背景下,IT運維工具層出不窮,百花齊放。從傳統手動運維的“農耕時代”,到自動化運維的“工業時代”,再到智能運維的“智能時代”,運維技術在近幾年實現了跨越式發展。然而在金融行業實際的管理和運維中,因為缺乏運維系統的統一規劃,在面對時好時壞的業務體驗質量、復雜的應用遷移和上線策略,以及海量的日志告警,數據中心運維逐步暴露出一些問題,例如:
業務與網絡映射關系看不清:傳統網絡流量采集大多在物理設備旁路流量鏡像方式實現,無法向下打開虛擬網絡邊界,造成網絡監測盲點;而網絡運維工具更關心網絡自身的狀態,無法向上看到業務的整體性能,即便網絡感知到故障也無法判斷業務影響范圍。因此在實現業務互訪關系映射,以及實現Overlay網絡與Underlay網絡映射之后,如何實現業務狀態與網絡狀態的映射成為下一步業務與網絡可視化的難點。
業務故障定界定位判定慢:一個數據中心可能會出現十多個不同的業務和網絡管理系統,彼此之間猶如楚河漢界各自管理,并存在流量重復采集,以及信息不能有效聯動的問題。只有在收到故障告警需要聯合定位時,再進行人工協同判定問題出現的位置和原因,往往耗費數天,故障定界定位周期長、效率低。
現網質差類問題難復現:隨著數據中心分布式架構變化,現網因分布式“多打一”造成的微突發、丟包等質差問題層出不窮。此類問題在業務層面僅能感知到卡頓或者性能下降,在網絡層面因為缺少系統性的數據分析和評估,難以主動察覺和復現,事后排障也沒任何依據,只能手工檢查表項/告警等信息,耗時長且對技術要求高。因此網絡部門只能配合業務部門反復進行定位和分析,對網絡隱患系統性排查和提前識別提出了更高的要求。
因此,如何打破不同管理系統的責任邊界和管理范圍的桎梏,又不影響現網已有運維系統,是目前金融行業面臨的普遍的困難和挑戰。基于此,農行堅定地開啟了業務網絡一體化智能運維的新探索,并明確將全網端到端智能運維作為數據中心運維發展的路標和方向。
跨越式演進
農行首次打破業務與網絡運維邊界
2022年,為了打破業務與網絡的邊界,農行啟動業務網絡一體化智能運維探索。一方面主動梳理并摸排全行的運維痛點和問題,另一方面積極和華為等廠家交流,探索業界最新的技術和運維方向,吸取各家所長。最終,農行流量回溯分析系統由業務性能管理系統和網絡智能運維系統兩部分構成,并在該邏輯架構基礎上進行了如下創新實踐。
探索1:網絡運維能力服務化,狀態主動上送。為了快速向業務性能管理系統提供網絡數據,網絡通過100+全量API實現服務化,并全面開放網絡數據服務,通過拖拽式整合即可快速發布場景化API與上層業務性能管理系統對接,打破了傳統硬編碼開發的模式,大大縮短了系統間集成周期。
探索2:流量鏡像疊加,端到端路徑還原。為了對業務進行全面的質量保障,實現全面流量鏡像,農行在DC出口、Fabric出口、VAS設備互聯口等關鍵節點進行邊界出口全流鏡像,并由業務性能管理系統進行會話與網絡性能分析;在Fabric內部基于TCP特征報文進行ERSPAN流鏡像,并上送給網絡智能運維系統還原Fabric內轉發路徑。最后通過兩種流量鏡像疊加,實現了端到端鏡像和路徑還原,并支持鏡像流量的去重、解密和脫敏等,減輕分析段壓力。
探索3:
AI智能分析與推理,網絡風險智能評估。為了實現全量風險評估,網絡通過采集設備的ERSPAN流、Telemetry性能Metrics進行大數據分析,并結合AI算法主動感知網絡可能存在的故障,智能分析識別是否存在網絡或者應用的群體性故障,逐步實現故障主動感知、分鐘級故障定位定界的主動智能運維目標。
分鐘級根因分析
邁出端到端智能運維第一步
通過如上探索,農行流量回溯分析系統實現了“業務質量分析→網絡會話分析→網絡路徑分析→故障根因定位”的端到端立體化運維,能夠提供覆蓋Underlay與Overlay的業務和網絡性能分析能力;打通業務、會話、網絡問題分析路徑,快速發現并定位質差問題;同時滿足問題定界、全網路徑分析、質差主動感知等具體分析場景。最終達到了如下效果:
應用精細化性能管理,實時感知異常:農行流量回溯與分析系統支持對220+金融業務性能指標,包括交易量、交易成功率、交易時延等業務層指標的實時分析,可主動感知交易質量下降,一鍵追蹤全路徑交易并識別異常服務節點。
業務-會話-網絡E2E分析,分鐘級責任定界:實時感知業務異常后,農行流量回溯與分析系統支持將業務交易的全服務路徑與業務流的網絡轉發路況進行一鍵關聯,發現異常后可以跳轉到網絡智能運維系統進行聯合分析,打通業務-會話-網絡E2E分析路徑,快速進行責任定界。
智能故障根因分析,全網隱患主動排查:網絡智能運維系統采用規則引擎、智能化引擎、知識圖譜等技術進行大數據挖掘分析,對全網基礎資源統一建模,將網絡對象、事件、傳播關系進行聯合分析,推理網絡故障根因,實現對故障的分鐘級根因分析。同時通過AI算法將多個網絡指標進行關聯,提前識別網絡中可靠性、容量、性能、穩定性等隱患,統一評估全網潛在風險,由被動救火向主動運維轉變,降低故障發生概率。
農行流量回溯分析系統的創新實現了端到端智能運維的新突破,讓業務與網絡不再割裂,實現了業務和網絡運維數據的融合。未來,農行端到端智能運維將進一步從物理網絡、虛擬網絡向全棧云網絡演進,并進一步打通數據中心內、數據中心間,以及分支互聯的運維通道,實現全局全網一體化運維,提升整網運維管理效率和業務連續性水平,保障農行數字化轉型邁向新篇章。
點擊“閱讀原文”,了解更多華為數據通信資訊!
原文標題:2023華為金融網絡創新峰會 | 農行網絡流量回溯與分析實現新突破,探索端到端運維新模式
文章出處:【微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
-
華為
+關注
關注
216文章
34476瀏覽量
252074
原文標題:2023華為金融網絡創新峰會 | 農行網絡流量回溯與分析實現新突破,探索端到端運維新模式
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數據通信】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論