行業(yè)觀察
日前,移動(dòng)通信網(wǎng)絡(luò)行業(yè)發(fā)生了一起重大事故!
據(jù)外媒報(bào)道,歐洲電信運(yùn)營商“巨頭”沃達(dá)豐集團(tuán)表示,其在德國的移動(dòng)通信網(wǎng)絡(luò)于當(dāng)?shù)貢r(shí)間11月23日下午13:50突然出現(xiàn)大面積故障,造成柏林、漢堡、慕尼黑、科隆、法蘭克福和其他城市共計(jì)超過10萬手機(jī)用戶無法建立語音連接和數(shù)據(jù)連接(2G、3G、4G的數(shù)據(jù)和語音服務(wù)都受到宕機(jī)影響),直到17:00才恢復(fù)正常。
根據(jù)沃達(dá)豐集團(tuán)最新一期財(cái)報(bào),沃達(dá)豐德國子公司約有3000萬移動(dòng)通信用戶。此次故障中,有多達(dá)超過10萬用戶無法打電話和移動(dòng)上網(wǎng),所謂“眾口能鑠金”,超過20萬個(gè)睜到最大的憤怒圓眼和超過10萬個(gè)張到不能再大的嘴巴,以“壞事傳千里”之功力,使得該公司的品牌形象嚴(yán)重受損,一代巨頭瞬間遭受幾乎“香消玉殞”。
在這個(gè)移動(dòng)通信就像是水和電甚至像是空氣一樣的時(shí)代,更令上述超過10萬的受影響用戶極其抓狂的是,從13:50到17:00一共長(zhǎng)達(dá)190分鐘(11400秒)的時(shí)間,業(yè)務(wù)才全部恢復(fù)。
此次嚴(yán)重故障是由什么因素導(dǎo)致的?沃達(dá)豐反饋,網(wǎng)絡(luò)問題是由部署于慕尼黑、法蘭克福、柏林三地的“failure of control equipment”造成的。“failure of control equipment”就是“控制設(shè)備宕機(jī)”。從“控制設(shè)備”一詞,我們可以想到“控制面”,再進(jìn)一步考慮到外媒所報(bào)道的此次故障所波及的地域之廣大、所影響的用戶之眾多,可以判斷是核心網(wǎng)控制面出了嚴(yán)重故障。
核心網(wǎng),在2G、3G、4G網(wǎng)絡(luò)中所扮演的角色,就是“大腦”。一個(gè)動(dòng)物要是大腦死亡了,整個(gè)身體就都死亡了;同樣類比地,網(wǎng)絡(luò)的“大腦”——核心網(wǎng)掛了,整個(gè)網(wǎng)絡(luò)就停擺了,所以造成了上述故障具有兩大鮮明特點(diǎn):一是波及的地域廣大;二是整個(gè)故障存在的時(shí)間很長(zhǎng)——按照電信業(yè)務(wù)可靠性計(jì)算公式以及“99.999%可靠性”這一基本要求,一年中的業(yè)務(wù)中斷的時(shí)間加起來不得超過315秒,而這次一次就斷了11400秒!
所以德國沃達(dá)豐這個(gè)事件,在5G新基建、5G+千行百業(yè)發(fā)展得如火如荼的當(dāng)下,亟需及時(shí)地引起業(yè)界的深刻反思——①是否普遍足夠重視5G核心網(wǎng)的可靠性?②萬一5G核心網(wǎng)一旦出現(xiàn)了重大故障,能否讓行業(yè)客戶的業(yè)務(wù)“零”中斷(比如5G+政務(wù)/制造/交通/金融/電力等要求7×24在線)?若不能,如何及時(shí)補(bǔ)救?
敲響了“5G+千行百業(yè)”的巨大警鐘
這一起嚴(yán)重的事故,使得全球其他所有移動(dòng)通信網(wǎng)絡(luò)運(yùn)營商在為德國沃達(dá)豐感到同情和惋惜的同時(shí),也被嚇出一身的冷汗,尤其是那些正在規(guī)模部署5G網(wǎng)絡(luò)的數(shù)百家運(yùn)營商更是深感“如履薄冰”:
一是由于核心網(wǎng)是移動(dòng)通信網(wǎng)絡(luò)與IT深度融合的第一站,軟硬件解耦且軟件運(yùn)行于由通用硬件構(gòu)成資源池的虛擬化核心網(wǎng),其可靠性在德國沃達(dá)豐此次發(fā)生的重大事故中表現(xiàn)得甚為脆弱,說明除了硬件,軟件能力更顯重要。德國沃達(dá)豐和其他運(yùn)營商雖然目前比較重視面向ToC領(lǐng)域的5G網(wǎng)絡(luò)的可靠性,但是截至目前在相關(guān)方面的投資趨于謹(jǐn)慎(尤其是在對(duì)軟件可靠性的投資方面),一旦某一天萬一發(fā)生上述德國沃達(dá)豐之類的重大事故,這幾年下大力在大眾消費(fèi)者心中建立起來的5G高端品牌形象很可能頃刻崩塌,極不利于后續(xù)5G ToC發(fā)展。所以,這個(gè)事件說明對(duì)于5G核心網(wǎng)可靠性的投資絕對(duì)不只是單純的硬件投資,而應(yīng)該持續(xù)投資于對(duì)軟件可靠能力的增強(qiáng)。
二是更進(jìn)一步地,在5G時(shí)代,移動(dòng)通信網(wǎng)絡(luò)所承載的將更多(公認(rèn)是80%)是面向政企客戶的ToB類業(yè)務(wù),對(duì)于ToB領(lǐng)域而言,“保障5G網(wǎng)絡(luò)可靠”是最基本的要求,是5G進(jìn)入千行百業(yè)必須跨越的“門檻”,是“5G+千行百業(yè)”最為關(guān)鍵的前提,一旦5G核心網(wǎng)出現(xiàn)嚴(yán)重故障,帶來的各方面損失都將是上述德國沃達(dá)豐事件的N倍(N→+∞)——5G(含B5G)將來會(huì)被用在電力、金融、政務(wù)、工業(yè)4.0(比如智能制造)、(網(wǎng)路輔助的)自動(dòng)駕駛、遠(yuǎn)程醫(yī)療等關(guān)鍵領(lǐng)域,一旦5G核心網(wǎng)停擺,這些政企業(yè)務(wù)就會(huì)瞬間中斷,由此造成的后果將難以想象,會(huì)給社會(huì)經(jīng)濟(jì)甚至國家安全帶來重大損失。
截至目前,業(yè)界對(duì)于5G網(wǎng)絡(luò)的“安全性”以及“安全防護(hù)能力提升”的公開討論有很多,但幾乎沒有對(duì)于5G網(wǎng)絡(luò)(尤其是面向ToB領(lǐng)域的5G核心網(wǎng))“可靠性”的公開討論,說明對(duì)于5G核心網(wǎng)的可靠性尚未引起普遍化的重視。所以,德國沃達(dá)豐事件對(duì)于5G時(shí)代所敲響的巨大警鐘就是:對(duì)于事關(guān)商業(yè)、經(jīng)濟(jì)、社會(huì)和國家安全的5G新型基礎(chǔ)設(shè)施的建設(shè)運(yùn)營,除了要重視做好網(wǎng)絡(luò)安全防護(hù)外,更需加強(qiáng)對(duì)于運(yùn)行可靠性的深刻認(rèn)識(shí),全力避免因可靠性問題影響運(yùn)行效率和安全性。所以由此可以說,安全性是建立在可靠性的基礎(chǔ)之上的,不可靠才是最大的不安全!
構(gòu)筑起5G核心網(wǎng)磐石泰山般可靠性
堅(jiān)者如磐石,穩(wěn)者如泰山。在上述的5G新型基礎(chǔ)設(shè)施可靠性中,5G核心網(wǎng)的可靠性顯得最為重要,因?yàn)樗褪钦麄€(gè)5G網(wǎng)絡(luò)的“大腦”所在——5G網(wǎng)絡(luò)最為核心且對(duì)5G確定性能力負(fù)責(zé)的正是5G核心網(wǎng),在5G網(wǎng)絡(luò)端到端的質(zhì)量保障當(dāng)中,5G核心網(wǎng)承擔(dān)了對(duì)于全局資源的集中控制、調(diào)度和管理,負(fù)責(zé)管理全局的網(wǎng)絡(luò)拓?fù)洹⑺械慕尤?a target="_blank">信息、所有的用戶數(shù)據(jù)以及所有的行業(yè)業(yè)務(wù)需求;所以一旦5G核心網(wǎng)(其控制面集中部署于大區(qū)及省級(jí)數(shù)據(jù)中心)出現(xiàn)故障,受到影響的范圍將會(huì)極大。
“如何保障5G核心網(wǎng)的絕對(duì)可靠”是一個(gè)巨大的系統(tǒng)工程問題,但是仍然遵循“可靠性”相關(guān)的基本理論。
可靠性(%)=-t÷(e的MTBF次方)。其中,t為觀測(cè)的時(shí)間間隔,MTBF為平均故障間隔時(shí)間。可見,可靠性僅與MTBF有關(guān),電信級(jí)可靠性要達(dá)到99.999%,意味著一年的業(yè)務(wù)中斷時(shí)間不超過315 s,落實(shí)到系統(tǒng)上即“可用度”。
可用度(%)=MTBF÷(MTBF+MTTR)。其中MTTR為平均故障修復(fù)時(shí)間。可見,提高(5G核心網(wǎng))可用度,就要:①增加MTBF,即提高系統(tǒng)的容錯(cuò)能力,保障長(zhǎng)時(shí)間穩(wěn)定運(yùn)行;②減小MTTR,即在一旦突然出現(xiàn)故障之后,能夠快速發(fā)現(xiàn)故障并且瞬間(秒級(jí))排除故障。
綜上,要保障5G核心網(wǎng)的絕對(duì)可靠,就要做到:盡量穩(wěn)定運(yùn)行、不出故障,而一旦發(fā)生故障能夠瞬間精準(zhǔn)定位故障并秒級(jí)排除故障。
很顯然,這其中,最關(guān)鍵的就在于“能否秒級(jí)排除故障”。因?yàn)椴慌乱蝗f、就怕萬一。萬一5G核心網(wǎng)出現(xiàn)重大故障,能否做到讓用戶/客戶“零”感知?
目前,面向5G核心網(wǎng)可靠性,業(yè)界在網(wǎng)元級(jí)容災(zāi)(提升VNF可靠性)、單個(gè)數(shù)據(jù)中心(DC)內(nèi)容災(zāi)(比如硬件/資源池/多可用區(qū)/等IT級(jí)容災(zāi)以及機(jī)房/機(jī)樓等非IT級(jí)容災(zāi))、跨DC容災(zāi)方面均有解決方案。目前看來尚存在兩大較顯著的問題——軟件能力不夠高、跨DC容災(zāi)不夠強(qiáng)。
(1)亟需更強(qiáng)軟件能力
傳統(tǒng)核心網(wǎng)設(shè)備采用先進(jìn)電信計(jì)算平臺(tái)ATCA硬件,通過硬件傳感器檢測(cè)及內(nèi)部的軟硬件耦合通知機(jī)制來保證故障檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性(毫秒級(jí))。在引入NFV對(duì)核心網(wǎng)進(jìn)行軟硬件解耦改造后,VNF的可靠性應(yīng)不低于現(xiàn)有傳統(tǒng)物理模塊(功能)的可靠性。采用通用服務(wù)器后,應(yīng)用層(軟件)的可靠性不再依賴于底層構(gòu)筑,VNF只能靠軟件手段去檢測(cè)是否出現(xiàn)故障,NFV云化網(wǎng)元通過軟件機(jī)制實(shí)現(xiàn)故障檢測(cè)為秒級(jí),遠(yuǎn)低于傳統(tǒng)核心網(wǎng)的毫秒級(jí),所以從更好地保證整體網(wǎng)絡(luò)的可靠性的角度,5G核心網(wǎng)亟需更加強(qiáng)大的軟件能力,比如向無狀態(tài)化、更強(qiáng)數(shù)據(jù)庫、微服務(wù)、更魯棒的VNF組網(wǎng)及部署架構(gòu)等方向發(fā)展以便于彈性擴(kuò)縮容并提升電信級(jí)服務(wù)可靠性與可用性。
(2)亟需解決跨DC容災(zāi)3大關(guān)鍵薄弱問題
“跨DC容災(zāi)”一直是業(yè)界一大難題。主要表現(xiàn)在以下幾個(gè)方面。
● 跨DC的數(shù)據(jù)備份
要實(shí)現(xiàn)跨DC容災(zāi),必須要實(shí)時(shí)進(jìn)行用戶上下文數(shù)據(jù)備份(比如存儲(chǔ)用戶簽約數(shù)據(jù)、注冊(cè)信息的UDM等主要數(shù)據(jù)庫)。顯然,這要求進(jìn)行實(shí)時(shí)備份而且備份的數(shù)據(jù)越多越好以利于業(yè)務(wù)快速恢復(fù)。用戶上下文數(shù)據(jù)變化快,使得備份難度大。業(yè)界目前采取的備份方式下,備份時(shí)間長(zhǎng)(從而不利于一旦出現(xiàn)故障時(shí)備份到更多數(shù)據(jù)即不能保證數(shù)據(jù)備份的時(shí)效性與完整性)、數(shù)據(jù)量大(未經(jīng)壓縮)、對(duì)DC間鏈路的帶寬要求很高(因?yàn)閿?shù)據(jù)量大)。從而,現(xiàn)在亟需打造并部署能夠?qū)Υ齻浞輸?shù)據(jù)進(jìn)行壓縮的解決方案,以在大幅降低DC間鏈路傳輸備份數(shù)據(jù)的帶寬需求的同時(shí),保證數(shù)據(jù)備份的時(shí)效性與完整性以保障業(yè)務(wù)恢復(fù)的“零”影響。
一旦5G核心網(wǎng)出現(xiàn)故障,就要瞬間運(yùn)用備份到的數(shù)據(jù)去恢復(fù),千萬級(jí)甚至億級(jí)用戶的電信業(yè)務(wù)恢復(fù),帶來極大考驗(yàn)。主要體現(xiàn)在以下兩方面。
● 找到備份數(shù)據(jù)
運(yùn)用跨DC備份的數(shù)據(jù)去恢復(fù)用戶的電信業(yè)務(wù),第一步就是要找到用戶的備份數(shù)據(jù)。所以可見,“能否快速找到”是關(guān)鍵之中的關(guān)鍵。
下圖為5G核心網(wǎng)服務(wù)化架構(gòu),筆者在其中用紅色框標(biāo)準(zhǔn)了5G核心網(wǎng)控制面兩個(gè)極為重要的網(wǎng)元——控制層的AMF、數(shù)據(jù)層的UDM。
從上圖,我們一眼就可以看出AMF的不可或缺性——是用戶接入5G核心網(wǎng)的首個(gè)網(wǎng)元,是分組接入的一級(jí)關(guān)口,是提供5G網(wǎng)絡(luò)服務(wù)的前提,在用戶體驗(yàn)的保證上起著關(guān)鍵作用。從AMF的名稱“接入和移動(dòng)管理功能”更是能感受到其極端重要。
UDM則是5G SA網(wǎng)絡(luò)用戶的統(tǒng)一數(shù)據(jù)管理平臺(tái),主要用于存儲(chǔ)用戶的簽約數(shù)據(jù)、注冊(cè)信息,給AMF下發(fā)簽約數(shù)據(jù),存儲(chǔ)用戶當(dāng)前服務(wù)的AMF地址等,提供用戶簽約數(shù)據(jù)訪問、位置登記等功能。UDM一旦發(fā)生重大事故時(shí),會(huì)導(dǎo)致大范圍的業(yè)務(wù)中斷,影響巨大。
在5G核心網(wǎng)出現(xiàn)故障后,當(dāng)用跨DC備份的用戶上下文數(shù)據(jù)去恢復(fù)用戶的電信業(yè)務(wù)時(shí),千萬級(jí)乃至億級(jí)數(shù)量的用戶(將來“萬物互聯(lián)”后還可能是幾十億級(jí)的設(shè)備)同時(shí)接入AMF和UDM,勢(shì)必有瞬間產(chǎn)生信令風(fēng)暴的可能——如果在故障發(fā)生前備份了所有用戶的上下文數(shù)據(jù),則用戶新接入時(shí)不用去UDM取簽約數(shù)據(jù),業(yè)務(wù)恢復(fù)時(shí),信令就主要沖擊在AMF上;否則,在業(yè)務(wù)恢復(fù)時(shí),信令將沖擊到UDM網(wǎng)元——由于UDM主要能力在于數(shù)據(jù)存儲(chǔ),而信令能力弱,從而很容易引發(fā)過載。
一旦由此出現(xiàn)信令風(fēng)暴,將會(huì)導(dǎo)致網(wǎng)絡(luò)癱瘓,從而引發(fā)更多問題,何談“業(yè)務(wù)恢復(fù)”?電信業(yè)務(wù)有狀態(tài)的特點(diǎn),不同于IT業(yè)務(wù)的數(shù)據(jù)備份,還需要更新上下文相關(guān)的隧道、通道、鏈路層的多層網(wǎng)絡(luò)信息,需要超越標(biāo)準(zhǔn)流程,更新周邊網(wǎng)絡(luò)的信令鏈路、路由通道等。目前,業(yè)界采用的是通用數(shù)據(jù)庫,以海量廣播報(bào)文尋找用戶備份數(shù)據(jù),會(huì)產(chǎn)生信令風(fēng)暴。從而,現(xiàn)在亟需打造并部署能夠避免路由廣播、不會(huì)產(chǎn)生信令風(fēng)暴的可實(shí)現(xiàn)“一步到位找到用戶備份數(shù)據(jù)”的解決方案。
● 恢復(fù)數(shù)據(jù)狀態(tài)
找到了用戶的備份數(shù)據(jù),接下來就是恢復(fù)數(shù)據(jù)狀態(tài)從而恢復(fù)用戶的電信業(yè)務(wù)。在這一個(gè)非常重要的環(huán)節(jié)中,更是不能出現(xiàn)故障,否則前面的環(huán)節(jié)全都會(huì)白做,功虧一簣。目前,業(yè)界的解決方案是從單VNF恢復(fù)數(shù)據(jù),會(huì)出現(xiàn)CPU單點(diǎn)過載,容易出現(xiàn)二次故障。從而,現(xiàn)在亟需打造并部署能夠從多個(gè)VNF恢復(fù)數(shù)據(jù)的方案——于其中,通過多個(gè)VNF的均衡處理來大幅降低單VNF壓力。
深謀遠(yuǎn)慮未雨綢繆力保未來網(wǎng)絡(luò)可靠
在5G時(shí)代,2G和3G將逐步減頻退網(wǎng),最終很快形成4G、5G長(zhǎng)期共存的格局,共同服務(wù)于“萬物智聯(lián)”(比如基于4G LTE的NB-IoT),所以現(xiàn)在宜未雨綢繆,布局網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)化、網(wǎng)絡(luò)資源可靈活動(dòng)態(tài)共享、軟件平滑演進(jìn)的融合型核心網(wǎng),并布局4G網(wǎng)絡(luò)高可靠容災(zāi)與恢復(fù)方案,同時(shí)高度重視軟件能力加固,增加預(yù)算大力持續(xù)投資核心網(wǎng)軟件可靠能力,全力保障未來網(wǎng)絡(luò)的高可靠。
責(zé)任編輯:xj
原文標(biāo)題:反思!通信業(yè)重大事故
文章出處:【微信公眾號(hào):5G】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
通信
+關(guān)注
關(guān)注
18文章
6043瀏覽量
136152 -
沃達(dá)豐
+關(guān)注
關(guān)注
0文章
184瀏覽量
18441 -
5G
+關(guān)注
關(guān)注
1355文章
48479瀏覽量
564828
原文標(biāo)題:反思!通信業(yè)重大事故
文章出處:【微信號(hào):angmobile,微信公眾號(hào):5G】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論