隨著人類社會的數(shù)字化進程不斷深入,“聯(lián)網”在今天已經是如“衣食住行”般的基礎需求,業(yè)務、運維、聯(lián)接的復雜度也與日俱增。通過引入AI,打造一張基于用戶體驗的智能化、全自動的網絡,成為電信行業(yè)的共同追求。
而在硬幣的另一面,一些問題也隨之浮出了水面。比如AI特性的規(guī)模應用面臨著模型泛化能力差、模型易老化、本地樣本少等諸多挑戰(zhàn),從而拖慢了AI在電信網絡中的整體普及速度。作為網絡轉型先驅者的華為,對此給出了“云地協(xié)同”這個答案。
“在將AI能力注入電信網絡的旅程中我們發(fā)現(xiàn),僅僅討論算法問題、考慮如何用數(shù)學解決業(yè)務問題是不夠的,還需要克服很多難點。比如一個模型如果不做管理和控制,半年時間精度就會下滑到原先的60%左右。我們希望‘把困難留給自己,把方便帶給客戶’,通過不斷創(chuàng)新來推動AI在電信行業(yè)的快速規(guī)模部署,這也是此次提出云地協(xié)同解決方案的初衷。”在華為全聯(lián)接大會2020期間的一場媒體圓桌上,華為網絡人工智能(NAIE)產品部總經理韓雨發(fā)表示,云端與地端的聯(lián)動,將使AI模型越用越準確。
活動上,他還發(fā)布了《AI使能自動駕駛網絡——華為iMaster NAIE網絡人工智能引擎技術白皮書》,該白皮書結合電信網絡智能化的市場趨勢大背景,闡述了華為在該領域的實踐落地,包括華為自動駕駛網絡解讀、NAIE網絡人工智能引擎以及典型應用場景探索等。
大勢所趨:將AI引入電信行業(yè)
從18世紀至今300余年間,世界通過三次工業(yè)革命,完成了機械化、電氣化、信息化的改造,每一次變革都驅動人類社會邁向新的發(fā)展紀元。如果說在21世紀還有哪一種技術可以和歷次工業(yè)革命中的先導科技相提并論的話,那一定是AI技術。
作為一項通用目的技術,AI在上世紀七十年代便與空間技術、能源技術一起被譽為“世界三大尖端技術”,同時亦與基因工程、納米科學一起被認為是“21世紀三大尖端技術”。經歷了60余年起起伏伏,近年來AI技術步入成熟增長期,越來越多地與現(xiàn)實世界產生了碰撞,并迅速成為適用于大部分經濟活動的基本生產力。
AI在電信行業(yè)同樣廣受青睞,產業(yè)上下游紛紛圍繞于此展開布局。在國內,中國移動發(fā)布了九天人工智能平臺,匯聚內外部優(yōu)秀AI能力,支撐移動各領域AI應用;中國電信致力于打造智能化“隨愿網絡”,通過AI賦能平臺和傳統(tǒng)設備的AI升級,改善用戶體驗、提升使用效率;中國聯(lián)通發(fā)布了網絡AI平臺Cube-AI智立方,以提升網絡智能水平、降本增效為目標。
在海外,西班牙電信發(fā)布了網絡AI架構與Fast OSS架構,逐步建立自身的AI用例開發(fā)及運維能力;法國電信以AI/數(shù)據(jù)為核心推動網絡智能化、重塑用戶體驗,作為2025戰(zhàn)略的關鍵目標;德國電信則利用AI/ML建立了逐漸演進、開源、非集中化、以自治網絡為目標的AI Program。
從ALL IP、ALL Cloud到ALL Intelligence,華為在電信網絡架構創(chuàng)新上的探索實踐從未停止。早在全云化戰(zhàn)略實施過程中便嘗試引入AI,以推動網絡的自動、自優(yōu)、自愈、自治。2018年9月,正式提出自動駕駛網絡(AND)和5級定義,將AI嵌入到底層網元、中間層網絡和上層云端乃至網絡的整個生命周期中,以此來實現(xiàn)網絡的“無人駕駛、永無故障”。2019年4月,正式發(fā)布iMaster NAIE網絡AI云服務,成為邁向自動駕駛網絡過程中的重要里程碑。
各大電信行業(yè)組織亦已將AI的應用推廣納入議程。比如TMF于2019年5月發(fā)布了自動駕駛網絡白皮書,并成立自治網絡工作組,今年2月對自動駕駛網絡技術架構立項。CCSA、3GPP、GSMA、ETSI等組織也陸續(xù)發(fā)布了自動駕駛網絡相關的研究建議、白皮書、案例報告等。
云地協(xié)同:加速AI特性規(guī)模應用
在產業(yè)界各方的積極推動下,AI技術已在電信網絡的規(guī)劃、建設、維護、優(yōu)化等各個環(huán)節(jié)開啟了使能之旅,目前主要聚焦解決感知預測、根因分析和優(yōu)化控制等問題。典型的AI特性應用像是站點智能節(jié)能、故障識別及根因定位、Massive MIMO模式優(yōu)化,都已初見成效。
不過經實踐發(fā)現(xiàn),AI在網絡中走向規(guī)模部署的過程中尚存不少挑戰(zhàn)。韓雨發(fā)例舉道,首先是模型泛化能力差,很多場景的AI模型都是一站一模型,如無線流量預測,每個站點的模型都需要根據(jù)本地個性化的數(shù)據(jù)進行訓練,而本地資源受限,導致AI模型規(guī)模應用難。
其次,模型易老化。一些場景會發(fā)生因泛化或數(shù)據(jù)偏移而導致的模型精度下降問題,如無線流量預測、DC PUE優(yōu)化等,AI模型都需要進行重訓練。AI模型訓練一般會占用較多系統(tǒng)資源,如在網元或網管實施重訓練任務,訓練效率低,同時也可能會影響設備性能。
第三,樣本少,不出局。部分場景單局點樣本量少,不足以支撐模型訓練。以核心網KPI異常檢測為例,由于單局點發(fā)生異常頻率很少,訓練需要的樣本量不夠。需要能夠匯聚所有局點的全量樣本信息,可能還需輔以聯(lián)邦學習等技術,才能訓練得到滿足業(yè)務精度要求的AI模型。
最后,試錯成本高。設計的模型如果直接在真實環(huán)境上使用,可能存在較大風險。比如數(shù)據(jù)中心設計方案,一旦落地,結果基本不可逆。
針對于此,華為基于iMaster NAIE創(chuàng)造性地提出云地協(xié)同解決方案,以加速AI特性的規(guī)模應用。韓雨發(fā)介紹說,云地協(xié)同是指在運行狀態(tài)下,云端和地端一起協(xié)作完成數(shù)據(jù)樣本上云、模型狀態(tài)管理、模型重訓練、模型/知識下發(fā)、擇優(yōu)更新等一系列的閉環(huán)任務,同時把云端匯聚的全局網絡知識經驗、全量數(shù)據(jù)訓練得到的高精度模型,持續(xù)注入地端,支撐電信網絡智能迭代升級,讓網絡越來越聰明。其中,云端是指部署在公有云、合營云或HCS上的NAIE云端智能;地端是指集成在網絡管控單元的網絡AI,以及網元設備中的網元AI。
他告訴C114,云地協(xié)同在實際部署中有三個階段,針對不同場景可以選擇合適的階段,最終大幅提高網絡的資源效率。
階段一是云端進行初始模型的訓練,運行態(tài)由地端根據(jù)新增的樣本進行在線學習,持續(xù)保持模型的精度。這種模式主要適用于模型相對簡單、算法結構比較穩(wěn)定的場景,僅需要根據(jù)本地數(shù)據(jù)進行在線學習,優(yōu)化調整模型參數(shù),比如核心網變更在線機器值守等。階段二是云端進行模型的分發(fā),然后在地端根據(jù)新增樣本進行在線學習。一般適合模型相對復雜,華為會持續(xù)進行模型算法結構優(yōu)化的場景,比如無線KPI異常檢測等。階段三是云地實時協(xié)同,模型可以自動化演進。適用于模型復雜、需要用到華為云端高質量標注數(shù)據(jù)、知識圖譜以及仿真等知識能力進行模型優(yōu)化的場景,比如IP RAN/PTN智能告警、DC PUE優(yōu)化等。
打破桎梏:云地協(xié)同關鍵價值詳解
對癥下藥、打破桎梏,為電信網絡鋪就一條智能升維之路,正是新方案的價值所在。在媒體圓桌上,韓雨發(fā)對此進行了詳細的解讀。
其一是借助聯(lián)邦學習,提升模型泛化能力和訓練效率。聯(lián)邦學習,即是將邊緣節(jié)點數(shù)據(jù)保留在本地,通過地端分布式訓練和云端模型匯聚的云地協(xié)同機制,獲得全量數(shù)據(jù)集中訓練方式等同的模型效果,最大的特點就是在地端數(shù)據(jù)不用出局的情況下提升模型的精度。其應用場景包括,跨運營商部署,運營商的網絡業(yè)務數(shù)據(jù)不允許出局;運營商內不同子網之間的模型共享,同樣可以解決數(shù)據(jù)不出局的問題;運營商內網元管理帶寬受限,不適合上傳大量數(shù)據(jù)的場景。
品質家寬是一個典型的案例。韓雨發(fā)分享道,家寬業(yè)務需要區(qū)分游戲、視頻、上網、應用下載等,以進行流量的精細化管理,提升用戶體驗。但當前各地樣本不同,導致新項目應用識別精準率低、上市周期長。T國某運營商在每個邊緣端的SmartONT上進行本地的模型訓練,然后上傳模型參數(shù)到聯(lián)邦學習服務器進行匯聚,生成出新的模型以后再下發(fā)給網絡中的終端(包括新建終端),從而在不需要上傳本地數(shù)據(jù)的前提下快速地提升模型的泛化能力,并可以提高模型訓練的效率、加快新項目的上市。部署以后,對于應用的識別準確率在95%以上,保證了用戶在使用不同應用時的體驗。
其二是構建云地協(xié)同構建網絡知識庫,提升故障運維輔助效率。借助知識圖譜,通過沉淀專家經驗和產品知識轉化形成故障傳播關系等,形成“網絡知識庫”,可用于故障運維輔助、知識問答等。知識生產系統(tǒng)可部署在云端,包含建模、抽取、打包等,在起始階段,專業(yè)知識需要各個領域的專家編輯領域知識譜schema和推理規(guī)則(專家經驗)。知識消費系統(tǒng)客戶端部署到現(xiàn)場,地端圖譜引擎先從云端導入對應產品的知識圖譜schema和推理規(guī)則,然后對接現(xiàn)網設備采集日志數(shù)據(jù),根據(jù)下載的schema模型重新組織存儲數(shù)據(jù),應用推理規(guī)則進行故障診斷,給出處理建議。
其三是建立云端仿真,模型及業(yè)務驗證安全高效。云端仿真,即通過在云端構建虛擬仿真環(huán)境,高效安全地進行模型或業(yè)務驗證,在避免現(xiàn)網性能或KPI受到影響的同時,支撐網絡問題的快速閉環(huán)。一方面仿真往往要求很多資源,云端的計算和存儲資源豐富,容易滿足仿真建立的環(huán)境要求;另一方面,在云端建立一個集中化的仿真平臺,可以供多個局點共享,而且很多仿真軟件是根據(jù)授權收費模式,集中化的云端仿真可以大幅降低經濟成本。目前NAIE主要支持兩種場景的仿真,DC節(jié)能仿真和無線網絡優(yōu)化仿真。目前NAIE主要支持兩種場景的仿真,DC節(jié)能仿真和無線網絡優(yōu)化仿真。
其四是提升模型版本管理效率,加速AI特性更新。傳統(tǒng)網管版本集成升級模式需要經過多層多次的人工動作,往往需要1個月以上的時間才能完成一個版本的更新。如果采用云地協(xié)同的自動升級模式,讓AI模型市場跟地端網絡AI對接,模型訓練完成后通過AI市場進行發(fā)布,啟動局點自動下載升級,整個過程僅需1個小時即可完成。
“總體來看,云地協(xié)同可以實現(xiàn)一點生效、多點復制,AI的特性在一個局點成功實施后,快速地形成知識和經驗,在其他局點進行復制,從而實現(xiàn)全網規(guī)模應用。”韓雨發(fā)如是總結道。
責任編輯:pj
-
華為
+關注
關注
216文章
34512瀏覽量
252401 -
AI
+關注
關注
87文章
31325瀏覽量
269672 -
人工智能
+關注
關注
1793文章
47532瀏覽量
239293
發(fā)布評論請先 登錄
相關推薦
評論