話音作為聯結全球80億人口的紐帶,承載著人與人之間最基本、最可靠的溝通需求。在科技發展日新月異的當下,各行各業迎來前所未有的革新契機。特別是AI技術的蓬勃興起,推動話音業務從傳統音視頻向多模態、交互式通信的形態轉變,極大地促進了通話產業的繁榮發展,開辟了全新的增長點。借助AI技術為新通話賦能,構建智能體通話能力,重塑用戶通話體驗,正是打造智能業務新入口的黃金時機。
AI給通信產業帶來的變化
2022年,ChatGPT橫空出世,自此各種大模型相繼亮相,人工智能進入蓬勃發展階段,并逐步向多模態、智能體等方向發展。在通話領域,文本、圖像、語音等多種模態數據處理技術日趨成熟,通信內容從傳統音視頻向全媒體、智能化演進。與此同時,IMS DC(數據通道)的標準制定工作也在持續推進。2024年6月,GSMA正式發布PRD TS.66 IMS Data Channel API Specification,為構建全球統一的新通話應用生態提供了標準依據;3GPP R18標準正式凍結,為新通話商用的全面提速奠定了標準基礎。隨著DC標準的逐步演進,未來交互式通信將進一步降低對終端的依賴,從而促進運營商基于DC的交互式業務的落地。人工智能結合AIGC(生成式人工智能)、Agent、LLM(大型語言模型)、MLLM(多模態大語言模型)等技術,可實時感知用戶意圖,為用戶提供交互式、沉浸式的通話體驗。
“AIGC+語音驅動數字人”為用戶提供個性化數字人形象,人人都能擁有自己的數字分身。AIGC技術已被廣泛應用于各個領域,在實時通信領域被用于生成個性化數字人形象。通過圖生圖、圖生視頻、文生圖和文生視頻技術,降低個性化素材創作門檻,人人都可以擁有自己的數字分身。語音驅動數字人技術基于用戶的語音輸入,實時驅動數字人形象生成與語音同步的口型、表情和動作,讓數字人更具生命力。
“AI Agent+LLM/MLLM”為數字助理裝上“超級大腦”,為用戶提供更加沉浸、智能、高效的體驗。LLM/MLLM基于海量數據進行訓練,具有數十億甚至數千億的模型參數,具備強大的理解、表達和泛化能力。基于LLM構建的AI Agent已在多個領域展現出巨大潛力,可以更準確地理解用戶意圖、情感以及上下文信息,與用戶進行更自然、流暢的交流。基于MLLM構建的AI Agent不僅能夠處理文本,還能理解和生成圖像、音頻、視頻等多種模態的數據,增強數字助理的理解能力,為用戶提供更豐富的交互體驗。結合RAG(檢索增強生成)和工具使用能力,增強AI Agent的知識獲取與記憶能力,從而實現個性化的用戶數字助理。
AI賦能新通話,智能體變革通話體驗
通過AI賦能網絡,新通話可實現智能體通信,為用戶提供更加高效便捷的通話體驗。為實現這一目標,需要在已有新通話基礎架構上進行能力增強,引入通話智能面,實現多模態交互及第三方模型對接。
新通話智能體通信架構如圖1所示。新通話能力平臺基于業務AS(應用服務器)指示向新通話媒體面發起音視頻或DC操作,如拉起單向視頻實現網絡側點亮屏幕業務;同時,進行新通話智能面設備發現,并指示智能面完成語義交互。
新通話智能體通信架構
新通話媒體面可接受來自新通話能力平臺的指示控制,進行媒體流復制、收號、字幕提示、放音等基礎音視頻能力操作,以及字幕流合成、虛擬背景替換、虛擬頭像替換、媒體元素合成等相關媒體處理。同時,新通話媒體面負責將實時媒體流復制給智能面,完成進一步AI語義交互處理,并確保媒體流發送給終端的實時性不受影響。
新通話智能面可接收新通話媒體面復制的媒體流,提供通話語義智能交互及分發相關能力。它支持針對用戶的意圖識別、多模態(音頻、文本、圖片、視頻)語義交互;同時,通話智能體平臺基于用戶意圖進行靈活分發引流,可分發至內置的垂域語義交互模型或外置的大模型智能體、行業智能體進行復雜任務閉環。一方面,智能面可提供內置的工具調用、RAG知識庫、用戶偏好、長短期記憶等輔助能力。另一方面,智能面需構建AI安全能力,如安全圍欄、AI標識、隱私保護等,以更好地應對網絡攻擊和數據泄露。
新通話智能體架構具備以下三方面能力。
一是多模態交互。“AIGC+大模型+算力”驅動音頻、視頻、文本、圖片等多模態的語義理解、交互和信息流轉換,讓每一位用戶都能擁有一個數字人形象,讓每一個數字形象都可以通過AI實時驅動,提升用戶的互動體驗。
二是NaaS開放使能。新通話三通道能力基于企業接入網關,按應用能力區分IaaS、PaaS、SaaS等方式分層開放標準API,使能開發者和行業ISV。新通話被設計為一個開放的業務使能平臺,南向匯聚音視頻媒體處理、實時數據交互等網絡能力;北向實現能力的聚合封裝與開放共享,使能各類行業業務,調用聚合的新通話能力層,快速完成業務創新,繁榮行業應用生態,打開更廣闊的市場空間。
三是使能外部大模型、工具。基于用戶意圖理解,自動調用垂域最優權威模型、工具,從而提供最佳解決方案,為用戶提供最優的通話體驗。例如,當涉及醫療領域問答時,自動調用業界權威醫療AI模型提供專業的醫療對話。
在未來,每個人都將擁有一個專屬的通話智能體,用戶可以自定義智能體形象并通過語音實時驅動進行互動。一方面,智能體具備代答能力,實現防漏接、防騷擾、防欺詐;另一方面,智能體可提供伴聊、陪聊能力,并且可以識別用戶意圖進行跨應用編排,例如外賣訂購、酒店預定等,在通話中閉環業務,進一步提升用戶體驗,實現智能體走入千家萬戶、賦能千行百業。
智能體重塑運營商通話業務入口
AI引發的交互方式變革,給整個移動通信產業帶來了前所未有的發展機遇。領先運營商已經將AI作為發展戰略,通過傳統通信網絡基礎設施、業務與AI技術結合,促進AI技術深入千行百業,助力電信運營商科技轉型。
例如,中國移動發布“AI+”戰略,基于“九天”大模型,打造從基礎設施到核心能力的開放AI服務,以科技創新全面推進產業數智化轉型,推動AI深度賦能數實經濟發展,為新質生產力筑牢基礎;韓國電信運營商SKT發布“AI金字塔戰略”,圍繞AI基礎設施、AI轉型和AI服務三個關鍵領域加速創新,拓展已有數字化服務能力,加速AI戰略轉型;韓國電信運營商LG U+基于“Growth Leading AX Company”(增長領先型AX公司)戰略,成立“AI Agent特別工作組”,與終端廠商深度合作并發布AI通話助手“ixi-O”,實現AI代答、紀要、翻譯、“釣魚”警告等能力,增強用戶體驗,加速AX戰略轉型。
話音作為運營商的基礎業務,擁有龐大的用戶基數,基于AI的通話業務入口,可作為運營商實現AI戰略落地的有力抓手。據華為MI數據統計,中國有17.5億移動電話用戶,每月平均有200多分鐘通話時長,整體每月通話時長超過四千億分鐘。基于如此龐大的通話流量,如何發揮其價值?當前企業客服的APP線上業務咨詢已經非常普遍,但數據顯示,企業客服熱線移動電話客服占比達60%~80%,例如運營商客服熱線占比60%,某移動支付電話客服占比更是達到了80%,電話熱線仍然是企業客服的主要入口。
由此可見,運營商的通話入口具備成為AI入口的流量優勢。同時,運營商具備APP免安裝、終端普惠和實時體驗的天然優勢,獨有的公信力和社會責任可提供AI監管、隱私看護等方面的安全認證。在OTT、終端廠商、運營商發力搶占AI入口的當下,運營商基于“原生撥號盤”打造AI入口,有能力做到“三分天下有其一”。
產業攜手,擁抱AI,合作共贏
AI的飛速發展將為通信產業帶來顛覆式變革,從傳統的音視頻通話到多模態通信、智能體通信、沉浸式通信,AI將進一步改善通話體驗、提升通話效率,以實現科技助老助殘,踐行“科技向善”理念。在AI加持下,新通話將進一步打開話音產業發展空間,這需要產業上下游伙伴(包括終端和芯片廠商、標準組織、三方行業、設備商、運營商等)攜手共建,打通發展斷點,共建通話新生態,推進新通話產業繁榮發展。
-
通信
+關注
關注
18文章
6039瀏覽量
136117 -
AI
+關注
關注
87文章
31054瀏覽量
269408
原文標題:AI賦能新通話 構筑智能業務入口
文章出處:【微信號:hwCoreNetwork,微信公眾號:華為云核心網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論