電子發燒友網報道(文/李彎彎)數字人(Digital Human / Meta Human)是運用數字技術創造出來的、與人類形象接近的數字化人物形象。近些年數字人發展迅速,在短視頻、直播、金融、醫療等各行業上都有所應用。而且隨著AI技術的發展,數字人的生成也越來越容易。
在不久前的深圳國際人工智能展,就有眾多企業展示其數字人技術,包括出門問問、華為、元境科技、相芯科技等。在展會期間,電子發燒友網記者與現場工作人員進行了詳細交流,發現當前數字人技術和應用已經越來越成熟。
可以說多國語言的數字人
此次展會上,華為重點展示了盤古大模型及其行業應用。在其展臺上,記者注意到,華為也展示了其盤古數字人直播案例。基于華為云MetaStudio分身數字人,多語種泛化,一次訓練匹配多個語種,及多語言克隆,多語言驅動等特點,萬興科技打造了AIGC“真人”出海營銷神器萬興播爆視頻版及直播版,結合盤古數字人大模型,其實現母語一次訓練、多種語言流暢適配,助力企業輕松出海營銷。
數字化時代,跨境電商成為了許多企業發展的新方向。然而,從文化差異、語言問題,再到市場洞察、營銷引流、用戶運營,跨境電商立足海外市場面臨重重壓力。但全鏈路AIGC創作的“萬能”助理萬興播爆,解決了外籍演員難找、多語言難適配、制作周期長、成本居高不下等痛點,幫助企業大幅降本增效,輕松出海營銷。
在今年7月的華為開發者大會2023上,華為宣布,基于盤古大模型能力,華為云MetaStudio數字內容生產線全新升級,推出數字人模型生成服務和模型驅動服務,旨在通過數字人服務和技術賦能,賦能千行百業提升數字內容創作體驗和效率。
華為云MetaStudio數字內容生產線,基于華為云盤古基礎大模型能力、渲染引擎和實時音視頻能力,使用PB級的音視頻數據進行訓練,構建了數字人通用大模型,包括數字人形象、動作、表情、口型、聲音等;每個用戶還可以結合個人數據進行訓練,構建自己的數字人個性化大模型。數字人生成后,用戶通過文字、語音、視頻等方式生產驅動向量信息,從而驅動數字人生成高清視頻。
除了萬興播爆數字人直播案例之外,現場還展示了多家基于華為云的數字人案例。展會現場,工作人員告訴電子發燒友,目前市面上有很多通過圖片、文字生成的數字人,看上去是平面的,并不立體,華為云MetaStudio分身數字人看上去跟真人很相似了。對于數字人直播能否現場互動的問題,現場工作人員表示,當前數字人直播基本難以做到現場互動,不過通過盤古大模型,后續會繼續進行優化,使得數字人能夠實時回答現場用戶提出的部分問題。
展會現場,出門問問的展臺吸引了不少觀眾駐足觀看。出門問問成立于2012年,是一家以生成式AI與語音交互為核心的人工智能公司。該公司擁有領先的AI基礎設施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及豐富的垂直領域軟硬結合的優化算法技術模塊,是為數不多的同時服務于消費者、企業、創作者三大類不同群體的公司。
出門問問打造的AI數字人分身奇妙元,是一款專注于數字人短視頻和直播服務的軟件。包括多類型數字人和百種語言。據現場工作人員介紹,只需輸入一段文本內容就能生成數字人視頻,幾秒鐘就能完成,制作起來非常方便。
出門問問提供4種超前沿的克隆與定制服務,包括真人形象克隆、聲音克隆、3D數字人定制和IP活化。比如真人形象克隆,可以實現真人形象1:1還原,只需錄制一個5分鐘視頻,即可終身使用,輸入文字數字人即可說話,表情神態接近真人。
奇妙元數字人視頻制作非常簡單,一鍵就可以將文本合成視頻。相比于傳統視頻制作,奇妙元視頻制作的優勢在于:1、速度非常快,即使是制作一個真人口播視頻,也僅需5分鐘;2、數字人視頻,可隨時修改文本,隨時生成;3、數字人更智能,一個數字人可說10國語言,500種聲音。
如今數字人已經適用于各種應用場景,包括新聞播報、科普服務、培訓視頻、線上客服、帶貨種草、產品宣傳、企業代言、金融宣傳等。出門問問還提供形象和聲音克隆,比如醫生、律師等各種需要大量科普的職業,非常適合克隆自己的形象做數字人。
虛擬數字人涉及哪些前沿技術
在此次展會上,除了體驗到快速生成數字人之外,我們也看到了數字人生成所涉及到的諸多技術。在參展的企業中,有一家提供全棧式虛擬數字人多場景應用解決方案服務的企業元境科技,該公司成立于2021年12月,由A股上市公司天娛數科戰略投資。
元境科技以元享SaaS云平臺、元趣AI為基礎,通過計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機技術,并打通AI智能交互設備鏈接,快速打通AI在各個垂直場景中的應用,賦能各行業。元境科技核心技術團隊從2016年開始布局虛擬人業務,擁有全球頂尖的動態光場掃描、三維重建算法、無標記點視覺捕捉、AI語音驅動等前沿技術,在北京總部擁有400平米XR動捕基地。
虛擬人生成SaaS云平臺“元享”,是以底層數據為核心生成各類產品應用的架構平臺。從元境科技提供的材料來看,其包含動態光場掃描建模、三位重建算法、AI驅動、XR動捕基地等技術。制作流程上:1、動態動態光場掃描真人;2、AI算法進行三維重建;3、AI動畫綁定;4、渲染;5、AI驅動。
數據方面,元境科技擁有LightStage掃描建模技術,包括面部三位模型與重光照數據采集、亞微米級別超高精度輸出等;專業級表演捕捉技術,包括400平米超大動捕棚、實時多人動捕、實現線上線下同步直播;3D視覺捕捉芯片技術,包括3D視覺深度引擎、3D傳感和AI計算、SLAM實時跟蹤建圖引擎。
算法方面,表情學習模型:1、利用LightStage對被采集人員面部動態表情進行掃描數據采集;2、自研SaaS平臺對采集數據進行深度學習;3、一鍵生成虛擬形象獨有的動態表情數據庫。保障在數字人生成內容時高度還原真人在說話時的面部神經反應與細微表情。
AI算法表情驅動:利用綜合動捕方案與自研智能算法,在直播期間可實現面部細微表情的高速傳遞與智能修正。
元境科技基于全球領先的完備人工智能元鯨框架,推出了數字員工產品線,從數據采集、訓練到上線,最快僅需10小時。支持創建擁有情感交互能力、專業技能和內容生產能力的數字人,目前已被應用于很多領域及場景中。
記者在展會現場還看到一家提供數字人服務的企業相芯科技,據現場工作人員介紹,他們公司不直接給C端用戶提供生成數字人,而是為需要制作數字人的企業提供SDK,讓這些企業能夠基于他們的SDK快速的生成數字人。
相芯科技成立于2016年,由全球圖形學頂級專家領銜,團隊成員來自微軟、蘋果、華為等國際知名企業。自研的“數字人平臺AvatarX”和“數字物平臺ObjectX”可刻畫人的音容笑貌,描繪物的流光溢彩,已服務數千家海內外企業,實現手機、電商、金融、汽車、互娛、融媒體、政務、文博等領域的規模化應用。
此次展會重點展示其AvatarX數字人平臺,該平臺依托獨創的“虛擬數字人引擎”,為各行各業提供從虛擬形象生成、自定義、驅動、云渲染到應用于一體的跨平臺數字人解決方案。用戶可通過組合不同能力的SDK,打造更面向未來的,更具差異化的數字人應用產品和數宇資產,賦能元宇由生態布局。
相芯科技擁有全棧數字人技術和全品類數字人產品,包括卡通數字人、視頻數字人、超寫實數字人、仿真數字人、全真數字人。應用場景包括社交、短視頻創作、智能客服、虛擬主播、品牌代言人、智能車載等。相芯科技數字人方案具有諸多優勢,比如形象自由生成;支持面部驅動、身體驅動、手勢識別、語音驅動;支持實時云端渲染,兼容第三方渲染引擎;不同能力SDK自由組合,幫助開發者快速構建不同應用程序等。
在通過AvatarX SDK DEMO進行體驗的時候,可以發現,AI形象生成非常快,只需上傳照片,便可一鍵生成還原度極高的虛擬形象。該平臺還支持形象自定義,支持拼臉扭臉、身體捏形、服飾美妝等不同方式對虛擬形象自定義編輯。據介紹,云平臺為用戶提供海量素材自由選擇搭配,并保持定期更新與維護。
根據其官網介紹,其AI面部驅動支持51個維度的面部表情檢測與3個維度的舌頭活動檢測,實時人臉追蹤技術實現真人與虛擬人表情同步,即使只有側臉也能穩定使用。AI身體驅動,通過實時驅動跟蹤技術,實現真人與虛擬人動作同步,共同支持全身31個人體點位、26根骨骼方向驅動,單手21個手部點位。AI語音驅動,通過文本或語音驅動虛擬人口型,集成TTS、ASR和NLP服務,支持多種音色自由切換支持虛擬形象情緒和表情設置,并能控制虛擬形象肢體動作。
此外,用戶的虛擬形象不僅可以與其他虛擬形象互動,也可與虛擬場景、虛擬道具互動,支持多人聊天功能與視頻遠程共享功能并實現了WebRTC服務集成。
小結
當前已經有不少虛擬數字人出現在短視頻創作、直播等場景中,然而可以看到,不少數字人在表情、動作、語言方面與真人相比還相差甚遠,在直播中數字人也無法進行互動,體驗還有待提高。虛擬數字人的制作涉及很多技術,包括數據采集、動作捕捉、AI驅動、渲染等,要想讓數字人有更好的體驗,每個技術環節都需要打磨好。另外大模型的接入也讓數字人在直播中能夠互動有了可能。
-
數字人
+關注
關注
0文章
129瀏覽量
2054 -
大模型
+關注
關注
2文章
2476瀏覽量
2812
發布評論請先 登錄
相關推薦
評論