在一場演示盛宴中,NVIDIA 研究人員為數字化身技術作品注入了四個 AI 模型,在 SIGGRAPH 2021 大會的實時直播展示中展出,榮獲“最佳展示”獎。
該展示是今年以虛擬形式舉行的世界大型計算機圖形大會上最令人期待的活動之一,慶祝各種跨越游戲技術、增強現實和科學可視化的前沿實時項目。該展示包括一系列由評委會評審的交互式項目,演講者來自 Unity Technologies、倫斯勒理工學院、紐約大學未來現實實驗室等等。
NVIDIA 研究團隊從硅谷總部現場直播,展示了一系列能夠創建栩栩如生的虛擬角色的 AI 模型,適用于帶寬高效視頻會議和故事講述等項目。
該演示包括各種工具,可從單張照片生成數字化身,制作具有自然3D面部動作的化身動畫,以及將文本轉換為語音。
NVIDIA 應用深度學習研究副總裁 Bryan Catanzaro 在演講中表示:“制作數字化身是一個非常困難、繁瑣而且昂貴的過程。”但是借助 AI 工具,“我們可以輕松創建真實人物以及卡通角色的數字化身。它可用于視頻會議、故事講述、虛擬助理和許多其他應用領域。”
AI 在面試中表現出色
在演示中,兩位 NVIDIA 研究科學家分別扮演面試官和應聘者的角色,通過視頻會議進行交談。在通話過程中,面試者展示了 AI 驅動的數字化身技術如何能夠與面試官進行溝通。
扮演應聘者的研究人員在整個過程中使用一臺 NVIDIA RTX 筆記本電腦,而另一名研究人員使用的是由 RTX A6000 GPU 提供支持的臺式工作站。整個流程還可以在云中的 GPU 上運行。
應聘者坐在校園的咖啡廳里,戴著棒球帽和口罩,使用 Vid2Vid Cameo 模型在視頻通話中呈現出穿著有領子的襯衣、胡子刮得干干凈凈的形象(見上圖)。AI 模型依據對象的單張照片創建逼真的數字化身,無需 3D 掃描或專門訓練的圖像。
他展示了自己的另外兩張照片,并且表示:“數字化身的創建在一瞬間就能完成,所以我能夠使用不同的照片迅速創建不同的化身。”
該研究人員的系統并不傳輸視頻流,而是只發送了他的聲音,然后將聲音輸送到NVIDIA Omniverse Audio2Face 應用程序。Audio2Face 可生成頭部、眼睛和唇部的自然動作,以便在 3D 頭部模型上實時匹配音頻輸入。這種面部動畫進入 Vid2Vid Cameo,與演講者的數字化身合成為表現自然的動作。
除了逼真的數字化身之外,該研究人員還通過 Audio2Face 和 Vid2Vid Cameo 輸送了他的演講,為動畫角色配音。他表示,使用 NVIDIA StyleGAN,開發者能夠以卡通角色或者繪畫為模型,創建出無限的數字化身。
這些模型經過優化,在 NVIDIA RTX GPU 上運行,能夠以每秒 30 幀的速度輕松傳輸視頻。此外,它還具有很高的帶寬效率,因為演講者只通過網絡發送音頻數據,而不是傳輸高分辨率視頻源。
更進一步,該研究人員展示,當咖啡廳環境變得過于嘈雜,RAD-TTS 模型能夠將輸入的消息轉換為他的聲音,取代輸送到 Audio2Face 中的聲音。基于深度學習的突破性文本轉語音工具可以在幾毫秒內通過任意文本輸入來合成栩栩如生的語音。
研究團隊在演示的最后展示,RAD-TTS 能夠合成各種聲音,從而幫助開發者生動地呈現書中的角色,甚至說唱 Eminem 的《The Real Slim Shady》。
SIGGRAPH 大會將持續到 8 月 13 日。查看 NVIDIA 在大會上的完整活動安排,觀看我們的《在元宇宙中建立聯系:GTC 主題演講的制作》紀錄片首映。
編輯:jq
-
3D
+關注
關注
9文章
2899瀏覽量
107686 -
NVIDIA
+關注
關注
14文章
5047瀏覽量
103326 -
gpu
+關注
關注
28文章
4759瀏覽量
129117 -
AI
+關注
關注
87文章
31230瀏覽量
269579
發布評論請先 登錄
相關推薦
評論