在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種AI算法,可以根據說話聲音來預測說話人將作出怎樣的肢體動作

DPVg_AI_era ? 來源:lq ? 2019-06-23 09:27 ? 次閱讀

來自UC Berkeley和MIT的研究人員開發了一種AI算法,可以根據說話聲音來預測說話人將作出怎樣的肢體動作。所預測的動作十分自然、流暢,本文帶來技術解讀。

人在說話的時候,常常伴隨著身體動作,不管是像睜大眼睛這樣細微的動作,還是像手舞足蹈這樣夸張的動作。

最近,來自UC Berkeley和MIT的研究人員開發了一種AI算法,可以根據說話聲音來預測說話人將作出怎樣的肢體動作。

研究人員稱,只需要音頻語音輸入,AI就能生成與聲音一致的手勢。具體來說,他們進行的是人的獨白到手勢和手臂動作的“跨模態轉換”(cross-modal translation)。相關論文發表在CVPR 2019上。

研究人員收集了10個人144小時的演講視頻,其中包括一名修女、一名化學教師和5名電視節目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演講視頻數據集

他們使用現有的算法生成代表說話者手臂和手位置的骨架圖形。然后他們用這些數據訓練了自己的算法,這樣AI就可以根據說話者的新音頻來預測手勢。

圖1:從語音到手勢的轉換的示例結果。由下往上:輸入音頻、由我們的模型預測的手臂和手的姿態,以及由Caroline Chan等人在“Everybody Dance Now”論文中提出的方法合成的視頻片段。

研究人員表示,在定量比較中,生成的手勢比從同一說話者者隨機選擇的手勢更接近現實,也比從一種不同類型的算法預測的手勢更接近現實。

圖2:特定于說話者的手勢數據集

說話者的手勢也是獨特的,對一個人進行訓練并預測另一個人的手勢并不奏效。將預測到的手勢輸入到現有的圖像生成算法中,可以生成半真實的視頻。

研究團隊表示,他們的下一步是不僅根據聲音,還根據文字稿來預測手勢。該研究潛在的應用包括創建動畫角色、動作自如的機器人,或者識別假視頻中人的動作。

為了支持對手勢和語音之間關系的計算理解的研究,他們還發布了一個大型的個人特定手勢視頻數據集。

方法詳解:兩階段從語音預測視頻

給定原始語音,我們的目標是生成說話者相應的手臂和手勢動作。

我們分兩個階段來完成這項任務——首先,由于我們用于訓練的唯一信號是相應的音頻和姿勢檢測序列,因此我們使用L1回歸到2D關鍵點的序列堆棧來學習從語音到手勢的映射。

其次,為了避免回歸到所有可能的手勢模式的平均值,我們使用了一個對抗性鑒別器,以確保產生的動作相對于說話者的典型動作是可信的。

任何逼真的手勢動作都必須在時間上連貫流暢。我們通過學習表示整個話語的音頻編碼來實現流暢性,該編碼考慮了輸入語音的完整時間范圍s,并一次性(而不是遞歸地)預測相應姿勢的整個時間序列p。

我們的完全卷積網絡由一個音頻編碼器和一個1D UNet轉換架構組成的,如圖3所示。

圖3:語音到手勢的翻譯模型。

一個 convolutional audio encoder對2D譜圖進行采樣并將其轉換為1D信號。然后,平移模型G預測相應的2D姿勢序列堆棧。對真實數據姿勢的L1回歸提供了一個訓練信號,而一個對抗性辨別器D則確保預測的動作既具有時間一致性,又符合說話者的風格。

我們使用UNet架構進行轉換,因為它的bottleneck為網絡提供了過去和未來的時間上下文,而skip connections允許高頻時間信息通過,從而能夠預測快速移動。

定量和定性結果

圖4:我們訓練過的模型是特定于人的。對于每個說話者的音頻輸入(行),我們應用所有其他單獨訓練的說話者模型(列)。顏色飽和度對應于待測集上的L1損耗值(越低越好)。對于每一行,對角線上的項都是顏色最淺的,因為模型使用訓練對象的輸入語音效果最好。

表1:在測試集上使用L1損失的語音到手勢轉換任務的定量結果(越低越好)

圖5:語音到手勢轉換的定性結果。我們展示了Dr. Kubinec(講師)和Conan O’Brien(節目主持人)的輸入音頻頻譜圖和預測手勢。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音
    +關注

    關注

    3

    文章

    385

    瀏覽量

    38080
  • 鑒別器
    +關注

    關注

    0

    文章

    8

    瀏覽量

    8772
  • AI算法
    +關注

    關注

    0

    文章

    252

    瀏覽量

    12296

原文標題:你說話時的肢體動作,AI僅憑聲音就能預測 | CVPR 2019

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【書籍評測活動NO.55】AI Agent應用與項目實戰

    一種不需要人類持續干預的AI系統,它可以根據當前的環境和背景信息,去自主分析各種遇到的問題并做出合理的決策,比如幾年前打敗人類棋手李昌鎬的AlphaGo,它就是
    發表于 01-13 11:04

    中國移動與南京大學合作研發高保真2D數字說話系統

    近日,中國移動宣布了項重要合作成果——聯合南京大學團隊成功研發出高保真2D數字說話驅動系統。 作為全球用戶規模最大的通信運營商,中國移動每年的客戶服務運營成本居高不下。盡管智能語音客服已得到
    的頭像 發表于 12-13 11:32 ?380次閱讀

    將AIC33的DIN和DOUT腳用短路的方式實現自環時,說話聲音稍微大點的時候,會在聲音上疊加個“噼啪”聲,為什么?

    我將AIC33的DIN和DOUT腳用短路的方式實現自環時,說話聲音稍微大點的時候,會在聲音上疊加個“噼啪”聲,或則用嘴向MIC連續吹氣,自環后聽到的
    發表于 11-07 07:42

    將TPA31102D2板的音頻輸入與SPEAKER芯片連接時,說話聲很小失真很厲害,為什么?

    直接將TPA31102D2板的音頻輸入與PC機耳機口連接,音質很好,聽不出什么失真,但是我將TPA31102D2板的音頻輸入與SPEAKER芯片連接時發現背景音樂聲音很清晰如振鈴還有就是歌曲的樂器聲,但是說話聲很小失真很厲害,想問下這個是不是他的speaker輸出濾波了導
    發表于 11-07 06:01

    一種創新的動態軌跡預測方法

    本文提出了一種動態軌跡預測方法,通過結合歷史幀和歷史預測結果提高預測的穩定性和準確性。它引入了歷史預測
    的頭像 發表于 10-28 14:34 ?473次閱讀
    <b class='flag-5'>一種</b>創新的動態軌跡<b class='flag-5'>預測</b>方法

    可以個TLV320AIC3101的輸入與輸出端口的左右聲道分開使用嗎?

    ,然后同時說話,想分別獲取這兩組聲音數據。 2.音頻回放也分開左右聲道,兩個應用程序分別播放不同的內容。 請問能否實現?在哪作出改動更好?如何解決ALSA設備獨占的問題? 感謝!
    發表于 10-24 07:47

    TLV3254能不能收聽到半徑8到10米的人說話聲音

    能不能收聽到半徑8到10米的人說話聲音,信噪比實在太低了,遠處的聽不清,增益縮小了又聽不到的遠處的聲音?
    發表于 10-24 06:34

    BitEnergy AI公司開發出一種AI處理方法

    BitEnergy AI公司,家專注于人工智能(AI)推理技術的企業,其工程師團隊創新性地開發了一種名為線性復雜度乘法(L-Mul)的AI
    的頭像 發表于 10-22 15:15 ?413次閱讀

    2024年芯片行業有多難?用數據說話

    2024年芯片行業有多難?用數據說話
    的頭像 發表于 08-10 18:20 ?4552次閱讀

    云知聲說話識別引擎獲得HUAWEI COMPATIBLE證書及認證徽標的使用權

    繼山海大模型獲得兩項華為昇騰技術認證后,近日,經華為綜合評測,云知聲說話識別引擎成功通過與華為Atlas 800 推理服務器(型號:3000)、Atlas 300I Pro推理卡的相互兼容性測試,正式獲得HUAWEI COMPATIBLE證書及認證徽標的使用權。
    的頭像 發表于 05-27 18:12 ?792次閱讀
    云知聲<b class='flag-5'>說話</b><b class='flag-5'>人</b>識別引擎獲得HUAWEI COMPATIBLE證書及認證徽標的使用權

    智慧場館解決方案,讓場館“會說話”!

    在十四五規劃文件和數字經濟發展報告中,都有明確指出加快建設數字城市,數字中國,旨在深化改革,持續推進我國場館事業高質量發展。從傳統場館管理到智慧場館,數字化的發展讓我們實現了場館“會說話”的完美轉型
    的頭像 發表于 04-25 15:34 ?379次閱讀

    未來之聲 | 人形機器說話篇:無聲!

    隨著個個有關人形機器的“核彈式”新聞的出現,機器技術肉眼可見地快速發展。或許,與人們預想的“像
    的頭像 發表于 04-13 08:00 ?326次閱讀
    未來之聲 | 人形機器<b class='flag-5'>人</b><b class='flag-5'>說話</b>篇:無聲!

    NanoEdge AI的技術原理、應用場景及優勢

    NanoEdge AI一種基于邊緣計算的人工智能技術,旨在將人工智能算法應用于物聯網(IoT)設備和傳感器。這種技術的核心思想是將數據處理和分析從云端轉移到設備本身,從而減少數據傳輸延遲、降低
    發表于 03-12 08:09

    使用NVIDIA Triton推理服務器加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器加速 AI 預測
    的頭像 發表于 02-29 14:04 ?603次閱讀

    繼電器是一種根據什么控制電路的

    繼電器是一種電氣開關設備,其工作原理是通過控制個較小電流或電壓的信號開關個較大電流或電壓的電路。它基于電磁感應的原理,利用電磁力使
    的頭像 發表于 02-05 11:01 ?2103次閱讀
    主站蜘蛛池模板: 在线观看一级片| 亚洲 欧洲 另类 综合 自拍| 国产成人精品免费视频大全可播放的| 亚洲 成人 欧美 自拍| 伊人99| 午夜两性色视频免费网站| 女主播扒开内衣让粉丝看个够| 影音先锋午夜资源网站| 2021精品国产综合久久| 天堂网站| 天天色天天| 免费观看老外特级毛片| 成人午夜影院在线观看| 天天综合天天色| 白丝丝袜高跟国产在线视频| 久久这里只精品热在线8| 狠狠色狠狠色综合久久一| 欧美色图色就是色| 色偷偷av男人的天堂| 亚洲 欧美 另类 综合 日韩| 色视频在线观看网站| 亚洲成在人色婷婷| 在线免费观看毛片网站| 婷婷在线免费观看| 在线免费看黄视频| 综合精品| 日本黄色免费看| 国产女乱淫真高清免费视频| 亚洲第一成网站| 五月天狠狠| 国产精选经典三级小泽玛利亚| 亚洲一区三区| 婷婷五月色综合香五月| 四虎在线免费视频| 快色视频免费观看| 夜色剧场| 深夜视频在线免费观看| 婷婷 色天使| 一区在线播放| 婷五月综合| 黄色免费网站在线播放|