基于深度神經網絡的仿真面對面對話系統
近日,CloudMinds和北京航空航天大學的研究人員基于深度學習提出了一種新的仿真面對面對話系統。CloudMinds是一家在機器人和云服務領域的領軍企業,致力于成為針對各種機器人模型需求的供應商。
該會話系統包括用于收聽和說話的兩個序列到序列模型以及基于虛擬代理合成器的生成性對抗網絡(GAN)模型。
當虛擬代理與人通信時,語音音頻和面部圖像被輸入到系統中。面部圖像由面部解析模塊處理,產生面部動作和姿勢。然后將生成的信息傳遞到基于序列到序列的收聽模型中。當虛擬代理在收聽時,輸出被饋送到合成器中以產生逼真的面部圖像作為非語言反應。
語音識別模型將語音音頻變換為文本,然后傳遞到會話模塊中以生成響應語句,該響應語句被傳遞到文本到語音(TTS)模塊以合成語音。響應語句被傳遞到序列到序列的說話模型,其輸出也被輸入到虛擬合成器中以產生逼真的面部圖像,從而呼應語音內容。頭像合成器則用于在整個對話期間收聽和說話。
本文顯著改進了傳統的基于3D模型的成果。為了訓練模型,研究人員收集了大約700個ESPN視頻,其中包含來自YouTube的面對面對話場景。
與傳統3D模型的生成結果相比,該模型所生成的面部圖像更接近現實。毋庸置疑的是,在使得會話更加逼真自然的領域上,該系統還有很大的潛力可供挖掘,未來它還可用于實現個性化表情會話。
原文:
https://arxiv.org/abs/1908.07750
使用DISCo方法改進鈣成像分析
本文中,德國海德堡大學跨學科科學計算中心(IWR)的研究人員介紹了DISCo方法,這是一種使用深度學習,實例分割和相關性研究的新方法,可用于鈣成像分析中的細胞分割步驟。
DISCo將深度學習網絡的優勢與最先進的實例分割程序相結合,允許直接提取單元實例而無需任何復雜的后處理步驟。他們還以非常有效的方式利用鈣成像視頻的時間背景來計算像素之間的分段相關性。然后以摘要圖像的形式將此時間信息與基于形狀的信息相結合。
DISCo的最大優勢在于能夠結合相關性和圖像特征,而不只依賴于其中一種方法。因此,DISCo可以通過在Neurofinder數據集上僅使用單個模型來使神經研究人員獲得良好的整體性能。此外,當在幾個數據集系列上訓練單個網絡時,研究人員能夠超越在Neurofinder數據集上訓練的所有其他方法。
原文:
https://arxiv.org/abs/1908.07957
用于科研教育的低成本開源機器人賽車平臺
華盛頓大學保羅G.艾倫計算機科學與工程學院的研究人員最近介紹了MuSHR,即多代理的非完整賽車系統。MuSHR是一個低成本、開源的機器人賽車平臺,致力于教育和研究,由MuSHR的個人機器人實驗室開發,旨在促進機器人領域的公民化。作為一個低成本的平臺,參與者可以通過說明,開源文檔和動手教程參與其中。
賽車的硬件設計基于一系列現成的組件,這些組件可以從世界各地的線上和線下硬件商店中輕松地找到,而軟件架構則是在個人機器人實驗室中開發的。該平臺為華盛頓大學的移動機器人課程開發了一套演示系統和許多寶貴的實踐經驗,是機器人平臺開發的里程碑。
MuSHR的低成本開發模式和綜合的文檔記錄是寶貴的機器人研究資源。該平臺向學術研究實驗室,機器人研究者及機器人愛好者等展示各種機器人研究項目提供了一個出色的測試平臺。
MuSHR具有開源指令和教程帶領用戶完成硬件開發。文檔托管在Github上,免費供一般公眾下載使用。
代碼:
https://github.com/prl-mushr
原文:
https://arxiv.org/abs/1908.08031
三維掃描與CAD對象的聯合嵌入
近日,慕尼黑工業大學、斯坦福大學以及 Facebook 人工智能研究所共同提出了一種學習三維掃描和CAD之間的聯合嵌入空間的技術。而在這兩者中有很多聯系緊密且十分相似的事物。這一學習方法基于一種全新的3D CNN 技術,通過學習聯合嵌入空間中事物的相似性來實現嵌入。
為了學習一個掃描對象和CAD模型可以相互交織的共享空間,研究人員提出使用堆疊沙漏的方式將前景、背景與掃描對象分開,并將其轉換為完整的類CAD表示,以此將它整合到共享嵌入空間中。這樣操作得到的嵌入空間可以用于CAD模型檢索。為了更好地完成這一任務,研究人員引入了一個全新數據集,其中包括了掃描CAD相似性注釋。在這一數據集的幫助下,他們能夠對CAD模型檢索進行細粒度的評估,并對雜亂、嘈雜部分進行掃描。
這一新型學習方式比現有的CAD模型在實例檢索上的準確率高出10% 以上。
因此,它在CAD模型檢索方面的表現比原有模型更好。學習這樣的聯合掃描- CAD嵌入空間不僅為CAD模型檢索提供了新的解決方案,也為這兩個領域之間的知識映射提供了新的可能性。
當然,雖然這個技術在掃描與學習CAD對象空間方面非常有效,但它仍然有很多局限性——目前研究人員僅考慮了掃描和CAD對象領域中對象的幾何形狀;而這篇論文中未提及的顏色信息可能是聯合嵌入或CAD模型檢索的另一強大信號。
原文:
https://arxiv.org/abs/1908.06989
Google發布Turbo,可視化工具的里程碑式突破
Turbo 是由Google研究人員提出的一種著色工具,它既有Jet的優勢功能,同時也解決了Jet的一些短板,例如細節錯誤、條帶、和顏色混淆等。
在開發人員的精心調試下,Turbo的強大性能能夠勝任各種可視化任務。在開發過程中,研究人員們制作了一個簡單的交互界面,在其中他們能夠使用7節立方條來調整RGB曲線,同時將樣本結果與其他知名彩繪程序的結果進行比較。
Turbo可以作為順序和發散的可視化工具,因此它很適合開發人員保存在自己的“工具箱”中。它用于解決均勻性不那么重要的數據可視化任務非常有效,尤其是在需要展現強烈對比的情況下。
Google的團隊將這個工具用于實現視差貼圖、誤差貼圖以及許多其他標量的可視化中。您可以在下方鏈接中找到在Python和C/C++ 中的使用這幾技術的方法,以及多項式逼近的方法——用于可能查表查詢不太方便的情況中。
Python:
https://gist.github.com/mikhailov-work/ee72ba4191942acecc03fe6da94fc73f
C/C++:
https://gist.github.com/mikhailov-work/6a308c20e494d9e0ccc29036b28faa7a
Polynomial approximation:
https://gist.github.com/mikhailov-work/0d177465a8151eb6ede1768d51d476c7
原文:
https://ai.googleblog.com/2019/08/turbo-improved-rainbow-colormap-for.html
-
神經網絡
+關注
關注
42文章
4773瀏覽量
100890 -
AI
+關注
關注
87文章
31097瀏覽量
269430
原文標題:狗還是機器人?誰在屏幕后和你對話?新研究開發仿真面對面對話系統 | 一周AI最火論文
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論