說到以VR演奏樂器,目前應用市場中已有的VR樂器應用并不罕見。VR樂器的誕生幫助很多對音樂向往卻囿于樂器價格和擺放空間的愛好者過上了把手癮、耳癮。
就在上一周,小編提到的關于facebook對手部的精準追蹤,更是助了VR演奏一臂之力,十八般樂器,樣樣不在話下。
這些應用都是以人為演奏者,根據人的動作發出對應的音調聲響。可若是把這個過程反過來又會是怎么樣的一種情形呢?
最近,facebook又又公布了一篇論文,名叫“音頻到身體動力學”,講的就是如何以3D動畫的形式將一段音頻轉化為演奏時的肢體動作。依據人的動作,發出聲音,我們已經見過許多,但根據聲音,模擬出相應動作,這還是首次。
(可惜動圖發不出聲音ε=(′ο`*))))
想要進行這種轉化,就需要知道每個音符所對應的演奏者可能會做出的動作。按照傳統方法,自然是請幾位演奏家到實驗室內,在他們的手指和身體關節處貼上傳感器,再讓他們演奏上幾個小時。但這種方法實施起來還是有些麻煩,怕麻煩的研究人員想出了一個更好的點子。
不知道大家還記不記得去年這個時候曾流傳過一個用黑科技合成奧巴馬說話的視頻。華盛頓大學的研究人員分析了14個小時的奧巴馬講話的視頻,判斷奧巴馬在講話時其臉部是如何運動的,如嘴唇、牙齒、面部皺紋以及下巴的活動,再通過神經網絡與人工智能技術根據海量數據掌握了與不同聲音相關聯的嘴型,因此只要隨意放出一段音頻就可以制作奧巴馬講話的視頻。
正是受到了“奧巴馬”的啟發,facebook的研究人員也采用了相似的視頻學習方法。研究人員通過檢測視頻中每一幀中的上半身和手指來處理視頻。每幀上取50個點,其中每只手占21個點,上半身占8個點。接著,分別通過OpenPose、MaskRCNN 和DeepFace三個庫運行視頻,其中OpenPose提供面部,身體和手部關鍵點,MaskRCNN 和DeepFace則為人臉識別算法。
當然在采集過程中,也是成功與失敗并存。為了采集的數據更精準,研究人員在每段視頻中都選擇一幀作為參考幀。倘若在參考幀附近的連續幀中有與參考幀參數相差較大的幀,例如面部、手部關鍵點不匹配,則自動消除掉那一幀。下圖手部糊在一起的便是失敗幀。
研究人員的目標是學習音頻特征和身體動作之間的相關性,因此,完成了關鍵點采集,便要構建一個Long-Short-TermMemory(LSTM長短期記憶)網絡開始學習音頻特征和身體骨架標志之間的相關性了。
這也與“奧巴馬”那個使用的是同款學習網絡。研究人員選擇使用具有時間延遲的單向單層LSTM。 xi是特定時間實例i的音頻MFCC特征,yi是身體關鍵點的PCA系數,m是存儲器(隱藏狀態)。研究人員還添加了一個標記為'fc'的完全連接層,經過試驗發現它可以提高系統學習效率。
最后動畫的生成是基于ARkit實現的。研究人員使用ARkit構建了一個增強現實應用程序,該應用程序可以在手機上實時運行。使用帶有骨骼的3D身體模型,通過將預測點與3D世界坐標對齊來初始化動畫形象。研究人員通過所有幀平均下拉的左右肩點距離計算得出模型的剛性變換數據。然后再分別考慮身體,手臂和手指。對于身體,研發人員創建了一條IK鏈,其中根節點定義為左右臀部之間的平均值,并連接到左肩和右肩的平均值。然后,估計所有幀的平均脊柱長度,并據此相應地縮放動畫模型的脊柱。對于手臂,以手腕為參考點,由前臂長度決定偏移量。對于手指,通過小指的根關節和指針的根關節確定手的旋轉。最后,應用根旋轉偏移來匹配琴與人的姿勢角。
除了鋼琴,還有小提琴的演奏
雖然目前這個應用還僅限于鋼琴與小提琴演奏的轉化,但是相信隨著進一步的開發,將支持更多種樂器演奏的轉化。甚至于將來還有可能發展出除樂器之外其他形式的轉化,比如,放一段音樂,可以Freestyle出一段舞蹈;再比如,根據一段霹靂扒拉的拳打腳踢聲,生成一段3D動畫的打斗場面。總之,能夠依聲定形還是很有趣的。
-
傳感器
+關注
關注
2552文章
51331瀏覽量
755475 -
Facebook
+關注
關注
3文章
1429瀏覽量
54857 -
vr
+關注
關注
34文章
9641瀏覽量
150575
原文標題:facebook:用音樂生成3D動畫
文章出處:【微信號:ARchan_TT,微信公眾號:AR醬】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論