在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用GAN生成音樂成功了!GANSynth是一種快速生成高保真音頻的新方法

DPVg_AI_era ? 來源:lp ? 2019-03-02 09:26 ? 次閱讀

谷歌大腦團隊最新ICLR論文提出用GAN生成高保真音樂的新方法,速度比以前的標準WaveNet快5萬倍,且音樂質量更好!

GAN 在生成高質量圖像方面是當之無愧的最先進的方法。然而,將 GAN 擴展到如聲音這類的序列數據任務,盡管有許多嘗試,仍困難重重。

近日,谷歌大腦團隊 Jesse Engel 等人用GAN生成音樂的新研究引起大量關注。Jesse Engel 在推特上興奮地宣布:“用GAN生成音樂成功了!GANSynth是一種快速生成高保真音頻的新方法?!?/p>

他們的論文GANSynth: Adversarial Neural Audio Synthesis已被 ICLR 2019接收。

谷歌 AI 總統帥 Jeff Dean 也被這個研究吸引,大加贊賞,并建議大家試聽一下更多樣本音樂。

GANSynth 生成音樂有多強呢?Jesse Engel 用一句話解釋:“我們證明了,我們可以比標準的 WaveNet 快 5 萬倍地生成樂器音頻,并且具有更高的質量(無論是定量測試還是聽眾測試),并且可以獨立控制音高和音色,使得樂器之間的插入更加平滑?!?/p>

巴赫前奏曲的示例

他說:“與之前的音頻模型 (如 WaveNet 自動編碼器) 不同,我們學習整個音頻剪輯的單個潛在向量,并添加音調調節向量。這可以產生更平滑的插值 (interpolations),讓每個點聽起來都像是一個有效的樣本。”

他們發布了代碼,享受用 colab notebook 制作自己的音樂的樂趣吧!

更多音樂樣本:

https://storage.googleapis.com/magentadata/papers/gansynth/index.html

Colab:

https://colab.research.google.com/notebooks/magenta/gansynth/gansynth_demo.ipynb

論文: https://openreview.net/forum?id=H1xQVn09FX

Code:

https://github.com/tensorflow/magenta/tree/master/magenta/models/gansynth

Blog: http://magenta.tensorflow.org/gansynth

接下來,我們將詳細介紹GANSynth 生成音樂的運作原理.

為什么要用 GAN 生成音頻?

GAN 是用于生成高質量圖像的最先進的方法。然而,研究人員一直在努力將其應用到更加序列性的數據,如音頻和音樂。

在序列數據中,自回歸 (AR) 模型占主導地位,如 wavenet 和 Transformers,它們的運作方式是一次預測單個樣本。雖然 AR 模型的這一特性有助于它們的成功,但這也意味著采樣是連續的,而且非常緩慢,實時生成需要 distillation 或專用內核等技術。

GANynth 不是按序列生成音頻,而是并行生成整個序列,在現代 GPU 上合成音頻的速度比實時更快,比標準 WaveNet 快約 50000 倍。

與原始論文中使用時間分布潛碼的 WaveNet 自動編碼器不同,GANynth 從單個潛在向量生成整個音頻片段,從而更輕松地分開音高和音色等全局特征。利用樂器音符的 NSynth 數據集,我們可以獨立控制音高和音色。

用 GAN 生成音樂的原理

GANynth 使用一個 Progressive GAN 架構,通過卷積將樣本從單個向量逐步上采用到完整的聲音。與之前的工作類似,我們發現直接生成相干波形 (coherent waveforms) 很困難,因為上采樣卷積與高周期信號的相位對齊相悖。如下圖所示:

上圖中,紅黃相間的曲線是一個周期信號,每個周期波形的開始處都有一個黑點。如果我們嘗試通過將其切割成周期性的幀 (黑色虛線) 來對信號進行建模,就像對 GAN 中的上采樣卷積和短時距傅里葉變換 (STFT) 所做的那樣,幀的開始 (虛線) 和波形的開始 (點) 之間的距離隨時間變化而改變 (黑色實線)。

對于跨步卷積,這意味著卷積需要學習給定濾波器的所有相位排列,這是非常低效的。這種差異 (黑線) 被稱為相位 (phase),它隨著時間的推移而進行,因為波和幀有不同的周期。

正如上面的示例所展示的,相位是一個環形量 (黃色條,mod 2π),但是如果我們展開它 (橙色條), 它每幀減少一個恒定量 (紅色條)。我們稱之為瞬時頻率 (IF),因為頻率的定義是相位隨時間的變化。STFT 將一幀信號與許多不同頻率進行比較,得到如下圖所示的斑點相位模式。相比之下,當我們提取瞬時頻率時,我們看到的是一致的粗體線條,反映了潛在聲音的相干周期。

結果

在 GANynth ICLR 的論文中,我們用一系列頻譜表示來訓練 GAN,發現對于像音樂這樣的高周期性聲音,為相位分量生成瞬時頻率 (IF) 的 GAN 優于其他表示和其他強大基線,包括生成波形的 GAN 和無條件 WaveNets。

我們還發現,progressive training (P) 和提高 STFT (H) 的頻率分辨率有助于分離緊密間隔的諧波,從而提高性能。下面的圖表顯示了用戶聽力測試的結果,測試中用戶需要收聽來自兩種不同方法的音頻示例,并被提問他們更喜歡哪一種:

除了本文中提到的多種定量測量方法外,我們還可以定性地看到產生瞬時頻率 (IF-GAN) 的 GAN 也會產生更多的相干波形。

下圖的第一行顯示了所生成的波形,對音符的基本周期取模。需要注意的是,真實數據完全與它自身重疊,因為波形是非常周期性的。然而, WaveGAN 和 PhaseGAN 有許多相位不規則性,形成了模糊的線條網。IF-GAN 更為連貫,在周期和周期之間只有很小的變化。

在下面的彩虹圖 (CQT,顏色代表瞬時頻率) 中,真實數據和 IF 模型具有相干波形,使得每個諧波的顏色具有很強的一致性,而 PhaseGAN 由于相位不連續有許多斑點, WaveGAN 則非常不規則。

未來工作

這項工作是使用 GAN 生成高保真音頻的初步嘗試,但仍存在許多有趣的問題。雖然上述方法在處理音樂信號方面效果不錯,但在語音合成方面仍產生了一些明顯的缺陷。

最近的一些相關工作就是在此基礎上,探索從生成的頻譜圖中恢復相位的方法,同時減少偽影。其他有前途的方向包括使用 multi-scale GAN、處理可變長度輸出,以及用靈活的可微分合成器替換上采樣卷積生成器。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6168

    瀏覽量

    105392
  • 音頻
    +關注

    關注

    29

    文章

    2877

    瀏覽量

    81553
  • GaN
    GaN
    +關注

    關注

    19

    文章

    1935

    瀏覽量

    73445

原文標題:GAN跨界合成高保真音樂,Jeff Dean聽了都陶醉

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種標定陀螺儀的新方法

    一種標定陀螺儀的新方法
    發表于 08-17 12:17

    一種在金上生成硫醇封端的SAM的新方法

    一種在金上生成硫醇封端的SAM的新方法 - 應用簡報
    發表于 10-30 11:05

    介紹一種智能手機“音樂播放器”高保真還原的解決方案

    介紹一種智能手機“音樂播放器”高保真還原的解決方案
    發表于 06-02 07:04

    如何使用MangaGAN新方法生成久保帶人Style的漫畫形象?

    如何使用MangaGAN新方法生成久保帶人Style的漫畫形象?
    發表于 09-27 06:00

    一種級數混合運算產生SPWM波新方法

    一種級數混合運算產生SPWM波新方法_耿衛東
    發表于 01-07 18:39 ?0次下載

    一種求解動態及不確定性優化問題的新方法

    一種求解動態及不確定性優化問題的新方法_劉曉
    發表于 01-07 18:56 ?0次下載

    一種設計同步時序邏輯電路的新方法

    一種設計同步時序邏輯電路的新方法
    發表于 02-07 15:05 ?29次下載

    PC機與單片機串行通信的一種新方法

    PC機與單片機串行通信的一種新方法
    發表于 09-04 14:20 ?4次下載
    PC機與單片機串行通信的<b class='flag-5'>一種</b><b class='flag-5'>新方法</b>

    圖像生成領域的個巨大進展:SAGAN

    近年來,生成圖像建模領域出現不少成果,其中最前沿的是GAN,它能直接從數據中學習,生成高保真、多樣化的圖像。雖然
    的頭像 發表于 10-08 09:11 ?1.3w次閱讀

    一種基于對抗生成模型的新方法,名曰“CosmoGAN”

    是NERSC項新研究的主要作者,該研究描述的新方法就是基于二次模擬,由伯克利實驗室、谷歌研究院和夸祖魯-納塔爾大學合作開發。
    的頭像 發表于 06-23 10:05 ?2589次閱讀

    一種復制和粘貼URL的新方法

    它也存在于瀏覽器中,Microsoft Edge也不例外。但是,雷蒙德(Redmond)的用戶啟用了一種復制和粘貼URL的新方法,該方法有些簡單,但并非所有用戶都知道如何利用它。這是最合乎邏輯的,因為在瀏覽器中處理地址的
    的頭像 發表于 12-21 16:55 ?4016次閱讀

    一種基于改進的DCGAN生成SAR圖像的方法

    針對SAR圖像識別軟件,通過改進 DCGAN模型單生成器與單判別器對抗的結構,采用多生成器與單判別器進行對抗,設計控制各生成生成圖像平均
    發表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一種</b>基于改進的DCGAN<b class='flag-5'>生成</b>SAR圖像的<b class='flag-5'>方法</b>

    一種Keil MDK生成BIN文件的簡易方法

    一種Keil MDK生成BIN文件的簡易方法。
    發表于 01-13 10:18 ?2次下載

    一種產生激光脈沖的新方法

    英國和韓國的科學家提出了一種產生激光脈沖的新方法,其功率是現有激光脈沖的1000多倍。
    的頭像 發表于 11-20 16:56 ?579次閱讀
    <b class='flag-5'>一種</b>產生激光脈沖的<b class='flag-5'>新方法</b>

    一種降低VIO/VSLAM系統漂移的新方法

    本文提出了一種新方法,通過使用點到平面匹配將VIO/VSLAM系統生成的稀疏3D點云與數字孿生體進行對齊,從而實現精確且全球致的定位,無需視覺數據關聯。所提
    的頭像 發表于 12-13 11:18 ?155次閱讀
    <b class='flag-5'>一種</b>降低VIO/VSLAM系統漂移的<b class='flag-5'>新方法</b>
    主站蜘蛛池模板: 国产视频黄色| 怡红院日本一道日本久久| 最新日本免费一区二区三区中文| 色91在线| 人人人人干| 在线午夜影院| 天天干天天爽| 久久成人免费网站| 天天操免费视频| 热re久久精品国产99热| 清纯唯美亚洲综合欧美色| 亚洲va国产日韩欧美精品色婷婷| 爱爱456高清国语在线456| 深爱婷婷| 久久综合九色综合97婷婷群聊| 天天摸夜班摸天天碰| 屁股趴过来欠打高h| 欧美精品一区二区三区视频| 天天操天天操| 高h文男主又粗又狠| 黄色视屏在线免费播放| 成人夜色| 色偷偷97| 天天插天天干天天操| 狠狠色噜噜狠狠狠狠2018| 激情六月婷婷| 性夜影院爽黄e爽在线观看| 婷婷色人阁| 午夜精品久久久久久99热 | 日本欧美一区二区免费视| 香蕉视频黄色在线观看| wwwxxxx在线观看| xxxx日本xx| 免费的日本网站| jinv在线视频| 三级黄色片在线播放| 色图插插插| 午夜精品福利在线| 五月天婷婷综合网| 一区二区三区四区免费视频| 97人人人人|