在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NeurIPS 2023 | 如何從理論上研究生成式數據增強的效果?

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-11-05 20:15 ? 次閱讀

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

論文鏈接:https://arxiv.org/abs/2305.17476

代碼鏈接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式數據擴增通過條件生成模型生成新樣本來擴展數據集,從而提高各種學習任務的分類性能。然而,很少有人從理論上研究生成數據增強的效果。為了填補這一空白,我們在這種非獨立同分布環境下構建了基于穩定性的通用泛化誤差界。基于通用的泛化界,我們進一步了探究了高斯混合模型和生成對抗網絡的學習情況。

在這兩種情況下,我們證明了,雖然生成式數據增強并不能享受更快的學習率,但當訓練集較小時,它可以在一個常數的水平上提高學習保證,這在發生過擬合時是非常重要的。最后,高斯混合模型的仿真結果和生成式對抗網絡的實驗結果都支持我們的理論結論。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理論結果

2.1 符號與定義

作為數據輸入空間, 作為標簽空間。定義 上的真實分布。給定集合 ,我們定義 為去掉第 個數據后剩下的集合, 為把第 個數據換成 后的集合。我們用 表示 total variation distance。

我們讓 為所有從 的所有可測函數, 為學習算法從數據集 中學到的映射。對于一個學到的映射 和損失函真實誤差 被定義相應的經驗的誤差 被定義

我們文章理論推導采用的是穩定性框架,我們稱算法 相對于損失函數 是一致 穩定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式數據增強

給定帶有 個 i.i.d. 樣本的 數據集,我們能訓練一個條件生成模型 ,并將學到的分布定義為 。基于訓練得到的條件生成模型,我們能生成一個新的具有 個 i.i.d. 樣本的數據集 。我們記增廣后的數據集 大小為 。我們可以在增廣后的數據集上學到映射 。為了理解生成式數據增強,我們關心泛化誤差 。據我們所知,這是第一個理解生成式數據增強泛化誤差的工作。

2.3 一般情況

我們可以對于任意的生成器和一致 穩定的分類器,推得如下的泛化誤差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般來說,我們比較關心泛化誤差界關于樣本數 的收斂率。將 看成超參數,并將后面兩項記為 generalization error w.r.t. mixed distribution,我們可以定義如下的“最有效的增強數量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在這個設置下,并和沒有數據增強的情況進行對比(),我們可以得到如下的充分條件,它刻畫了生成式數據增強何時(不)能夠促進下游分類任務,這和生成模型學習分的能力息息相關:

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型為了驗證我們理論的正確性,我們先考慮了一個簡單的高斯混合模型的 setting。 混合高斯分布。我們考慮二分類任務 。我們假設真實分布滿足 and 。我們假設 的分布是已知的。 線性分類器。我們考慮一個被 參數化的分類器,預測函數為 。給定訓練集, 通過最小化負對數似然損失函數得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

學習算法將會推得 ,which satisfies 條件生成模型。我們考慮參數為 的條件生成模型,其中 以及 。給定訓練集,讓 為第 類的樣本量,條件生成模型學到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它們是 的無偏估計。我們可以從這個條件模型中進行采樣,即 ,其中 我們在高斯混合模型的場景下具體計算 Theorem 3.1 中的各個項,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 當數據量 足夠時,即使我們采用“最有效的增強數量”,生成式數據增強也難以提高下游任務的分類性能。
  2. 當數據量 較小的,此時主導泛化誤差的是維度等其他項,此時進行生成式數據增強可以常數級降低泛化誤差,這意味著在過擬合的場景下,生成式數據增強是很有必要的。

2.5 生成對抗網絡

我們也考慮了深度學習的情況。我們假設生成模型為 MLP 生成對抗網絡,分類器為 層 MLP 或者 CNN。損失函數為二元交叉熵,優化算法為 SGD。我們假設損失函數平滑,并且第 層的神經網絡參數可以被 控制。我們可以推得如下的結論:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 當數據量 足夠時,生成式數據增強也難以提高下游任務的分類性能,甚至會惡化。
  2. 當數據量 較小的,此時主導泛化誤差的是維度等其他項,此時進行生成式數據增強可以常數級降低泛化誤差,同樣地,這意味著在過擬合的場景下,生成式數據增強是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

實驗

3.1 高斯混合模型模擬實驗

我們在混合高斯分布上驗證我們的理論,我們調整數據量 ,數據維度 以及 。實驗結果如下圖所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 觀察圖(a),我們可以發現當 相對于 足夠大的時候,生成式數據增強的引入并不能明顯改變泛化誤差。
  2. 觀察圖(d),我們可以發現當 固定時,真實的泛化誤差確實是 階的,且隨著增強數量 的增大,泛化誤差呈現常數級的降低。
  3. 另外 4 張圖,我們選取了兩種情況,驗證了我們的 bound 能在趨勢上一定程度上預測泛化誤差。
這些結果支持了我們理論的正確性。3.2 深度生成模型實驗我們使用 ResNet 作為分類器,cDCGAN、StyleGANv2-ADA 和 EDM 作為深度生成模型,在 CIFAR-10 數據集上進行了實驗。實驗結果如下所示。由于訓練集上訓練誤差都接近 0,所以測試集上的錯誤率是泛化誤差的一個比較好的估計。我們利用是否做額外的數據增強(翻轉等)來近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在沒有額外數據增強的時候, 較小,分類器陷入了嚴重的過擬合。此時,即使選取的 cDCGAN 很古早(bad GAN),生成式數據增強都能帶來明顯的提升。
  2. 在有額外數據增強的時候, 充足。此時,即使選取的 StyleGAN 很先進(SOTA GAN),生成式數據增強都難以帶來明顯的提升,在 50k 和 100k 增強的情況下甚至都造成了一致的損害。
  3. 我們也測試了一個 SOTA 的擴散模型 EDM,發現即使在有額外數據增強的時候,生成式數據增強也能提升分類效果。這意味著擴散模型學習分布的能力可能會優于 GAN。


原文標題:NeurIPS 2023 | 如何從理論上研究生成式數據增強的效果?

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2912

    文章

    44889

    瀏覽量

    375755

原文標題:NeurIPS 2023 | 如何從理論上研究生成式數據增強的效果?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    檢索增強生成(RAG)系統詳解

    流暢且類似人類的文本方面表現出色,但它們有時在事實準確性存在困難。當準確性非常重要時,這可能是一個巨大的問題。 那么,這個問題的解決方案是什么呢?答案是檢索增強生成(RAG)系統。 RAG集成了像GPT這樣的模型的強大功能,
    的頭像 發表于 12-24 10:44 ?273次閱讀
    檢索<b class='flag-5'>增強</b>型<b class='flag-5'>生成</b>(RAG)系統詳解

    ADS9234R的采樣速率理論上是多少,在正常設計中是否還會降低?

    請問,傳統四線SPI的情況下,在一區傳輸模式中,利用MCU(SPI給的60MHZ最大;MCU主頻480MHZ),它的采樣速率理論上是多少,在正常設計中是否還會降低?
    發表于 11-13 06:04

    生成AI工具作用

    生成AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數據的人工智能技術。在此,petacloud.ai小編為您整理生成
    的頭像 發表于 10-28 11:19 ?282次閱讀

    運放THS4551理論上輸入是線性的,DC掃描,輸出也是線性的,為什么我們的輸出不是線性的?

    運放THS4551 理論上輸入是線性的,DC掃描,輸出也是線性的,為什么我們的輸出不是線性的?是哪里存在問題嗎?請幫忙解決,謝謝
    發表于 08-15 07:20

    如何用C++創建簡單的生成AI模型

    生成AI(Generative AI)是一種人工智能技術,它通過機器學習模型和深度學習技術,大量歷史數據中學習對象的特征和規律,從而能夠生成
    的頭像 發表于 07-05 17:53 ?956次閱讀

    請問移動端生成AI如何在Arm CPU運行呢?

    2023 年,生成人工智能 (Generative AI) 領域涌現出諸多用例。這一突破性的人工智能 (AI) 技術是 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 模型的核心
    的頭像 發表于 05-21 17:07 ?924次閱讀
    請問移動端<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI如何在Arm CPU<b class='flag-5'>上</b>運行呢?

    美日聯手研究生成AI,將建立合作框架

    近期,美國和日本政府宣布將聯手研究生成人工智能(AI),并計劃建立一個合作框架以共同推進該領域的技術進步。
    的頭像 發表于 04-18 15:15 ?629次閱讀

    Bria利用NVIDIA NeMo和Picasso為企業打造負責任的生成AI

    隨著視覺生成 AI 研究階段邁入到商用階段,企業正在尋求負責任的方式來將這項技術集成到其產品中。
    的頭像 發表于 04-12 11:36 ?546次閱讀
    Bria利用NVIDIA NeMo和Picasso為企業打造負責任的<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI

    檢索增強生成(RAG)如何助力企業為各種企業用例創建高質量的內容?

    生成 AI 時代,機器不僅要從數據中學習,還要生成類似人類一樣的文本、圖像、視頻等。檢索增強生成(RAG)則是可以實現的一種突破性方法。
    的頭像 發表于 03-29 15:09 ?990次閱讀

    NVIDIA生成AI研究實現在1秒內生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉 3D 生成 AI 模型)實現雙倍加速。
    的頭像 發表于 03-27 10:28 ?537次閱讀
    NVIDIA<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI<b class='flag-5'>研究</b>實現在1秒內<b class='flag-5'>生成</b>3D形狀

    商湯集團2023全年業績亮眼,生成AI業務爆發式增長

    商湯集團近日發布了截至2023年12月31日的經審核全年業績報告,展現了集團在AI領域的強勁增長勢頭。在全新的戰略布局下,商湯明確了三大業務板塊:生成AI、傳統AI和智能汽車,并以生成
    的頭像 發表于 03-27 09:14 ?629次閱讀

    生成 AI 制作動畫:周期短、成本低!

    ? 電子發燒友網報道(文/李彎彎)生成AI在動畫市場中的應用正在迅速崛起。根據市場機構數據,預計到2023生成
    的頭像 發表于 03-18 08:19 ?3721次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 制作動畫:周期短、成本低!

    名單公布!【書籍評測活動NO.30】大規模語言模型:理論到實踐

    。 為了使更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎,并開展大模型實踐,復旦大學張奇教授團隊結合他們在自然語言處理領域的研究經驗,以及分布系統和
    發表于 03-11 15:16

    請問下stm32G0系列理論上的外部中斷響應時間是多少?

    大佬們,請問下stm32G0系列理論上的外部中斷響應時間是多少?我在spec里面沒有找到對這塊的詳細描述,只有如下描述; 看之前的帖子stm32F103的外部中斷響應時間是12個時鐘周期,實際應該會比這個時間長,G0也是一樣的嗎?
    發表于 03-08 07:41

    生成人工智能和感知人工智能的區別

    生成新的內容和信息的人工智能系統。這些系統能夠利用已有的數據和知識來生成全新的內容,如圖片、音樂、文本等。生成人工智能通常基于深度學習技術
    的頭像 發表于 02-19 16:43 ?1960次閱讀
    主站蜘蛛池模板: 日本大片免a费观看在线| 日韩色网| 日本欧美一区二区三区不卡视频| 在线观看亚洲一区二区| 免费在线看视频| 亚洲码在线| 九九re| 亚洲色图88| 天堂视频在线免费观看| 日本xxxx色视频在线观看免| 毛片日韩| yy4080一级毛片免费观看| 午夜小网站| 精品国产一二三区| 2019天天爱天天做| 视频二区在线观看| 亚洲网在线观看| 日本a级片在线播放| 狠狠色丁香久久婷婷综合丁香| 成人欧美一区二区三区黑人免费| 亚洲禁片| 成人在线一区二区三区| 亚洲国产一区二区在线| 亚洲综合色婷婷中文字幕| 色多多污网站在线观看| 激情天堂| 天堂网www在线资源链接| 伊人2233| 中国一级特黄真人毛片| 日韩精品在线一区二区| 国产精品久久精品牛牛影视| 天天操网| caoporn97人人做人人爱最新| 怡红院网址| 女人张开腿让男人捅爽| 在线一区观看| 久久99热国产这有精品| 色综合国产| 成人欧美一区二区三区黑人3p| 日本黄页网站在线观看| 爱逼色|