我欲封天,小说,大主宰txt全集下载

最近有很多關于數據是否是新模型驅動［1］［2］的討論，無論結論如何，都無法改變我們在實際工作中獲取數據成本很高這一事實（人工費用、許可證費用、設備運行時間等方面）。

因此，在機器學習項目中，一個關鍵的問題是，為了達到比如分類器準確度等特定性能指標，我們需要多少訓練數據才夠。訓練數據多少的問題在相關文獻中也稱為樣本復雜度。

在這篇文章中，我們將從回歸分析開始到深度學習等領域，快速而廣泛地回顧目前關于訓練數據多少的經驗和相關的研究結果。具體來說，我們將：

說明回歸任務和計算機視覺任務訓練數據的經驗范圍；

給定統計檢驗的檢驗效能，討論如何確定樣本數量。這是一個統計學的話題，然而，由于它與確定機器學習訓練數據量密切相關，因此也將包含在本討論中；

展示統計理論學習的結果，說明是什么決定了訓練數據的多少；

給出下面問題的答案：隨著訓練數據的增加，模型性能是否會繼續改善？在深度學習的情況下又會如何？

提出一種在分類任務中確定訓練數據量的方法；

最后，我們將回答這個問題：增加訓練數據是處理數據不平衡的最佳方式嗎？

訓練數據量的經驗范圍

首先讓我們看一些廣泛使用的，用來確定訓練數據量的經驗方法，根據我們使用的模型類型：

回歸分析：根據 1/10 的經驗規則，每個預測因子［3］需要 10 個樣例。在［4］中討論了這種方法的其他版本，比如用 1/20 來處理回歸系數減小的問題，在［5］中提出了一個令人興奮的二元邏輯回歸變量。

具體地說，作者通過考慮預測變量的數量、總體樣本量以及正樣本量/總體樣本量的比例來估計訓練數據的多少。

計算機視覺：對于使用深度學習的圖像分類，經驗法則是每一個分類需要 1000 幅圖像，如果使用預訓練的模型［6］，這個需求可以顯著下降。

假設檢驗中樣本大小的確定

假設檢驗是數據科學家用來檢驗群體差異、確定新藥物療效等的工具之一?？紤]到進行測試的能力，這里通常需要確定樣本大小。

讓我們來看看這個例子：一家科技巨頭搬到了 A 市，那里的房價大幅上漲。一位記者想知道，現在公寓的平均價格是多少。

如果給定公寓價格標準差為 60K，可接受的誤差范圍為 10K，他應該統計多少套公寓的價格然后進行平均，才能使結果有 95% 的置信度？

計算的公式如下：N 是他需要的樣本量，1.96 是 95% 置信度所對應的標準正態分布的個數：

樣本容量估計

根據上面的等式，記者需要考慮約 138 套公寓的價格即可。

上面的公式會根據具體的測試任務而變化，但它總是包括置信區間、可接受的誤差范圍和標準差度量。在［7］中可以找到關于這個主題的更好的討論。

訓練數據規模的統計學習理論

讓我們首先介紹一下著名的 Vapnik-Chevronenkis 維度（ VC 維）［8］。VC 維是模型復雜度的度量，模型越復雜，VC 維越大。在下一段中，我們將介紹一個用 VC 表示訓練數據大小的公式。

首先，讓我們看一個經常用于展示 VC 維如何計算的例子：假設我們的分類器是二維平面上的一條直線，有 3 個點需要分類。

無論這 3 個點的正/負組合是什么（都是正的、2個正的、1個正的，等等），一條直線都可以正確地分類/區分這些正樣本和負樣本。

我們說線性分類器可以區分所有的點，因此，它的 VC 維至少是 3，又因為我們可以找到4個不能被直線準確區分的點的例子，所以我們說線性分類器的 VC 維正好是3。結果表明，訓練數據大小 N 是 VC 的函數［8］：

從 VC 維估計訓練數據的大小

其中 d 為失效概率，epsilon 為學習誤差。因此，正如［9］所指出的，學習所需的數據量取決于模型的復雜度。一個明顯的例子是眾所周知的神經網絡對訓練數據的貪婪，因為它們非常復雜。

隨著訓練數據的增加，模型性能會繼續提高嗎？在深度學習的情況下又會怎樣？

學習曲線

上圖展示了在傳統機器學習［10］算法（回歸等）和深度學習［11］的情況下，機器學習算法的性能隨著數據量的增加而如何變化。

具體來說，對于傳統的機器學習算法，性能是按照冪律增長的，一段時間后趨于平穩。文獻［12］-［16］，［18］的研究展示了對于深度學習，隨著數據量的增加性能如何變化。

圖1顯示了當前大多數研究的共識：對于深度學習，根據冪次定律，性能會隨著數據量的增加而增加。

例如，在文獻［13］中，作者使用深度學習技術對3億幅圖像進行分類，他們發現隨著訓練數據的增加模型性能呈對數增長。

讓我們看看另一些在深度學習領域值得注意的，與上述矛盾的結果。具體來說，在文獻［15］中，作者使用卷積網絡來處理 1 億張 Flickr 圖片和標題的數據集。

對于訓練集的數據量，他們報告說，模型性能會隨著數據量的增加而增加，然而，在 5000 萬張圖片之后，它就停滯不前了。

在文獻［16］中，作者發現圖像分類準確度隨著訓練集的增大而增加，然而，模型的魯棒性在超過與模型特定相關的某一點后便開始下降。

在分類任務中確定訓練數據量的方法

眾所周知的學習曲線，通常是誤差與訓練數據量的關系圖。［17］和［18］是了解機器學習中學習曲線以及它們如何隨著偏差或方差的增加而變化的參考資料。Python 在 scikit-learn ［17］也中提供了一個學習曲線的函數。

在分類任務中，我們通常使用一個稍微變化的學習曲線形式：分類準確度與訓練數據量的關系圖。

確定訓練數據量的方法很簡單：首先根據任務確定一個學習曲線形式，然后簡單地在圖上找到所需分類準確度對應的點。例如，在文獻［19］、［20］中，作者在醫學領域中使用了學習曲線法，并用冪律函數表示：

學習曲線方程

上式中 y 為分類準確度，x 為訓練數據，b1、b2 分別對應學習率和衰減率。參數的設置隨問題的不同而變化，可以用非線性回歸或加權非線性回歸對它們進行估計。

增加訓練數據是處理數據不平衡的最好方法嗎？

這個問題在文獻［9］中得到了解決。作者提出了一個有趣的觀點：在數據不平衡的情況下，準確性并不是衡量分類器性能的最佳指標。

原因很直觀：讓我們假設負樣本是占絕大多數，然后如果我們在大部分時間里都預測為負樣本，就可以達到很高的準確度。

相反，他們建議準確度和召回率（也稱為靈敏度）是衡量數據不平衡性能的最合適指標。除了上述明顯的準確度問題外，作者還認為，測量精度對不平衡區域的內在影響更大。

例如，在醫院的警報系統［9］中，高精確度意味著當警報響起時，病人很可能確實有問題。

選擇適當的性能測量方法，作者比較了在 imbalanced-learn ［21］（Python scikit-learn 庫）中的不平衡校正方法和簡單的使用一個更大的訓練數據集。

具體地說，他們在一個 50，000 個樣本的藥物相關的數據集上，使用 imbalance-correction 中的K近鄰方法進行數據不平衡校正，這些不平衡校正技術包括欠采樣、過采樣和集成學習等，然后在與原數據集相近的 100 萬數據集上訓練了一個神經網絡。

作者重復實驗了 200 次，最終的結論簡單而深刻：在測量準確度和召回率方面，沒有任何一種不平衡校正技術可以與增加更多的訓練數據相媲美。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

計算機視覺

計算機視覺

+關注

關注
8

文章
1698

瀏覽量
46030
深度學習

深度學習

+關注

關注
73

文章
5507

瀏覽量
121265

原文標題：深度學習，怎么知道你的訓練數據真的夠了？

文章出處：【微信號：cas-ciomp，微信公眾號：中科院長春光機所】歡迎添加關注！文章轉載請注明出處。

深度學習與機器學習有什么差異你知道嗎？

如果你經常想讓自己弄清楚機器學習和深度學習的區別，閱讀該文章，我將用通俗易懂的語言為你介紹他們之間的差別。

發表于 10-31 14:37 ?1.3w次閱讀

<b class='flag-5'>深度</b><b class='flag-5'>學習</b>與機器<b class='flag-5'>學習</b>有什么差異<b class='flag-5'>你</b><b class='flag-5'>知道</b>嗎？

如何才能高效地進行深度學習模型訓練？

分布式深度學習框架中，包括數據/模型切分、本地單機優化算法訓練、通信機制、和數據/模型聚合等模塊。現有的算法一般采用隨機置亂切分的

發表于 07-09 08:48 ?1.4w次閱讀

如何才能高效地進行<b class='flag-5'>深度</b><b class='flag-5'>學習</b>模型<b class='flag-5'>訓練</b>？

深度學習與數據挖掘的關系

;而深度學習使用獨立的層、連接，還有數據傳播方向，比如最近大火的卷積神經網絡是第一個真正多層結構學習算法，它利用空間相對關系減少參數數目以提高訓練

發表于 07-04 16:07

機器學習訓練秘籍——吳恩達

能力訓練出規模足夠大的神經網絡來使用現有的海量數據集。具體來說，即使你積累了更多的數據，但應用在類似于對數幾率回歸（logistic regression）這樣較傳統的

發表于 11-30 16:45

干貨 | 這些機器學習算法，你了解幾個？

可以保持分支直到它們記住了所有的訓練數據。但是，這個問題可以通過使用集成的方式來緩解。實現：隨機森林 - Python / R，梯度增強樹 - Python / R 1.3。深度學習

發表于 09-22 08:30

深度學習入門之中根據源代碼下載到mnist數據集,訓練識別率超級低問題

深度學習入門中根據源代碼下載到mnist數據集,訓練識別率超級低問題

發表于 07-08 16:53

深度學習中最核心的問題之一：訓練數據

今天我們將討論深度學習中最核心的問題之一：訓練數據。深度學習已經在現實世界得到了廣泛運用，例如：

發表于 12-25 10:34 ?1.1w次閱讀

深度學習是什么？了解深度學習難嗎?讓你快速了解深度學習的視頻講解

本深度學習是什么？了解深度學習難嗎?讓你快速了解深度學習

發表于 08-23 14:36 ?16次下載

深度學習網絡訓練技巧的詳細資料匯總

本文檔的主要內容詳細介紹的是深度學習網絡訓練技巧匯總，總結訓練網絡的各種經驗和技巧

發表于 03-07 08:00 ?10次下載

如何使用框架訓練網絡加速深度學習推理

TensorRT ，第二個例子是在 Cityscapes 數據集上訓練的基于?英偉達數據中心深度學習產品性能?的語義分割。

發表于 04-01 15:45 ?2844次閱讀

深度學習框架區分訓練還是推理嗎

深度學習框架區分訓練還是推理嗎深度學習框架是一個非常重要的技術，它們能夠加速深度

發表于 08-17 16:03 ?1398次閱讀

視覺深度學習遷移學習訓練框架Torchvision介紹

Torchvision是基于Pytorch的視覺深度學習遷移學習訓練框架，當前支持的圖像分類、對象檢測、實例分割、語義分割、姿態評估模型的遷移學習

發表于 09-22 09:49 ?923次閱讀

深度學習如何訓練出好的模型

算法工程、數據派THU深度學習在近年來得到了廣泛的應用，從圖像識別、語音識別到自然語言處理等領域都有了卓越的表現。但是，要訓練出一個高效準確的深度

發表于 12-07 12:38 ?1119次閱讀

深度學習模型訓練過程詳解

深度學習模型訓練是一個復雜且關鍵的過程，它涉及大量的數據、計算資源和精心設計的算法。訓練一個深度

發表于 07-01 16:13 ?1332次閱讀

Pytorch深度學習訓練的方法

掌握這 17 種方法，用最省力的方式，加速你的 Pytorch 深度學習訓練。

發表于 10-28 14:05 ?227次閱讀