好看的课外书,豆豆小说阅读网,有声小说下载

分類是機器學習最常見的應用之一。分類技術可預測離散的響應 — 例如，電子郵件是不是垃圾郵件，腫瘤是惡性還是良性的。分類模型可將輸入數據劃分成不同類別。典型的應用包括醫學成像、語音識別和信用評估。

選擇最合適的分類模型，診斷和糾正過擬合是機器學習的基本技能。那什么是過擬合? 我們又可以如何防止和避免過擬合呢?

什么是過擬合?

過擬合指當模型與訓練數據過于接近貼合，以至于不知道如何對新數據做出響應時發生的一種機器學習行為。過擬合的原因可能是：

機器學習模型太過復雜; 它記憶了訓練數據中非常微妙的的模式，而這些模式無法很好地泛化。

訓練數據的規模對于模型復雜度來說太小，和/或者包含大量不相關的信息。

您可以通過管理模型復雜度和改進訓練數據集來防止過擬合。

過擬合與欠擬合

欠擬合與過擬合正相反。欠擬合指模型不能很好地與訓練數據貼合，也無法很好地泛化到新數據。在分類模型和回歸模型中都可能出現過擬合和欠擬合。下圖說明了過擬合的模型的分類決策邊界和回歸線如何過于緊密地跟隨訓練數據，而欠擬合的模型的分類決策邊界和回歸線又如何不夠緊密地跟隨訓練數據。

與正確擬合的模型相比，過擬合的分類模型和回歸模型對訓練數據的記憶太好。

當只針對訓練數據查看機器學習模型的計算誤差時，過擬合比欠擬合更難檢測。因此，為了避免過擬合，在對測試數據使用機器學習模型之前對其進行驗證就很重要。

針對訓練數據，過擬合模型的計算誤差低，而測試數據的誤差高。

將 MATLAB 與 Statistics and Machine Learning Toolbox 和 Deep Learning Toolbox 結合使用，可以防止機器學習模型和深度學習模型的過擬合。 MATLAB 提供了專為避免模型過擬合而設計的函數和方法。您可以在訓練或調整模型時使用這些工具來防止過擬合。

如何通過降低模型復雜度來避免過擬合

使用 MATLAB，您可以從頭開始訓練機器學習模型和深度學習模型(如 CNN)，或利用預訓練的深度學習模型。為了防止過擬合，請執行模型驗證，以確保為數據選擇具有合適復雜程度的模型，或使用正則化來降低模型的復雜度。

模型驗證

當對訓練數據進行計算時，過擬合模型的誤差較低。因此，在引入新數據之前，最好在單獨的數據集(即驗證數據集)上驗證您的模型。對于 MATLAB 機器學習模型，您可以使用 cvpartition 函數將數據集隨機劃分為訓練集和驗證集。對于深度學習模型，您可以在訓練過程中監控驗證準確度。通過模型選擇和超參數調整來提高經過正確驗證的模型準確度度量應該能夠提高模型處理新數據的準確度。

交叉驗證是一種模型評估方法，用于評估機器學習算法對新數據集執行預測的性能。交叉驗證可以幫助您避免選擇過于復雜而導致過擬合的算法。使用 crossval 函數，通過使用常見的交叉驗證方法來計算機器學習模型的交叉驗證誤差估計值。這些常見方法包括如 k 折法(將數據劃分為 k 個隨機選擇的大小大致相等的子集)和留出法(將數據按照指定比率隨機劃分為兩個子集)等。

正則化

正則化是一種用于防止機器學習模型中的統計過擬合的方法。正則化算法通常通過對復雜度或粗糙度應用罰分來實現。通過向模型中引入更多信息，正則化算法可以使模型更加簡約和準確，從而處理多重共線性和冗余預測變量。

對于機器學習，您可以在三種流行的正則化方法之間進行選擇：lasso(L1 范數)、脊(L2 范數)和彈性網，以用于幾種類型的線性機器學習模型。對于深度學習，您可以在指定的訓練選項中增大 L2 正則化因子，或在您的網絡中使用丟棄層來避免過擬合。

示例和操作方法

正則化

深度學習提示和竅門

如何通過增強訓練數據集來避免過擬合

交叉驗證和正則化通過管理模型復雜度來防止過擬合。另一種方法是改進數據集。深度學習模型比其他機器學習模型更需要大量的數據來避免過擬合。

數據增強

當數據可用性受限時，可使用數據增強方法來向數據集添加現有數據的隨機版本從而人為擴展訓練數據集的數據點。使用 MATLAB，您可以增強圖像、音頻和其他類型的數據。例如，通過隨機化現有圖像的縮放比例和旋轉來增強圖像數據。

數據生成

合成數據生成是擴展數據集的另一種方法。使用 MATLAB，您可以使用生成對抗網絡 (GAN) 或數字孿生(通過仿真生成數據)來生成合成數據。

數據清洗

數據噪聲會導致過擬合。減少不想要的數據點的一種常見方法是使用 rmoutliers 函數從數據中刪除離群值。

示例和操作方法

使用增強的圖像訓練網絡

增強深度學習的點云數據

使用條款 GAN 生成的合成信號

設置參數并訓練卷積神經網絡

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

matlab

matlab

+關注

關注
185

文章
2976

瀏覽量
230484
語音識別

語音識別

+關注

關注
38

文章
1739

瀏覽量
112661
模型

模型

+關注

關注
1

文章
3244

瀏覽量
48843
機器學習

機器學習

+關注

關注
66

文章
8418

瀏覽量
132646
數字孿生

數字孿生

+關注

關注
4

文章
1325

瀏覽量
12254

原文標題：機器學習挑戰：如何避免機器學習模型過擬合？

文章出處：【微信號：MATLAB，微信公眾號：MATLAB】歡迎添加關注！文章轉載請注明出處。

機器學習基礎知識包括評估問題，理解過擬合、欠擬合以及解決問題的技巧

本章涵蓋了以下主題： · 分類和回歸之外的其他類型的問題； · 評估問題，理解過擬合、欠擬合，以及解決這些問題的技巧； · 為深度學習準備數據。請記住，在本章中討論的大多數技術都是

發表于 07-12 09:28 ?956次閱讀

<b class='flag-5'>機器</b><b class='flag-5'>學習</b>基礎知識包括評估問題，理解<b class='flag-5'>過</b><b class='flag-5'>擬合</b>、欠<b class='flag-5'>擬合</b>以及解決問題的技巧

機器學習模型評估指標

機器學習模型指標在機器學習建模過程中，針對不同的問題，需采用不同的模型評估指標。

發表于 09-06 12:51 ?1122次閱讀

<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>模型</b>評估指標

tensorflow機器學習日志

tensorflow學習日志(四)機器學習（泛化,過擬合, 數據集，驗證集，測試集）

發表于 04-14 06:32

深度學習中過擬合/欠擬合的問題及解決方案

的數據可以對未來的數據進行推測與模擬，因此都是使用歷史數據建立模型，即使用已經產生的數據去訓練，然后使用該模型去擬合未來的數據。在我們機器學習

發表于 01-28 06:57

微型機器學習

人工智能 AI 正在加快速度從云端走向邊緣，進入到越來越小的物聯網設備中。而這些物聯網設備往往體積很小，面臨著許多挑戰，例如功耗、延時以及精度等問題，傳統的機器學習模型無法滿足要求，那

發表于 09-15 09:23

什么是機器學習? 機器學習基礎入門

另一方面，機器學習是向計算機提供一組輸入和輸出，并要求計算機識別“算法”(或用機器學習的說法稱為模型)的過程，這種算法每次都將這些輸入轉化為

發表于 06-21 11:06

部署基于嵌入的機器學習模型

1、如何在生產中部署基于嵌入的機器學習模型　　由于最近大量的研究，機器學習模型的性能在過去幾年里

發表于 11-02 15:09

區塊鏈分析中的過度擬合還有什么挑戰

當與區塊鏈數據集一起使用時，機器學習模型往往會過擬合。

發表于 02-05 10:35 ?621次閱讀

六個構建機器學習模型需避免的錯誤

近年來，機器學習在學術研究領域和實際應用領域得到越來越多的關注。但構建機器學習模型不是一件簡單的事情，它需要大量的知識和技能以及豐富的經驗，

發表于 05-05 16:39 ?1419次閱讀

如何評估機器學習模型的性能？機器學習的算法選擇

如何評估機器學習模型的性能？典型的回答可能是：首先，將訓練數據饋送給學習算法以學習一個模型。第二

發表于 04-04 14:15 ?1032次閱讀

精通機器學習之MATLAB分步實施指南

加載數據到部署訓練模型的整個開發流程。對于每個訓練階段，我們將演示取得精確模型的關鍵技術，幫助您掌握更具挑戰性的訓練任務，包括選擇算法、優化模型參數和

發表于 05-29 09:14 ?0次下載

機器學習算法匯總機器學習算法分類機器學習算法模型

機器學習算法匯總機器學習算法分類機器學習算法模型

發表于 08-17 16:11 ?1111次閱讀

深度學習模型中的過擬合與正則化

在深度學習的廣闊領域中，模型訓練的核心目標之一是實現對未知數據的準確預測。然而，在實際應用中，我們經常會遇到一個問題——過擬合（Overfitting）。

發表于 07-09 15:56 ?959次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

機器學習挑戰：如何避免機器學習模型過擬合？

評論

機器學習基礎知識包括評估問題，理解過擬合、欠擬合以及解決問題的技巧

機器學習模型評估指標

過擬合和欠擬合(1)#機器學習

【下載】《機器學習》+《機器學習實戰》

tensorflow機器學習日志

深度學習中過擬合/欠擬合的問題及解決方案

微型機器學習

什么是機器學習? 機器學習基礎入門

部署基于嵌入的機器學習模型

區塊鏈分析中的過度擬合還有什么挑戰

六個構建機器學習模型需避免的錯誤

如何評估機器學習模型的性能？機器學習的算法選擇

精通機器學習之MATLAB分步實施指南

機器學習算法匯總機器學習算法分類機器學習算法模型

深度學習模型中的過擬合與正則化