機器學習是一種將傳統(tǒng)數(shù)學與現(xiàn)代強大的計算處理相結合的技術,以學習數(shù)據(jù)集中固有的模式。 在機器學習中,目標是產(chǎn)生一種可以使用這些模式執(zhí)行某些指定任務的算法。
在監(jiān)督式機器學習的情況下,目標可能是開發(fā)一個模型,該模型可以識別一組輸入所屬的類別或類別,或預測連續(xù)值,例如房屋價格。
在本文中,我將介紹機器學習中的一些關鍵概念。 如果您是機器學習的新手,這將使您對本領域中使用的一些術語和技術有一個很好的了解。
1.特征
在機器學習中,我們上面討論的輸入稱為特征。 要素是分配給數(shù)據(jù)點的一組屬性。
以下示例數(shù)據(jù)集是著名的數(shù)據(jù)集,通常用于機器學習實踐問題(稱為"波士頓住房價格")。 它由一組與房屋相關的功能(在下圖中以紅色突出顯示)組成,例如年齡,平均房間數(shù)和物業(yè)稅值以及相應的房價。
為了使機器學習模型成功完成其任務,至少其中一些功能與房屋價格之間需要存在統(tǒng)計關系。
> Boston housing prices dataset — features are highlighted red
2.特征選擇與工程
優(yōu)化機器學習模型的重要一步是優(yōu)化。 我們開發(fā)的模型需要以最佳狀態(tài)執(zhí)行,而要確保做到這一點的一種方法是使用最佳功能來訓練模型。
包括每個特征并不總是有用的。 有些特征可能與我們嘗試預測的變量沒有有意義的統(tǒng)計關系,而另一些特征可能彼此緊密相關。 這兩種情況都將噪聲引入訓練階段,這可能會降低模型性能。 特征選擇是選擇最佳特征以包含在訓練階段中的過程。
同樣,原始形式的特征可能無法提供足夠的有意義的數(shù)據(jù)來訓練性能模型。 另外,某些特征根本不能以其原始形式使用,一個很好的例子就是基于日期/時間的功能。 機器學習模型不能使用日期或時間戳作為特征,我們需要首先從日期中導出有意義的特征,才能包含此信息。 我們可以使用整數(shù)形式的日期部分(例如月,日或星期數(shù)),或計算兩個日期之間的差,以提供算法可以理解的模式。 這就是所謂的特征工程。
3.標簽
有監(jiān)督的機器學習需要一些被稱為標記數(shù)據(jù)的東西。 這意味著每組要素都具有相應標簽的數(shù)據(jù)。 這些標簽可以是類別或類型(例如貓或狗),也可以是連續(xù)值,例如在波士頓房屋價格數(shù)據(jù)集中以標簽為價格的情況。
在開發(fā)機器學習模型時,功能通常稱為X,標簽稱為y。
> Boston housing prices dataset — labels are highlighted red
4.訓練
監(jiān)督式機器學習需要標記數(shù)據(jù),因為算法使用這些示例特征值及其對應的標記來"學習"模式,如果成功,則將使模型能夠準確地預測新的未標記數(shù)據(jù)上的標記。
在機器學習過程中,學習的這一階段稱為訓練階段。 在此階段結束時,您將擁有一個可用于預測新的未標記數(shù)據(jù)的標簽或值的模型。 訓練階段通常稱為擬合模型。
5.調(diào)參
在本文前面介紹功能選擇時,我曾討論過一個優(yōu)化過程。 此過程的另一部分稱為調(diào)參,涉及優(yōu)化算法參數(shù)以找到適合您特定數(shù)據(jù)集的最佳組合。
所有機器學習模型都包含具有多種選項的參數(shù)。 例如,隨機森林模型具有許多可調(diào)參數(shù)。 一個示例是n_estimators,它確定森林中樹木的數(shù)量。 通常,樹的數(shù)量越多,結果越好,但是在特定點(并且這取決于數(shù)據(jù)集),隨著您添加更多的樹,改進會降低。 為您的數(shù)據(jù)集找到最佳樹數(shù)是一種調(diào)整隨機森林算法參數(shù)的方法。
每種算法都有許多可調(diào)參數(shù),并且每個參數(shù)都有大量潛在的選項。 幸運的是,有自動方法可以找到這些參數(shù)的最佳組合,這就是所謂的超參數(shù)優(yōu)化。
6.驗證
建立模型后,我們需要確定其執(zhí)行給定任務的能力。 在我們的示例數(shù)據(jù)中,我們將要了解模型可以多么準確地預測房屋價格。 在機器學習中,建立最佳性能指標很重要,這將根據(jù)我們要解決的問題而有所不同。
通常,在開始機器學習項目時,我們將首先將要使用的數(shù)據(jù)集分為兩部分。 我們一個用來訓練模型,另一個用于測試階段。
機器學習中的測試通常稱為驗證。 我們使用模型對保留的測試數(shù)據(jù)集進行預測,并測量所選的性能指標,以確定模型能夠很好地執(zhí)行給定任務。
本文概述了討論機器學習時最常用的一些術語和概念。 如果您剛剛開始學習,它應該可以幫助您了解機器學習教程中使用的一些術語。 如果您想深入學習使用python創(chuàng)建您的第一個模型,可以在這里閱讀我的教程"如何創(chuàng)建您的第一個機器學習模型"。
-
機器學習
+關注
關注
66文章
8424瀏覽量
132761
發(fā)布評論請先 登錄
相關推薦
評論