一。什么是機器學習
人工智能標準化白皮書(2018版)
機器學習(Machine Learning)是一門涉及統(tǒng)計學、系統(tǒng)辨識、逼近理論、神經(jīng)網(wǎng)絡、優(yōu)化理論、計算機科學、腦科學等諸多領域的交叉學科,研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,是人工智能技術的核心。
基于數(shù)據(jù)的機器學習是現(xiàn)代智能技術中的重要方法之一,研究從觀測數(shù)據(jù)(樣本)出發(fā)尋找規(guī)律,利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進行預測。
Andrew Ng (吳恩達)
Machine Learning is the science of getting computers to act without being explicitly programmed.
機器學習是一門讓計算機無需顯式編程即可運行的科學。
Microsoft(微軟公司)
Machine learning is a technique of data science thathelps computers learn from existing data in order toforecast future behaviors, outcomes, and trends.
機器學習是一種數(shù)據(jù)科學技術,它幫助計算機從現(xiàn)有數(shù)據(jù)中學習,從而預測未來的行為、結果和趨勢。
二。機器學習的相關術語
樣本(sample)、示例(instance):
所研究對象的一個個體。相當于統(tǒng)計學中的實例(example,instance)
特征(feature)、屬性(attribute):
反映事件或對象在某方面的表現(xiàn)或性質的事項,如大小,顏色
屬性值(attribute value):
屬性上的取值,例如“青綠”“烏黑”
屬性張成的空間稱為 “屬性空間”(attribute space)、“ 樣本空間”(sample space)或“輸入空間”。
特征空間(feature space):
分別以每個特征作為一個坐標軸,所有特征所在坐標軸張成一個用于描述不同樣本的空間,稱為特征空間
在該空間中,每個具體樣本就對應空間的一個點,在這個意義下,也稱樣本為樣本點。
每個樣本點對應特征空間的一個向量,稱為 “特征向量”
特征的數(shù)目即為特征空間的維數(shù)。
樣本集 (sample set)、數(shù)據(jù)集(data set):
若干樣本構成的集合;該集合的每個元素就是一個樣本
測試樣本”(testing sample):
學得模型后,使用該模型進行預測的過程稱為“ 測試”(testing), 被預測的樣本稱為“測試樣本”。
標記(label):
有前面的樣本數(shù)據(jù)顯然是不夠的,要建立這樣的關于“預測”(prediction) 的模型,我們需獲得訓練樣本的“結果”信息,例如“((色澤=青綠;根蒂=蜷縮;敲聲= =濁響),好瓜)”。這里關于示例結果的信息,例如“好瓜”,稱為“標記”(label); 擁有了標記信息的示例,則稱為“樣例”(example)。
分類(classification):
若我們欲預測的是離散值,例如“好瓜”“壞瓜”,此類學習任務稱為“分類”
回歸(regression)
若欲預測的是連續(xù)值,例如西瓜成熟度0.95、0.37,類學習任務稱為“回歸”。
對只涉及兩個類別的稱為“二分類’(binary classification)’
聚類”(clustering)
即將訓練集中的樣本分成若干組,每組稱為一個 “簇”(cluster);
根據(jù)訓練數(shù)據(jù)是否擁有標記信息,學習任務可大致劃分為兩大類:“ 監(jiān)督學習”(supervised learning) 和 “無監(jiān)督學習”(unsupervised learning), 分類和回歸是前者的代表,而聚類則是后者的代表.
-
機器人
+關注
關注
211文章
28591瀏覽量
207822 -
人工智能
+關注
關注
1793文章
47564瀏覽量
239411 -
機器學習
+關注
關注
66文章
8434瀏覽量
132871
發(fā)布評論請先 登錄
相關推薦
評論