大主宰天蚕土豆小说,盗墓笔记同人小说,完结小说排行榜

????Content：

9.1 Supervised Learning and Unsupervised Learning

9.2 K-means algorithm

9.3 Optimization objective

9.4 Random Initialization

9.5 Choosing the Number of Clusters

9.1 Supervised Learning and Unsupervised Learning

我們已經學習了許多機器學習算法，包括線性回歸，Logistic回歸，神經網絡以及支持向量機。這些算法都有一個共同點，即給出的訓練樣本自身帶有標記。比如，使用線性回歸預測房價時，我們所使用的每一個訓練樣本是一個或多個變量(如面積，樓層等)以及自身帶有的標記即房價。而使用Logistic回歸，神經網絡和支持向量機處理分類問題時，也是利用訓練樣本自身帶有標記即種類，例如進行垃圾郵件分類時是利用已有的垃圾郵件(標記為1)和非垃圾郵件(標記為0)，進行數字識別時，變量是每個像素點的值，而標記是數字本身的值。我們把使用帶有標記的訓練樣本進行學習的算法稱為監督學習(Supervised Learning)。監督學習的訓練樣本可以統一成如下形式，其中x為變量，y為標記。

顯然，現實生活中不是所有數據都帶有標記(或者說標記是未知的)。所以我們需要對無標記的訓練樣本進行學習，來揭示數據的內在性質及規律。我們把這種學習稱為無監督學習(Unsupervised Learning)。所以，無監督學習的訓練樣本如下形式，它僅包含特征量。

圖9-1形象的表示了監督學習與無監督學習的區別。圖(1)表示給帶標記的樣本進行分類，分界線兩邊為不同的類(一類為圈，另一類為叉)；圖(2)是基于變量x1和x2對無標記的樣本(表面上看起來都是圈)進行聚類(Clustering)。

機器學習算法的無監督學習的詳細介紹

圖9-1 一個監督學習與無監督學習的區別實例

無監督學習也有很多應用，一個聚類的例子是：對于收集到的論文，根據每個論文的特征量如詞頻，句子長，頁數等進行分組。聚類還有許多其它應用，如圖9-2所示。一個非聚類的例子是雞尾酒會算法，即從帶有噪音的數據中找到有效數據(信息)，例如在嘈雜的雞尾酒會你仍然可以注意到有人叫你。所以雞尾酒會算法可以用于語音識別(詳見wikipedia)。

quora上有更多關于監督學習與無監督學習之間的區別的討論。

機器學習算法的無監督學習的詳細介紹

圖9-2 一些聚類的應用

9.2 K-means algorithm

聚類的基本思想是將數據集中的樣本劃分為若干個通常是不相交的子集，每個子集稱為一個"簇"(cluster)。劃分后，每個簇可能有對應的概念(性質)，比如根據頁數，句長等特征量給論文做簇數為2的聚類，可能得到一個大部分是包含碩士畢業論文的簇，另一個大部分是包含學士畢業論文的簇。

K均值(K-means)算法是一個廣泛使用的用于簇劃分的算法。下面說明K均值算法的步驟：

隨機初始化K個樣本(點)，稱之為簇中心(cluster centroids)；

簇分配: 對于所有的樣本，將其分配給離它最近的簇中心；

移動簇中心：對于每一個簇，計算屬于該簇的所有樣本的平均值，移動簇中心到平均值處；

重復步驟2和3，直到找到我們想要的簇（即優化目標，詳解下節9.3）

圖9-3演示了以特征量個數和簇數K均為2的情況。

機器學習算法的無監督學習的詳細介紹

圖9-3 K均值算法的演示

通過上述描述，下面我們形式化K均值算法。

輸入：

K (number of clusters)

Training set

算法:

Randomly initialize K cluster centroids

Repeat {

for i = 1 to m

for k = 1 to K

}

上述算法中，第一個循環對應了簇分配的步驟：我們構造向量c，使得c(i)的值等于x(i)所屬簇的索引，即離x(i)最近簇中心的索引。用數學的方式表示如下：

第二個循環對應移動簇中心的步驟，即移動簇中心到該簇的平均值處。更數學的方式表示如下：

其中

如果有一個簇中心沒有分配到一個樣本，我們既可以重新初始化這個簇中心，也可以直接將其去除。

經過若干次迭代后，該算法將會收斂，也就是繼續迭代不會再影響簇的情況。

在某些應用中，樣本可能比較連續，看起來沒有明顯的簇劃分，但是我們還是可以用K均值算法將樣本分為K個子集供參考。例如根據人的身高和體重劃分T恤的大小碼，如圖9-4所示。

圖9-4K-means for non-separated clusters

9.3 Optimization objective

重新描述在K均值算法中使用的變量：

使用這些變量，定義我們的cost function如下：

所以我們的優化目標就是

結合9.2節所描述的算法，可以發現：

在簇分配步驟中，我們的目標是通過改變

在移動簇中心步驟中，我們的目標通過改變

注意，在K均值算法中，cost function不可能能增加，它應該總是下降的(區別于梯度下降法)。

9.4 Random Initialization

下面介紹一種值得推薦的初始化簇中心的方法。

確保K < m，也就是確保簇的數量應該小于樣本數；

隨機選擇K個訓練樣本；

令K個簇中心

K均值算法可能陷入局部最優。為了減少這種情況的發生，我們可以基于隨機初始化，多次運行K均值算法。所以，算法變成如下形式(以運行100次為例：效率與準確性的tradeoff)

For i = 1 to 100 {

Randomly initialize K-means.

Run K-means. Get

Compute cost function (distortion)

}

Pick clustering that gave lowest cost

9.5 Choosing the Number of Clusters

選擇K的取值通常是主觀的，不明確的。也就是沒有一種方式確保K的某個取值一定優于其他取值。但是，有一些方法可供參考。

The elbow method: 畫出代價J關于簇數K的函數圖，J值應該隨著K的增加而減小，然后趨于平緩，選擇當J開始趨于平衡時的K的取值。如圖9-5的(1)所示。

但是，通常這條曲線是漸變的，沒有很顯然的"肘部"。如圖9-5的(2)所示。

機器學習算法的無監督學習的詳細介紹

圖9-5 代價J關于簇數K的曲線圖

注意：隨著K的增加J應該總是減少的，否則，一種出錯情況可能是K均值陷入了一個糟糕的局部最優。

一些其他的方法參見wikipedia。

當然，我們有時應該根據后續目的( later/downstream purpose )來確定K的取值。還是以根據人的身高和體重劃分T恤的大小碼為例，若我們想將T恤大小劃分為S/M/L這3種類型，那么K的取值應為3；若想要劃分為XS/S/M/L/XL這5種類型，那么K的取值應為5。如圖9-6所示。

機器學習算法的無監督學習的詳細介紹

圖9-6 劃分T恤size的兩種不同情況

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器學習算法

機器學習算法

+關注

關注
2

文章
47

瀏覽量
6463
無監督學習

無監督學習

+關注

關注
1

文章
16

瀏覽量
2764

原文標題：Stanford機器學習筆記-9. 聚類(Clustering)

文章出處：【微信號：AI_shequ，微信公眾號：人工智能愛好者社區】歡迎添加關注！文章轉載請注明出處。

華為云 Flexus X 實例部署安裝 Jupyter Notebook，學習 AI，機器學習算法

前言由于本人最近在學習一些機器算法，AI 算法的知識，需要搭建一個學習環境，所以就在最近購買的華為云 Flexus X 實例上安裝了

發表于 01-02 13:43 ?129次閱讀

華為云 Flexus X 實例部署安裝 Jupyter Notebook，<b class='flag-5'>學習</b> AI，<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>算法</b>

傳統機器學習方法和應用指導

在上一篇文章中，我們介紹了機器學習的關鍵概念術語。在本文中，我們會介紹傳統機器學習的基礎知識和多

發表于 12-30 09:16 ?328次閱讀

傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

時空引導下的時間序列自監督學習框架

【導讀】最近，香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列無監督預訓練的文章，相比原來的TS2Vec等時間序列表示學習工作，核心在于提出了將空間信息融入到預訓練階段，即在預訓練階段

發表于 11-15 11:41 ?309次閱讀

NPU與機器學習算法的關系

在人工智能領域，機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升，對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習

發表于 11-15 09:19 ?559次閱讀

人工智能、機器學習和深度學習存在什么區別

人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術，但其中一個很大的子集是機器學習——讓算法從數據中學習。

發表于 10-24 17:22 ?2519次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習，還包括對語言的深層次理解，如文化背景、語境含義和情感色彩等。自監督學習：模型采用自監督學習策略，在大量無標簽文本數據

發表于 08-02 11:03

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

章節最后總結了機器學習的分類：有監督學習、無監督學習、半監督學習、自

發表于 07-25 14:33

神經網絡如何用無監督算法訓練

標記數據的處理尤為有效，能夠充分利用互聯網上的海量數據資源。以下將詳細探討神經網絡如何用無監督算法進行訓練，包括常見的無

發表于 07-09 18:06 ?866次閱讀

深度學習中的無監督學習方法綜述

應用中往往難以實現。因此，無監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學

發表于 07-09 10:50 ?874次閱讀

機器學習算法原理詳解

機器學習作為人工智能的一個重要分支，其目標是通過讓計算機自動從數據中學習并改進其性能，而無需進行明確的編程。本文將深入解讀幾種常見的機器學習

發表于 07-02 11:25 ?1270次閱讀

深度學習與傳統機器學習的對比

在人工智能的浪潮中，機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步，為眾多領域帶來了革命性的變化。然而，盡管它們都屬于機器

發表于 07-01 11:40 ?1504次閱讀

機器學習的經典算法與應用

關于數據機器學習就是喂入算法和數據，讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集，在統計學習和

發表于 06-27 08:27 ?1705次閱讀

機器學習怎么進入人工智能

，人工智能已成為一個熱門領域，涉及到多個行業和領域，例如語音識別、機器翻譯、圖像識別等。在編程中進行人工智能的關鍵是使用機器學習算法，這是一類基于樣本數據和模型訓練來進行預測和判斷的

發表于 04-04 08:41 ?369次閱讀

機器學習基礎知識全攻略

有監督學習通常是利用帶有專家標注的標簽的訓練數據，學習一個從輸入變量X到輸入變量Y的函數映射。Y = f (X)，訓練數據通常是(n×x,y)的形式，其中n代表訓練樣本的大小，x和y分別是變量X和Y的樣本值。

發表于 02-25 13:53 ?275次閱讀

2024年AI領域將會有哪些新突破呢？

傳統的機器學習需要大量的標記數據進行訓練，但自監督學習可以通過無監督的方式從大規模未標記的數據中學習

發表于 01-24 09:58 ?2064次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

機器學習算法的無監督學習的詳細介紹

評論

華為云 Flexus X 實例部署安裝 Jupyter Notebook，學習 AI，機器學習算法

傳統機器學習方法和應用指導

時空引導下的時間序列自監督學習框架

NPU與機器學習算法的關系

人工智能、機器學習和深度學習存在什么區別

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

神經網絡如何用無監督算法訓練

深度學習中的無監督學習方法綜述

機器學習算法原理詳解

深度學習與傳統機器學習的對比

機器學習的經典算法與應用

機器學習怎么進入人工智能

機器學習基礎知識全攻略

2024年AI領域將會有哪些新突破呢？