在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

K-means的優缺點及改進

倩倩 ? 來源:網絡整理 ? 2018-02-12 16:27 ? 次閱讀

K-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。

k個初始類聚類中心點的選取對聚類結果具有較大的影響,因為在該算法第一步中是隨機的選取任意k個對象作為初始聚類的中心,初始地代表一個簇。該算法在每次迭代中對數據集中剩余的每個對象,根據其與各個簇中心的距離將每個對象重新賦給最近的簇。當考察完所有數據對象后,一次迭代運算完成,新的聚類中心被計算出來。如果在一次迭代前后,J的值沒有發生變化,說明算法已經收斂。

K-means的優缺點及改進

算法過程如下:

1)從N個文檔隨機選取K個文檔作為質心

2)對剩余的每個文檔測量其到每個質心的距離,并把它歸到最近的質心的類

3)重新計算已經得到的各個類的質心

4)迭代2~3步直至新的質心與原質心相等或小于指定閾值,算法結束

具體如下:

輸入:k, data[n];

(1) 選擇k個初始中心點,例如c[0]=data[0],…c[k-1]=data[k-1];

(2) 對于data[0]….data[n],分別與c[0]…c[k-1]比較,假定與c[i]差值最少,就標記為i;

(3) 對于所有標記為i點,重新計算c[i]={ 所有標記為i的data[j]之和}/標記為i的個數;

(4) 重復(2)(3),直到所有c[i]值的變化小于給定閾值。

K-means的優缺點及改進

Kmeans算法的優缺點

K-means算法的優點是:首先,算法能根據較少的已知聚類樣本的類別對樹進行剪枝確定部分樣本的分類;其次,為克服少量樣本聚類的不準確性,該算法本身具有優化迭代功能,在已經求得的聚類上再次進行迭代修正剪枝確定部分樣本的聚類,優化了初始監督學習樣本分類不合理的地方;第三,由于只是針對部分小樣本可以降低總的聚類時間復雜度。

K-means算法的缺點是:首先,在 K-means 算法中 K 是事先給定的,這個 K 值的選定是非常難以估計的。很多時候,事先并不知道給定的數據集應該分成多少個類別才最合適;其次,在 K-means 算法中,首先需要根據初始聚類中心來確定一個初始劃分,然后對初始劃分進行優化。這個初始聚類中心的選擇對聚類結果有較大的影響,一旦初始值選擇的不好,可能無法得到有效的聚類結果;最后,該算法需要不斷地進行樣本分類調整,不斷地計算調整后的新的聚類中心,因此當數據量非常大時,算法的時間開銷是非常大的。

K-means算法對于不同的初始值,可能會導致不同結果。解決方法:

1.多設置一些不同的初值,對比最后的運算結果,一直到結果趨于穩定結束

2.很多時候,事先并不知道給定的數據集應該分成多少個類別才最合適。通過類的自動合并和分裂,得到較為合理的類型數目 K,例如 ISODATA 算法。

K-means算法的其他改進算法如下:

1. k-modes 算法:實現對離散數據的快速聚類,保留了k-means算法的效率同時將k-means的應用范圍擴大到離散數據。

2. k-Prototype算法:可以對離散與數值屬性兩種混合的數據進行聚類,在k-prototype中定義了一個對數值與離散屬性都計算的相異性度量標準。

K-means的優缺點及改進

大家接觸的第一個聚類方法,十有八九都是K-means聚類啦。該算法十分容易理解,也很容易實現。其實幾乎所有的機器學習和數據挖掘算法都有其優點和缺點。

(1)對于離群點和孤立點敏感;

(2)k值選擇;

(3)初始聚類中心的選擇;

(4)只能發現球狀簇。

對于這4點呢的原因,讀者可以自行思考下,不難理解。針對上述四個缺點,依次介紹改進措施。

改進1

首先針對(1),對于離群點和孤立點敏感,如何解決?提到過離群點檢測的LOF算法,通過去除離群點后再聚類,可以減少離群點和孤立點對于聚類效果的影響。

改進2

k值的選擇問題,在安徽大學李芳的碩士論文中提到了k-Means算法的k值自適應優化方法。下面將針對該方法進行總結。

首先該算法針對K-means算法的以下主要缺點進行了改進:

1)必須首先給出k(要生成的簇的數目),k值很難選擇。事先并不知道給定的數據應該被分成什么類別才是最優的。

2)初始聚類中心的選擇是K-means的一個問題。

李芳設計的算法思路是這樣的:可以通過在一開始給定一個適合的數值給k,通過一次K-means算法得到一次聚類中心。對于得到的聚類中心,根據得到的k個聚類的距離情況,合并距離最近的類,因此聚類中心數減小,當將其用于下次聚類時,相應的聚類數目也減小了,最終得到合適數目的聚類數。可以通過一個評判值E來確定聚類數得到一個合適的位置停下來,而不繼續合并聚類中心。重復上述循環,直至評判函數收斂為止,最終得到較優聚類數的聚類結果。

改進3

對初始聚類中心的選擇的優化。一句話概括為:選擇批次距離盡可能遠的K個點。具體選擇步驟如下。

首先隨機選擇一個點作為第一個初始類簇中心點,然后選擇距離該點最遠的那個點作為第二個初始類簇中心點,然后再選擇距離前兩個點的最近距離最大的點作為第三個初始類簇的中心點,以此類推,直至選出K個初始類簇中心點。

對于該問題還有個解決方案。之前我也使用過。熟悉weka的同學應該知道weka中的聚類有一個算法叫Canopy算法。

選用層次聚類或者Canopy算法進行初始聚類,然后利用這些類簇的中心點作為KMeans算法初始類簇中心點。該方法對于k值的選擇也是十分有效的。

改進4

只能獲取球狀簇的根本原因在于,距離度量的方式。在李薈嬈的碩士論文K_means聚類方法的改進及其應用中提到了基于2種測度的改進,改進后,可以去發現非負、類橢圓形的數據。但是對于這一改進,個人認為,并沒有很好的解決K-means在這一缺點的問題,如果數據集中有不規則的數據,往往通過基于密度的聚類算法更加適合,比如DESCAN算法。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 聚類算法
    +關注

    關注

    2

    文章

    118

    瀏覽量

    12129
  • K-means
    +關注

    關注

    0

    文章

    28

    瀏覽量

    11309
收藏 人收藏

    評論

    相關推薦

    使用K-means壓縮圖像

    山東大學機器學習(實驗六內容)—— K-Means
    發表于 08-28 09:25

    調用sklearn使用的k-means模型

    【python】調用sklearn使用k-means模型
    發表于 06-12 13:33

    K-Means有什么優缺點

    K-Means的主要優點是什么?K-Means的主要缺點是什么?
    發表于 06-10 06:14

    改進k-means聚類算法在供電企業CRM中的應用

    針對k-means算法存在的不足,提出了一種改進算法。 針對目前供電企業CRM系統的特點提出了用聚類分析方法進行客戶群細分模型設計,通過實驗驗證了本文提出的k-means改進算法的高效
    發表于 03-01 15:28 ?15次下載

    Web文檔聚類中k-means算法的改進

    Web文檔聚類中k-means算法的改進 介紹了Web文檔聚類中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空間模型和基于距離的相似性度量的局限性,
    發表于 09-19 09:17 ?1057次閱讀
    Web文檔聚類中<b class='flag-5'>k-means</b>算法的<b class='flag-5'>改進</b>

    基于Hash改進k-means算法并行化設計

    挖掘其聚類關系,選取初始聚類中心,避免了傳統k-means算法對隨機選取初始聚類中心的敏感性,減少了k-means算法的迭代次數。又結合MapReduce框架將算法整體并行化,并通過Partition、Combine等機制加強了并行化程度和執行效率。實驗表明,該算法不僅提
    發表于 11-24 14:24 ?2次下載
    基于Hash<b class='flag-5'>改進</b>的<b class='flag-5'>k-means</b>算法并行化設計

    基于密度的K-means算法在聚類數目中應用

    針對傳統的K-means算法無法預先明確聚類數目,對初始聚類中心選取敏感且易受離群孤點影響導致聚類結果穩定性和準確性欠佳的問題,提出一種改進的基于密度的K-means算法。該算法首先基于軌跡數據分布
    發表于 11-25 11:35 ?0次下載

    K-Means算法改進及優化

    局部最優出現錯誤的聚類結果。針對傳統的k-means算法初始聚類中心的缺點,本文提出了p-K-means算法,該算法采用了數學幾何距離的方法改進k-
    發表于 12-05 18:32 ?0次下載
    <b class='flag-5'>K-Means</b>算法<b class='flag-5'>改進</b>及優化

    基于布谷鳥搜索的K-means聚類算法

    針對原始K-means聚類算法受初始聚類中心影響過大以及容易陷入局部最優的不足,提出一種基于改進布谷鳥搜索(cs)的K-means聚類算法(ACS-K-means)。其中,自適應CS(
    發表于 12-13 17:24 ?3次下載

    k-means算法原理解析

    對于K-Means算法,首先要注意的是k值的選擇,一般來說,我們會根據對數據的先驗經驗選擇一個合適的k值,如果沒有什么先驗知識,則可以通過交叉驗證選擇一個合適的k值。
    的頭像 發表于 02-12 16:06 ?8344次閱讀
    <b class='flag-5'>k-means</b>算法原理解析

    基于改進k-means算法的MANET異常檢測方法

    針對移動自組網( MANET,mobile ad hoc networks)入侵檢測過程中的攻擊類型多樣性和監測數據海量性問題,提出了一種基于改進k-means算法的MANET異常檢測方法。通過引入
    發表于 03-06 15:18 ?0次下載

    K-Means算法的簡單介紹

    K-Means是十大經典數據挖掘算法之一。K-Means和KNN(K鄰近)看上去都是K打頭,但卻是不同種類的算法。kNN是監督學習中的分類算法,而K
    發表于 07-05 14:18 ?4918次閱讀

    如何使用K-Means聚類算法改進的特征加權算法詳細資料概述

    聚類分析是將研究對象分為相對同質的群組的統計分析技術,聚類分析的核心就是發現有用的對象簇。K-means聚類算法由于具有出色的速度和良好的可擴展性,一直備受廣大學者的關注。然而,傳統的K-means
    發表于 12-20 10:28 ?10次下載

    K-MEANS聚類算法概述及工作原理

    K-means 是一種聚類算法,且對于數據科學家而言,是簡單且熱門的無監督式機器學習(ML)算法之一。
    的頭像 發表于 06-06 11:53 ?4022次閱讀

    K-means聚類算法指南

    在聚類技術領域中,K-means可能是最常見和經常使用的技術之一。K-means使用迭代細化方法,基于用戶定義的集群數量(由變量K表示)和數據集來產生其最終聚類。例如,如果將K設置為3
    的頭像 發表于 10-28 14:25 ?1469次閱讀
    主站蜘蛛池模板: 婷婷色在线播放| 免费视频淫片aa毛片| 六月综合| 小说区v天堂网| 免费又黄又硬又大爽日本| 国产精品青草久久| 看片在线| 操白虎美女| 毛片大全免费| 美女视频久久| 第四色亚洲| 久久亚洲视频| 激情www| 永久毛片| 国产精品虐乳在线播放| 在线播放免费人成毛片乱码| 亚洲四虎| aa黄色毛片| 亚洲小说区图片区另类春色| 国产精品一区在线播放| 噜噜噜久久| 国产小视频在线| 天堂网2014| 天天曰天天干天天操| 久久99久久精品国产只有| 久久久噜噜噜| good韩国理论在线三级| 99热这里精品| 国产精品免费观看网站| 欧美精品黑人性xxxx| 日本黄色站| 奇米影视777狠狠狠888不卡| 亚洲天堂二区| 久久亚洲成人| 日本69sex护士www| 欧美午夜场| 福利片在线观看免费高清| 色小视频| 99久久综合精品免费| 亚洲免费网站在线观看| 四虎国产精品免费视|