K-means 是一種聚類算法,且對于數據科學家而言,是簡單且熱門的無監督式機器學習(ML)算法之一。
什么是 K-MEANS?
無監督式學習算法嘗試在無標記數據集中“學習”模式,發現相似性或規律。常見的無監督式任務包括聚類和關聯。K-means 等聚類算法試圖通過分組對象來發現數據集中的相似性,與不同集群間的對象相似性相比,同一集群中對象之間的相似性更高。使用最小距離、數據點密度、圖形或各種統計分布等標準將其分組為集群。
K-means 通過最小化幾何點之間的平均距離將相似數據點分組成集群。為此,它以迭代方式將數據集分為非重疊子組(或集群)的固定數量 (K),其中每個數據點均屬于集群中心均值最近的集群。
為何選擇 K-MEANS?
K-means 是一種聚類算法,部署后可用于發現數據中尚未明確標記的組。目前,它已廣泛應用于各種商業應用,包括:
客戶分割:可以對客戶進行分組,以便更好地定制產品。
文本、文檔或搜索結果聚類:分組以查找文本中的主題。
圖像分組或圖像壓縮:圖像或顏色相似的組。
異常檢測:從集群中找出不相似的地方或異常值
半監督式學習:將集群與一組較小的已標記數據和監督式機器學習相結合,以獲得更有價值的結果。
K-MEANS 的工作原理
K-means 算法能夠識別數據集中一定數量的中心,而中心屬于特定集群所有數據點的算術平均值。然后,算法將每個數據點分配給最近的集群,因為其嘗試保持盡可能小的集群(K-means 中的“means”是指計算數據平均值或查找中心的任務)。同時,K-means 嘗試保持其他集群盡可能不同。
在實踐中,其工作原理如下:
K-means 算法首先將所有坐標初始化為“K”集群中心。(K 值是一個輸入變量,位置也可以作為輸入變量。)
每經過一次算法,每個點都會分配給其最近的集群中心。
然后,集群中心會被更新為在該經過中分配給其的所有點的“中心”。這是通過重新計算集群中心作為各自集群中點的平均值來實現的。
算法會重復執行,直到上次迭代的集群中心發生最小變化。
如果集群呈現一致的球形形狀,說明 K-means 在捕獲結構和進行數據推理方面非常有效。但是,如果集群呈現更復雜的幾何形狀,那就說明算法在數據聚類方面做得不好。K-means 的另一個缺點是,該算法不允許彼此距離較遠的數據點共享同一集群,而不管它們是否屬于該集群。K-means 本身不會從數據中了解到集群數量,而是必須預先定義信息。最后,當集群之間出現重疊時,K-means 無法確定如何分配重疊位置的數據點。
適用于數據科學家的 K-MEANS
由于其內在的簡單性以及在無監督機器學習操作中的普及,K-means 在數據科學家中大受青睞。盡管該算法存在局限性,但其在數據挖掘操作中的適用性允許數據科學家利用該算法從業務數據中衍生出各種推理,實現更準確的數據驅動決策。它被廣泛認為是數據科學家最具商業重要性的算法之一。
使用 GPU 加速聚類
聚類在各種應用程序中發揮著關鍵作用,但由于數據量不斷增加,其正面臨著計算挑戰。解決計算難題的極具前景的解決方案之一,即使用 GPU 進行并行計算。
在架構方面,CPU 僅由幾個具有大緩存內存的核心組成,一次只可以處理幾個軟件線程。相比之下,GPU 由數百個核心組成,可以同時處理數千個線程。GPU 具有大規模并行性,并且顯存訪問帶寬優勢顯著,因此十分適用于加速數據密集型分析。
GPU 加速的端到端數據科學
基于 CUDA 構建的 RAPIDS 開源軟件庫套件使您能夠完全在 GPU 上執行端到端數據科學和分析流程,同時仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。
RAPIDS cuML 的機器學習算法和數學基元遵循熟悉的類似于 scikit-learn 的 API。單塊 GPU 和大型數據中心部署均支持 K-means、XGBoost 等主流算法。針對大型數據集,相較于同等功效的 CPU,這些基于 GPU 的實施方案能夠以 10 到 50 倍的速度更快地完成任務。
借助 RAPIDS GPU DataFrame,數據可以通過一個類似 Pandas 的接口加載到 GPU 上,然后用于各種連接的機器學習和圖形分析算法,而無需離開 GPU。這種級別的互操作性是通過 Apache Arrow 這樣的庫實現的。這可加速端到端流程(從數據準備到機器學習,再到深度學習)。
RAPIDS 支持在許多熱門數據科學庫之間共享設備內存。這樣可將數據保留在 GPU 上,并省去了來回復制主機內存的高昂成本。
原文標題:NVIDIA 大講堂 | 什么是 K-MEANS?
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
cpu
+關注
關注
68文章
10863瀏覽量
211786 -
NVIDIA
+關注
關注
14文章
4986瀏覽量
103067 -
算法
+關注
關注
23文章
4612瀏覽量
92901 -
機器學習
+關注
關注
66文章
8418瀏覽量
132646
原文標題:NVIDIA 大講堂 | 什么是 K-MEANS?
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論