機器學習技術之KNN近鄰算法編程實例

KNN(k-Nearest Neighbors)思想簡單，應用的數學知識幾乎為0，所以作為機器學習的入門非常實用、可以解釋機器學習算法使用過程中的很多細節問題。能夠更加完整地刻畫機器學習應用的流程。

首先大致介紹一下KNN的思想，假設我們現在有兩類數據集，一類是紅色的點表示，另一類用藍色的點表示，這兩類點就作為我們的訓練數據集，當有一個新的數據綠色的點，那么我們該怎么給這個綠色的點進行分類呢？

一般情況下，我們需要先指定一個k，當一個新的數據集來臨時，我們首先計算這個新的數據跟訓練集中的每一個數據的距離，一般使用歐氏距離。

然后從中選出距離最近的k個點，這個k一般選取為奇數，方便后面投票決策。在k個點中根據最多的確定新的數據屬于哪一類。

KNN基礎

1.先創建好數據集x_train, y_train，和一個新的數據x_new, 并使用matplot將其可視化出來。

import numpy as np
import matplotlib.pyplot as plt


raw_data_x = [[3.3935, 2.3313],
 ? ? ? ? ? ? ?[3.1101, 1.7815],
 ? ? ? ? ? ? ?[1.3438, 3.3684],
 ? ? ? ? ? ? ?[3.5823, 4.6792],
 ? ? ? ? ? ? ?[2.2804, 2.8670],
 ? ? ? ? ? ? ?[7.4234, 4.6965],
 ? ? ? ? ? ? ?[5.7451, 3.5340],
 ? ? ? ? ? ? ?[9.1722, 2.5111],
 ? ? ? ? ? ? ?[7.7928, 3.4241],
 ? ? ? ? ? ? ?[7.9398, 0.7916]]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
x_train = np.array(raw_data_x)
y_train = np.array(raw_data_y)


x_new = np.array([8.0936, 3.3657])


plt.scatter(x_train[y_train==0,0], x_train[y_train==0,1], color='g')
plt.scatter(x_train[y_train==1,0], x_train[y_train==1,1], color='r')
plt.scatter(x_new[0], x_new[1], color='b')
plt.show()

1.knn過程

2.計算距離

from math import sqrt
distance = []
for x in x_train:
 ? ?d = sqrt(np.sum((x_new - x) ** 2))
 ? ?distance.append(d)


# 其實上面這些代碼用一行就可以搞定
# distances = [sqrt(np.sum((x_new - x) ** 2)) for x in x_train]

輸出結果：

[10.888422144185997,
 11.825242797930196,
 15.18734646375067,
 11.660703691887552,
 12.89974598548359,
 12.707715895864213,
 9.398411207752083,
 15.62480440229573,
 12.345673749536719,
 14.394770082568183]

將距離進行排序,返回的是排序之后的索引位置

nearsest = np.argsort(distances)

輸出結果：array([6, 0, 3, 1, 8, 5, 4, 9, 2, 7], dtype=int64)

取k個點，假設k=5

k = 5
topk_y = [y_train[i] for i in nearest[:k]]
topk_y

輸出結果：[1, 0, 0, 0, 1]

根據輸出結果我們可以發現，新來的數據距離最近的5個點，有三個點屬于第一類，有兩個點屬于第二類，根據少數服從多數原則，新來的數據就屬于第一類！

投票

from collections import Counter
Counter(topk_y)

輸出結果：Counter({1: 2, 0: 3})

votes = Counter(topk_y)
votes.most_common(1)
y_new = votes.most_common(1)[0][0]

輸出結果：0

這樣，我們就完成了一個基本的knn！

自己寫一個knn函數

knn是一個不需要訓練過程的機器學習算法。其數據集可以近似看成一個模型。

import numpy as np
from math import sqrt
from collections import Counter


def kNN_classifier(k, x_train, y_train, x_new):


 ? ?assert 1 <= k <= x_train.shape[0], "k must be valid"
 ? ?assert x_train.shape[0] == y_train.shape[0], "the size of x_train must be equal to the size of y_train"
 ? ?assert x_train.shape[1] == x_new.shape[0], "the feature number of x_new must be equal to x_train"


 ? ?distances = [sqrt(np.sum((x_new - x) ** 2)) for x in x_train]
 ? ?nearest = np.argsort(distances)


 ? ?topk_y = [y_train[i] for i in nearest[:k]]
 ? ?votes = Counter(topk_y)


 ? ?return votes.most_common(1)[0][0]

測試一下：

raw_data_x = [[3.3935, 2.3313],

 ? ? ? ? ? ? ?[3.1101, 1.7815],
 ? ? ? ? ? ? ?[1.3438, 3.3684],
 ? ? ? ? ? ? ?[3.5823, 4.6792],
 ? ? ? ? ? ? ?[2.2804, 2.8670],
 ? ? ? ? ? ? ?[7.4234, 4.6965],
 ? ? ? ? ? ? ?[5.7451, 3.5340],
 ? ? ? ? ? ? ?[9.1722, 2.5111],
 ? ? ? ? ? ? ?[7.7928, 3.4241],
 ? ? ? ? ? ? ?[7.9398, 0.7916]]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
x_train = np.array(raw_data_x)
y_train = np.array(raw_data_y)


x_new = np.array([8.0936, 3.3657])


y_new = kNN_classifier(5, x_train, y_train, x_new)
print(y_new)

使用sklearn中的KNN

from sklearn.neighbors import KNeighborsClassifier
import numpy as np


raw_data_x = [[3.3935, 2.3313],
 ? ? ? ? ? ? ?[3.1101, 1.7815],
 ? ? ? ? ? ? ?[1.3438, 3.3684],
 ? ? ? ? ? ? ?[3.5823, 4.6792],
 ? ? ? ? ? ? ?[2.2804, 2.8670],
 ? ? ? ? ? ? ?[7.4234, 4.6965],
 ? ? ? ? ? ? ?[5.7451, 3.5340],
 ? ? ? ? ? ? ?[9.1722, 2.5111],
 ? ? ? ? ? ? ?[7.7928, 3.4241],
 ? ? ? ? ? ? ?[7.9398, 0.7916]]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
x_train = np.array(raw_data_x)
y_train = np.array(raw_data_y)


x_new = np.array([8.0936, 3.3657])


knn_classifier = KNeighborsClassifier(n_neighbors=5)
knn_classifier.fit(x_train, y_train)


y_new = knn_classifier.predict(x_new.reshape(1, -1))
print(y_new[0])

自己寫一個面向對象的KNN

import numpy as np
from math import sqrt
from collections import Counter


class KNNClassifier():


 ? ?def __init__(self, k):
 ? ? ? ?assert 1 <= k, "k must be valid"
 ? ? ? ?self.k = k
 ? ? ? ?self._x_train = None
 ? ? ? ?self._y_train = None


 ? ?def fit(self, x_train, y_train):
 ? ? ? ?assert x_train.shape[0] == y_train.shape[0],  
 ? ? ? ?"the size of x_train must be equal to the size of y_train"
 ? ? ? ?assert self.k <= x_train.shape[0],  
 ? ? ? ? "the size of x_train must be at least k"


 ? ? ? ?self._x_train = x_train
 ? ? ? ?self._y_train = y_train
 ? ? ? ?return self


 ? ?def predict(self, x_new):
 ? ? ? ?x_new = x_new.reshape(1, -1)
 ? ? ? ?assert self._x_train is not None and self._y_train is not None, 
 ? ? ? ?"must fit before predict"
 ? ? ? ?assert x_new.shape[1] == self._x_train.shape[1], 
 ? ? ? ?"the feature number of x must be equal to x_train"


 ? ? ? ?y_new = [self._predict(x) for x in x_new]
 ? ? ? ?return np.array(y_new)


 ? ?def _predict(self, x):
 ? ? ? ?assert x.shape[0] == self._x_train.shape[1], 
 ? ? ? ?"the feature number of x must be equal to x_train"


 ? ? ? ?distances = [sqrt(np.sum((x_train - x) ** 2)) for x_train in self._x_train]
 ? ? ? ?nearest = np.argsort(distances)


 ? ? ? ?topk_y = [self._y_train[i] for i in nearest[:self.k]]
 ? ? ? ?votes = Counter(topk_y)


 ? ? ? ?return votes.most_common(1)[0][0]


 ? ?def __repr__(self):
 ? ? ? ?return "KNN(k=%d)" % self.k

測試一下：

raw_data_x = [[3.3935, 2.3313],

 ? ? ? ? ? ? ?[3.1101, 1.7815],
 ? ? ? ? ? ? ?[1.3438, 3.3684],
 ? ? ? ? ? ? ?[3.5823, 4.6792],
 ? ? ? ? ? ? ?[2.2804, 2.8670],
 ? ? ? ? ? ? ?[7.4234, 4.6965],
 ? ? ? ? ? ? ?[5.7451, 3.5340],
 ? ? ? ? ? ? ?[9.1722, 2.5111],
 ? ? ? ? ? ? ?[7.7928, 3.4241],
 ? ? ? ? ? ? ?[7.9398, 0.7916]]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
x_train = np.array(raw_data_x)
y_train = np.array(raw_data_y)


x_new = np.array([8.0936, 3.3657])


knn_clf = KNNClassifier(6)
knn_clf.fit(x_train, y_train)
y_new = knn_clf.predict(x_new)
print(y_new[0])

分割數據集

import numpy as np
from sklearn import datasets


def train_test_split(x, y, test_ratio=0.2, seed=None):


 ? ?assert x.shape[0] == y.shape[0], "the size of x must be equal to the size of y"
 ? ?assert 0.0 <= test_ratio <= 1.0, "test_ratio must be valid"


 ? ?if seed:
 ? ? ? ?np.random.seed(seed)


 ? ?shuffle_idx = np.random.permutation(len(x))


 ? ?test_size = int(len(x) * test_ratio)
 ? ?test_idx = shuffle_idx[:test_size]
 ? ?train_idx = shuffle_idx[test_size:]


 ? ?x_train = x[train_idx]
 ? ?y_train = y[train_idx]


 ? ?x_test = x[test_idx]
 ? ?y_test = y[test_idx]


 ? ?return x_train, y_train, x_test, y_test

sklearn中鳶尾花數據測試KNN

import numpy as np
from sklearn import datasets
from knn_clf import KNNClassifier


iris = datasets.load_iris()
x = iris.data
y = iris.target


x_train, y_train, x_test, y_test = train_test_split(x, y)
my_knn_clf = KNNClassifier(k=3)
my_knn_clf.fit(x_train, y_train)


y_predict = my_knn_clf.predict(x_test)
print(sum(y_predict == y_test))
print(sum(y_predict == y_test) / len(y_test))
# 也可以使用sklearn中自帶的數據集拆分方法
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn import datasets
from knn_clf import KNNClassifier


iris = datasets.load_iris()
x = iris.data
y = iris.target
x_train, y_train, x_test, y_test = train_test_split(x, y, 
 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?test_size=0.2, random_state=666)
my_knn_clf = KNNClassifier(k=3)
my_knn_clf.fit(x_train, y_train)
y_predict = my_knn_clf.predict(x_test)
print(sum(y_predict == y_test))
print(sum(y_predict == y_test) / len(y_test))

sklearn中手寫數字數據集測試KNN

首先，先來了解一下手寫數字數據集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets


digits = datasets.load_digits()
digits.keys()
print(digits.DESCR)
y.shape
digits.target_names
y[:100]
x[:10]
some_digit = x[666]
y[666]
some_digit_image = some_digit.reshape(8, 8)
plt.imshow(some_digit_image, cmap=plt.cm.binary)
plt.show()

接下來，就開始動手試試。

from sklearn import datasets
from shuffle_dataset import train_test_split
from knn_clf import KNNClassifier


digits = datasets.load_digits()
x = digits.data
y = digits.target


x_train, y_train, x_test, y_test = train_test_split(x, y, test_ratio=0.2)
my_knn_clf = KNNClassifier(k=3)
my_knn_clf.fit(x_train, y_train)
y_predict = my_knn_clf.predict(x_test)


print(sum(y_predict == y_test) / len(y_test))

把求acc封裝成一個函數，方便調用。

def accuracy_score(y_true, y_predict):

 ? ?assert y_true.shape[0] == y_predict.shape[0],  
 ? ?"the size of y_true must be equal to the size of y_predict"


 ? ?return sum(y_true == y_predict) / len(y_true)

接下來把它封裝到KNNClassifier的類中。

import numpy as np
from math import sqrt
from collections import Counter
from metrics import accuracy_score


class KNNClassifier():


 ? ?def __init__(self, k):
 ? ? ? ?assert 1 <= k, "k must be valid"
 ? ? ? ?self.k = k
 ? ? ? ?self._x_train = None
 ? ? ? ?self._y_train = None


 ? ?def fit(self, x_train, y_train):
 ? ? ? ?assert x_train.shape[0] == y_train.shape[0], 
 ? ? ? ?"the size of x_train must be equal to the size of y_train"
 ? ? ? ?assert self.k <= x_train.shape[0], 
 ? ? ? ?"the size of x_train must be at least k"


 ? ? ? ?self._x_train = x_train
 ? ? ? ?self._y_train = y_train
 ? ? ? ?return self


 ? ?def predict(self, x_new):
 ? ? ? ?# x_new = x_new.reshape(1, -1)
 ? ? ? ?assert self._x_train is not None and self._y_train is not None, 
 ? ? ? ?"must fit before predict"
 ? ? ? ?assert x_new.shape[1] == self._x_train.shape[1], 
 ? ? ? ?"the feature number of x must be equal to x_train"


 ? ? ? ?y_new = [self._predict(x) for x in x_new]
 ? ? ? ?return np.array(y_new)


 ? ?def _predict(self, x):
 ? ? ? ?assert x.shape[0] == self._x_train.shape[1], 
 ? ? ? ?"the feature number of x must be equal to x_train"


 ? ? ? ?distances = [sqrt(np.sum((x_train - x) ** 2)) for x_train in self._x_train]
 ? ? ? ?nearest = np.argsort(distances)


 ? ? ? ?topk_y = [self._y_train[i] for i in nearest[:self.k]]
 ? ? ? ?votes = Counter(topk_y)


 ? ? ? ?return votes.most_common(1)[0][0]


 ? ?def score(self, x_test, y_test):
 ? ? ? ?y_predict = self.predict(x_test)
 ? ? ? ?return accuracy_score(y_test, y_predict)


 ? ?def __repr__(self):
 ? ? ? ?return "KNN(k=%d)" % self.k

其實，在sklearn中這些都已經封裝好了。

from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier


digits = datasets.load_digits()
x = digits.data
y = digits.target


x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
knn_classifier = KNeighborsClassifier(n_neighbors=3)
knn_classifier.fit(x_train, y_train)
knn_classifier.score(x_test, y_test)

超參數

在knn中的超參數k何時最優？

from sklearn.metrics import accuracy_score 
from sklearn.model_selection import train_test_split 
from sklearn.neighbors import KNeighborsClassifier 


digits = datasets.load_digits() 
x = digits.data 
y = digits.target 
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2) 


best_score = 0.0 
best_k = -1 
for k in range(1, 11): 
 ? ?knn_clf = KNeighborsClassifier(n_neighbors=k) 
 ? ?knn_clf.fit(x_train, y_train) 
 ? ?score = knn_clf.score(x_test, y_test) 
 ? ?if score > best_score: 
 ? ? ? ?best_k = k 
 ? ? ? ?best_score = score 
print("best k=", best_k) print("best score=", best_score)

投票方式

上面這張圖，綠色的球最近的三顆球分別是紅色的1號，紫色的3號和藍色的4號。如果只考慮綠色的k個近鄰中多數服從少數，目前來說就是平票。

即使不是平票，紅色也是距離綠色最近。此時我們就可以考慮給他們加個權重。一般使用距離的倒數作為權重。假設距離分別為1、 3、 4

紅球：1 紫+藍：1/3 + 1/4 = 7/12

這兩者加起來都沒有紅色的權重大，因此最終將這顆綠球歸為紅色類別。這樣能有效解決平票問題。因此，這也算knn的一個超參數。

其實這個在sklearn封裝的knn中已經考慮到了這個問題。在KNeighborsClassifier(n_neighbors=k，weights=？)

還有一個參數weights，一般有兩種：uniform、distance。

from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier


digits = datasets.load_digits()
x = digits.data
y = digits.target

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)


best_method = ""
best_score = 0.0
best_k = -1
for method in["uniform", "distance"]: 
 ? ?for k in range(1, 11):
 ? ? ? ?knn_clf = KNeighborsClassifier(n_neighbors=k, weights=method)
 ? ? ? ?knn_clf.fit(x_train, y_train)
 ? ? ? ?score = knn_clf.score(x_test, y_test)
 ? ? ? ?if score > best_score:
 ? ? ? ? ? ?best_method = method
 ? ? ? ? ? ?best_k = k
 ? ? ? ? ? ?best_score = score
print("best_method=", best_method)
print("best k=", best_k)
print("best score=", best_score)

如果使用距離，那么有很多種距離可以使用，歐氏距離、曼哈頓距離、明可夫斯基距離。

from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier


digits = datasets.load_digits()
x = digits.data
y = digits.target


x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)


best_p = -1
best_score = 0.0
best_k = -1
for p in range(1, 6):
 ? ?for k in range(1, 11):
 ? ? ? ?knn_clf = KNeighborsClassifier(n_neighbors=k, weights="distance", p=p)
 ? ? ? ?knn_clf.fit(x_train, y_train)
 ? ? ? ?score = knn_clf.score(x_test, y_test)
 ? ? ? ?if score > best_score:
 ? ? ? ? ? ?best_p = p
 ? ? ? ? ? ?best_k = k
 ? ? ? ? ? ?best_score = score
print("best_p=", best_p)
print("best k=", best_k)
print("best score=", best_score)

編輯：黃飛

閱讀全文

機器學習(130423) 機器學習(130423)

機器學習技術在圖像處理中的應用

在本章中，我們將討論機器學習技術在圖像處理中的應用。首先，定義機器學習，并學習它的兩種算法——監督算法和無監督算法；其次，討論一些流行的無監督機器學習技術的應用，如聚類和圖像分割等問題。

2022-10-18 16:08:02

1853

機器學習技術在圖像分類和目標檢測上的應用

2022-10-20 10:52:54

1372

25個機器學習面試題，你都會嗎？

問題都沒有給出明確的答案，但都有一定的提示。讀者也可以在留言中嘗試。許多數據科學家主要是從一個數據從業者的角度來研究機器學習（ML）。因此，關于機器學習，我們應該盡可能多地把注意力放在新的程序包、框架、技術

2018-09-29 09:39:54

KNN算法原理

KNN（K近鄰算法）

2019-11-01 09:14:43

KNN分類算法及python代碼實現

kNN分類算法的Python實現

2020-06-05 12:02:50

機器學習KNN介紹

機器學習(李航統計學方法)之KNN

2020-04-07 16:20:24

機器學習之 k-近鄰算法(k-NN)

機器學習機器學習100天(5) --- k-近鄰算法(k-NN)

2020-05-15 15:06:29

機器學習算法分享

機器學習算法（1）——Logistic Regression

2020-06-09 13:30:03

機器學習算法如何用于制造無人駕駛汽車？

機器學習算法如何用于制造無人駕駛汽車

2021-03-18 06:27:18

機器學習——期望最大算法

機器學習 - 期望最大（EM）算法

2020-05-21 14:31:34

機器學習之高級算法課程學習總結

機器學習：高級算法課程學習總結

2020-05-05 17:17:16

機器學習的算法應用

關于機器學習的相關算法。正版資源，免費看的。

2017-08-24 22:14:36

機器學習的分類器

各種機器學習的應用場景分別是什么？例如，k近鄰,貝葉斯，決策樹，svm，邏輯斯蒂回歸和最大熵模型

2019-09-10 10:53:10

機器學習簡介與經典機器學習算法人才培養

經典機器學習算法介紹章節目標：機器學習是人工智能的重要技術之一，詳細了解機器學習的原理、機制和方法，為學習深度學習與遷移學習打下堅實的基礎。二、深度學習簡介與經典網絡結構介紹神經網絡簡介神經網絡組件簡介

2022-04-28 18:56:07

機器算法學習比較

轉本文主要回顧下幾個常用算法的適應場景及其優缺點！機器學習算法太多了，分類、回歸、聚類、推薦、圖像識別領域等等，要想找到一個合適算法真的不容易，所以在實際應用中，我們一般都是采用啟發式學習方式來實驗

2016-09-27 10:48:01

Java的KNN算法

3在Java中使用K最近鄰（KNN）分類器

2019-09-10 13:48:41

MATLAB機器學習與深度學習核心技術應用培訓班

MATLAB機器學習與深度學習核心技術應用培訓班備十余年MATLAB編程開發經驗，機器學習、深度學習領域一線實戰專家主講。培訓時間：11月09日-11月12日培訓地點：北京理工大學（中關村

2018-10-23 16:51:05

ML之ECS：利用ECS的PAI進行傻瓜式操作機器學習的算法

2018-12-20 10:42:02

Python機器學習入門之pandas的使用提示

系列文章目錄提示：這里可以添加系列文章的所有文章的目錄，目錄需要自己手動添加例如：第一章 Python 機器學習入門之pandas的使用提示：寫完文章后，目錄可以自動生成，如何生成可參考右邊的幫助

2021-08-13 07:36:45

Python機器學習經典實例教程指南和附帶源碼

用最火的Python語言、通過各種各樣的機器學習算法來解決實際問題！資料中介紹的主要問題如下：- 探索分類分析算法并將其應用于收入等級評估問題- 使用預測建模并將其應用到實際問題中- 了解如何使用無

2019-08-28 15:06:22

Python實現k-近鄰算法

k-近鄰算法簡述k-近鄰算法（kNN）采用測量不同特征值之間的距離方法進行分類。工作原理：首先存在一個樣本數據集合（訓練樣本集），并且樣本集中每個數據都存在標簽（監督學習）。所謂的標簽就是樣本集每

2018-10-10 10:32:43

Python實現k-近鄰算法

2022-01-04 14:03:43

【DOC】MATLAB程序實例之遺傳算法

【DOC】MATLAB程序實例之遺傳算法附件：

2011-02-28 11:11:49

【Firefly RK3399試用體驗】之結項——KNN、SVM分類器在SKlearn機器學習工具集中運用

已知分類的訓練數據集，然后用這些數據及其分類去訓練分類器，然后再用測試數據輸入訓練器，訓練器對這些數據做出分類，這也是一般機器學習的一種方法，常用的分類器有K鄰近分類器（KNN）、貝葉斯分類器和支持向量

2017-07-20 22:26:27

【下載】《機器學習》+《機器學習實戰》

、謀發展的決定性手段，這使得這一過去為分析師和數學家所專屬的研究領域越來越為人們所矚目。本書第一部分主要介紹機器學習基礎，以及如何利用算法進行分類，并逐步介紹了多種經典的監督學習算法，如k近鄰算法

2017-06-01 15:49:24

【專輯精選】機器學習之算法教程與資料

電子發燒友總結了以“算法”為主題的精選干貨，今后每天一個主題為一期，希望對各位有所幫助！（點擊標題即可進入頁面下載相關資料）經典算法大全（51個C語言算法+單片機常用算法+機器學十大算法）11種常見

2019-05-09 17:06:40

【阿里云大學免費精品課】機器學習入門：概念原理及常用算法

學習與人工智能技術的強大之處。阿里云大學聯合螞蟻金服高級算法專家推出了免費的機器學習入門課程：機器學習入門：概念原理及常用算法AlaphaGo與圍棋界的較量，吸引了全世界的目光，也讓大家見識到了機器

2017-06-23 13:51:15

人工智能和機器學習的前世今生

學習算法的輸入數據。用程序語言來表達機器學習為了解決業務的復雜性，并帶來機器學習的技術創新，編程語言和框架技術不斷地被引入和更新。一些編程語言來來往往，而一些被相關的、保留的還在經歷著考驗。這兩個編程

2018-08-27 10:16:55

人工智能基本概念機器學習算法

目錄人工智能基本概念機器學習算法1. 決策樹2. KNN3. KMEANS4. SVM5. 線性回歸深度學習算法1. BP2. GANs3. CNN4. LSTM應用人工智能基本概念數據集：訓練集

2021-09-06 08:21:17

什么是機器學習? 機器學習基礎入門

的、面向任務的智能，這就是機器學習的范疇。我過去聽到的機器學習定義的最強大的方法之一是與傳統的、用于經典計算機編程的算法方法相比較。在經典計算中，工程師向計算機提供輸入數據ーー例如，數字2和4ーー以及將它

2022-06-21 11:06:37

介紹機器學習的基礎內容

參考右邊的幫助文檔文章目錄嵌入式系統之硬件總復習前言一、pandas是什么？二、使用步驟1.引入庫2.讀入數據總結前言提示：這里可以添加本文要記錄的大概內容：例如：隨著人工智能的不斷發展，機器學習這門技術也越來越重要，很多人都開啟了學習機器學習，本文就介紹了機器學習的基礎內容。提示：以下是本篇文

2021-12-16 06:27:44

使用KNN進行分類和回歸

的模型，可以用于回歸和分類任務。大部分的機器學習算法都是用它的名字來描述的KNN也是一樣，使用一個空間來表示鄰居的度量，度量空間根據集合成員的特征定義它們之間的距離。對于每個測試實例，使用鄰域來估計響應

2022-10-28 14:44:46

利用python實現KNN算法

K近鄰python實現

2019-10-25 17:24:45

基于kNN算法可以診斷乳腺癌

用kNN算法診斷乳腺癌

2019-06-21 09:31:22

基于Weka進行K-近鄰算法和K-均值算法

使用Weka進行K-近鄰算法和K-均值算法的使用

2019-05-24 12:02:15

干貨 | 這些機器學習算法，你了解幾個？

，廣義線性模型，2，支持向量機，3，最近鄰居法，4，決策樹，5，神經網絡，等等… 但是，從我們的經驗來看，這并不總是算法分組最為實用的方法。那是因為對于應用機器學習，你通常不會想，“今天我要訓練一個支持向量機

2019-09-22 08:30:00

斯坦福cs231n編程作業之k近鄰算法

深度學習斯坦福cs231n編程作業#1 --- k近鄰算法(k-NN)

2020-05-07 12:03:37

最值得學習的機器學習編程語言

如果你對人工智能和機器學習感興趣，而且正在積極地規劃著自己的程序員職業生涯，那么你肯定面臨著一個問題：你應該學習哪些編程語言，才能真正了解并掌握 AI 和機器學習？可供選擇的語言很多，你需要通過戰略

2021-03-02 06:22:38

有沒有搞機器學習算法研究的啊？

有沒有搞機器學習、人工智能相關的算法研究的啊？自己一個人搞感覺挺難的，希望找到志同道合的朋友，相互探討。

2016-02-26 09:56:00

物聯網防火墻與機器學習技術解析

物聯網防火墻與機器學習技術

2021-02-25 06:05:58

經典算法大全（51個C語言算法+單片機常用算法+機器學十大算法）

試題學SPFA算法整體來說，機器學習算法可以分為 3 大類：0.1 監督學習工作原理：該算法由自變量（協變量、預測變量）和因變量（結果變量）組成，由一組自變量對因變量進行預測。通過這些變量集合，我們

2018-10-23 14:31:12

高級機器學習算法工程師--【北京】

、視頻分析、3D圖形與視覺、SLAM、強化學習、自然語言理解、機器人技術、模型壓縮相關算法等；2. 提出和實現最前沿的算法，保持算法在工業界和學術界的領先；3. 推動計算機視覺&機器學習算法在眾多

2017-12-07 14:34:41

改進的共享型最近鄰居聚類算法

聚類效果往往依賴于密度和相似度的定義，并且當數據的維增加時，其復雜度也隨之增加。該文基于共享型最近鄰居聚類算法SNN，提出了一種改進的共享型最近鄰居聚類算法RSNN，

2009-05-16 11:38:43

利用KNN算法實現基于系統調用的入侵檢測技術

該算法來自一種文本分類算法-KNN 算法,文中給出了用該算法實現的入侵檢測系統模型.利用該算法實現的基于系統調用的異常入侵檢測系統，克服了傳統基于系統調用入侵檢測方法

2009-06-13 11:01:41

近鄰邊界Fisher判別分析

將數據集進行合理的維數約簡對于一些機器學習算法效率的提高起著至關重要的影響。該文提出了一種利用數據點鄰域信息的線性監督降維算法：近鄰邊界Fisher 判別分析(Neighborhood Ma

2009-11-21 11:12:24

結合SVM和KNN實現求解大規模復雜問題的分治算法

針對于使用支持向量機求解大規模復雜問題存在訓練時間過長和分類精度不高等困難，本文提出了一種結合支持向量機（SVM）和K-最近鄰(KNN)分類的分治算法。首先對支持向量機分類

2010-01-15 16:12:43

基于一種優化的KNN算法在室內定位中的應用研究

根據位置指紋室內定位算法的理念，提出了一種旨在減小計算量的定位方法，并將此方法應用于KNN算法中。以KNN算法為例，理論上分析了其計算量優化的情況，并在此優化算法的基礎上

2013-05-06 11:43:02

Spark機器學習庫的各種機器學習算法

本文將簡要介紹Spark機器學習庫（Spark MLlibs APIs）的各種機器學習算法，主要包括：統計算法、分類算法、聚類算法和協同過濾算法，以及各種算法的應用。你不是一個數據科學家。根據

2017-09-28 16:44:43

基于K近鄰特征選擇算法的對比分析

KNN算法的主要分為3步：首先，計算待分類樣本與已知類別的訓練樣本之間的距離或相似度，找到與待分類樣本最近的k個樣本，稱之為待分類樣本的k個近鄰：其次，根據這些樣本所屬的類別來判斷待分類樣本的類別

2017-11-06 10:31:18

基于中心向量的多級分類KNN算法研究

針對KNN算法在中文文本分類時的兩個不足：訓練樣本分布不均，分類時計算開銷大的問題，在已有改進算法的基礎上進行了更深入的研究，提出多級分類KNN算法。算法首先引入基于密度的思想對訓練樣本進行調整

2017-11-17 14:43:53

Spark下的并行多標簽最近鄰算法

隨著大數據時代的到來，大規模多標簽數據挖掘方法受到廣泛關注。多標簽最近鄰算法ML_KNN是一種簡單高效、應用廣泛的多標簽分類方法，其分類精度在很多應用中都高于其他常見的多標簽學習方法。然而隨著需要

2017-11-22 17:32:04

基于Spark框架與聚類優化的高效KNN分類算法

針對K-最近鄰（KNN）分類算法時間復雜度與訓練樣本數量成正比而導致的計算量大的問題以及當前大數據背景下面臨的傳統架構處理速度慢的問題，提出了一種基于Spark框架與聚類優化的高效KNN分類算法

2017-12-08 17:10:49

激光散亂點云K最近鄰搜索算法

針對激光散亂點云的數據量大，且具有面型的特點，為降低存儲器使用量，提高散亂點云的處理效率，提出了一種散亂點云K最近鄰（KNN）搜索算法。首先，利用多級分塊、動態鏈表的存儲方式，只存儲非空的子空間編號

2017-12-11 14:09:25

結合LSH的KNN數據填補算法

K近鄰（kNN）算法是缺失數據填補的常用算法，但由于需要逐個計算所有記錄對之間的相似度，因此其填補耗時較高。為提高算法效率，提出結合局部敏感哈希（ LSH）的kNN數據填補算法LSH-kNN。首先

2017-12-23 10:57:52

學習KNN算法的基本原理，并用Python實現該算法以及闡述其應用價值

作為『十大機器學習算法』之一的K-近鄰（K-Nearest Neighbors）算法是思想簡單、易于理解的一種分類和回歸算法。

2018-01-02 14:56:03

5667

基于K近鄰多標簽分類算法

針對K近鄰多標簽（ ML-KNN）分類算法中未考慮標簽相關性的問題，提出了一種基于標簽相關性的K近鄰多標簽分類（ CML-KNN）算法。首先，計算出標簽集合中每對標簽間的條件概率；其次，對于即將

2018-01-02 16:47:53

無參數近鄰保持及最大化非近鄰算法

無參數保持投影算法無需參數設置且識別性能穩定，但算法不能有效地保持樣本的局部結構，且忽略了非局部樣本所起的作用，而且存在著小樣本（ sss）問題，為此提出了一種完備的無參數近鄰保持及最大化非近鄰算法

2018-01-05 13:47:13

機器學習算法分類

機器學習起源于人工智能，可以賦予計算機以傳統編程所無法實現的能力，比如飛行器的自動駕駛、人臉識別、計算機視覺和數據挖掘等。機器學習的算法很多。很多時候困惑人們的是，很多算法是一類算法，而有些算法又是

2018-01-05 17:36:10

3101

基于近鄰傳播的遷移聚類算法

在目標域可利用數據匱乏的場景下，傳統聚類算法的性能往往會下降，在該場景下，通過抽取源域中的有用知識用于指導目標域學習以得到更為合適的類別信息和聚類性能，是一種有效的學習策略．借此提出一種基于近鄰傳播

2018-01-07 09:34:44

分層抽樣的K近鄰分類加速算法

k近鄰（k nearest neighbor，kNN）分類作為數據挖掘中最典型的算法之一，以較高的泛化性能以及充足的理論基礎被廣泛應用。然而kNN在測試時需要計算待識別實例與所有訓練實例之間的距離

2018-02-27 10:46:21

人工智能機器學習之K近鄰算法（KNN）

K近鄰KNN（k－Nearest Neighbor）算法，也叫K最近鄰算法，1968年由 Cover 和 Hart 提出，是機器學習算法中比較成熟的算法之一。K近鄰算法使用的模型實際上對應于對特征空間的劃分。KNN算法不僅可以用于分類，還可以用于回歸。

2018-05-29 06:53:00

2416

K-Means算法的簡單介紹

K－Means是十大經典數據挖掘算法之一。K－Means和KNN（K鄰近）看上去都是K打頭，但卻是不同種類的算法。kNN是監督學習中的分類算法，而K－Means則是非監督學習中的聚類算法；二者相同之處是均利用近鄰信息來標注類別。

2018-07-05 14:18:00

4520

kNN算法是監督學習中分類方法的一種

k值得選取對kNN學習模型有著很大的影響。若k值過小，預測結果會對噪音樣本點顯得異常敏感。特別地，當k等于1時，kNN退化成最近鄰算法，沒有了顯式的學習過程。若k值過大，會有較大的鄰域訓練樣本進行預測，可以減小噪音樣本點的減少；但是距離較遠的訓練樣本點對預測結果會有貢獻，以至于造成預測結果錯誤。

2018-09-19 17:40:14

11462

如何面向K最近鄰分類的遺傳實例來選擇算法

針對傳統的實例選擇算法會誤刪訓練集中非噪聲樣本、算法效率低的不足，提出了一種面向K最近鄰（KNN）的遺傳實例選擇算法。該算法采用基于決策樹和遺傳算法的二階段篩選機制，先使用決策樹確定噪聲樣本存在

2018-11-16 11:16:03

數據挖掘常用算法

本視頻主要詳細介紹了數據挖掘常用算法，分別是樸素貝葉斯、邏輯回歸（logisticregression）、最近鄰算法——KNN、決策樹、Adaboosting。

2019-04-10 16:32:33

13064

從零開始學習機器學習最簡單的 KNN 算法

相比爬蟲，掌握機器學習更實用競爭力也更強些。

2019-06-10 14:00:21

2419

詳解機器學習分類算法KNN

本文主要介紹一個被廣泛使用的機器學習分類算法，K-nearest neighbors（KNN），中文叫K近鄰算法。

2019-10-31 17:18:14

5657

基于機器學習的密碼強度評測微服務實現

K 最近鄰算法 (k-Nearest Neighbor)，簡稱KNN，是一個在理論上比較成熟的算法，也是目前最簡單的機器學習算法之一，它是一種惰性學習算法（分類器不需使用訓練數據集進行訓練，訓練的時間復雜度為0，有利有弊，與其它惰性學習算法一樣

2019-12-08 10:46:04

3643

機器學習是如何工作的? 人工智能與機器學習實例

雖然機器學習算法是人工智能的一個應用，但并非所有人工智能系統都被視為機器學習的示例。

2020-02-08 17:23:57

1829

理解機器學習中的算法與模型

對于初學者來說，這很容易讓人混淆，因為“機器學習算法”經常與“機器學習模型”交替使用。這兩個到底是一樣的東西呢，還是不一樣的東西？作為開發人員，你對排序算法、搜索算法等“算法”的直覺，將有助于你厘清這個困惑。在本文中，我將闡述機器學習“算法”和“模型”之間的區別。

2020-07-31 15:38:08

3347

機器學習的范圍和算法

什么是機器學習？機器學習是英文名稱MachineLearning（簡稱ML）的直譯。機器學習涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。

2020-11-12 10:19:12

1203

10大常用機器學習算法匯總

本文介紹了10大常用機器學習算法，包括線性回歸、Logistic回歸、線性判別分析、樸素貝葉斯、KNN、隨機森林等。

2020-11-20 11:10:04

2462

數據科學經典算法 KNN 已被嫌慢，ANN 比它快 380 倍

。K - 近鄰算法非常簡單而有效，它的模型表示就是整個訓練數據集。就原理而言，對新數據點的預測結果是通過在整個訓練集上搜索與該數據點最相似的 K 個實例（近鄰）并且總結這 K 個實例的輸出變量而得出的。KNN 可能需要大量的內存或空間來存儲所有數據，并且使用距離或接近程度的度量方法可能會

2021-01-02 09:08:00

6470

機器學習的范圍/算法/分類

什么是機器學習？機器學習是英文名稱MachineLearning（簡稱ML）的直譯。機器學習涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。

2021-01-21 09:29:06

3315

如何使用Arduino KNN庫進行簡單的機器學習？

除了像TensorFlow for Arduino這樣強大的深度學習架構外，還有一些經典的ML方法適用于嵌入式設備上的較小數據集，這些方法有用且易于理解-最簡單的方法之一就是KNN。 KNN

2021-04-01 10:07:09

3106

一種基于KNN與矩陣變化的圖節點嵌入歸納式學習算法

， Graphsage）雖然可以提高不可見節點生成嵌入的速度，但容易引入噪聲數據，且生成的節點嵌入的表示能力不高。為此，文中提出了一種基于KNN與矩陣變換的圖節點嵌入歸納式學習算法。首先，通過KNN選取K個鄰節點;然后，根據聚合函數生成聚合信息;最后，利用矩陣變換與全連接層對聚

2021-04-08 14:01:17

基于近鄰傳輸的粒度支持向量機學習算法

傳統粒度支持向量機（GSVM模型可以有效提高攴持向量機（SⅥM的學習效率，但因其對初始粒劃參數比較敏感，粒中心的選取比較粗糙，會損失一定的泛化能力。提出一種基于近鄰傳輸的粒度支持向量機學習算法

2021-04-12 15:15:39

基于哈希算法和近鄰算法的緩存數據選擇策略

文中提出基于動態局部敏感哈希算法與加權k近鄰算法的緩存數據選擇策略（ Cache Selection Strategy based on Dynamic- LSH algorithm

2021-04-19 15:11:20

可檢測網絡入侵的IL-SVM-KNN分類器

為滿足入侵檢測的實時性和準確性要求，通過結合支持向量機（SVM）和K最近鄰（KNN）算法設ⅡL-SM-KNN分類器，并采用平衡k維樹作為數據結構提升執行速度。訓練階段應用增量學習思想并考慮知識庫

2021-04-29 15:55:09

基于自然鄰居的標記分布機器學習算法

標記分布是一種新的機器學習范式，能很妤地解決某些標記多義性問題，可看作多標記的泛化。傳統的單標記學習和多標記學習均可看作標記分布學習的特例。已有的標記分布學習算法中，基于算法改造的 AA-KNN

2021-05-13 11:46:33

一種改進的局部和相似度保持特征選擇算法

LSPE（ Locality and Similarity Preserving Embedding）特征選擇算法首先基于KNN定義圖結構來保持數據的局部性，再基于定義圖學習數據的低維重構系數來保持

2021-06-17 15:24:14

淺析機器學習必學10大算法及8種降維技術

的性能。機器學習必學10大算法 1.線性回歸 2.Logistic 回歸 3.線性判別分析 4.分類和回歸樹 5.樸素貝葉斯 6.K最近鄰算法 7.學習向量量化 8.支持向量化 9.袋裝發和隨機森林 10.Boosting 和 AdaBoost 機器學習中必知必會的 8 種降維技術 1.相關性濾

2022-01-30 17:14:00

956

機器學習和深度學習算法流程

但是無可否認的是深度學習實在太好用啦！極大地簡化了傳統機器學習的整體算法分析和學習流程，更重要的是在一些通用的領域任務刷新了傳統機器學習算法達不到的精度和準確率。

2022-04-26 15:07:20

4084

17個機器學習的常用算法

根據數據類型的不同，對一個問題的建模有不同的方式。在機器學習或者人工智能領域，人們首先會考慮算法的學習方式。在機器學習領域，有幾種主要的學習方式。將算法按照學習方式分類是一個不錯的想法，這樣可以讓人們在建模和算法選擇的時候考慮能根據輸入數據來選擇最合適的算法來獲得最好的結果。

2022-08-11 11:20:17

1399

17個機器學習的常用算法！

源自：AI知識干貨根據數據類型的不同，對一個問題的建模有不同的方式。在機器學習或者人工智能領域，人們首先會考慮算法的學習方式。在機器學習領域，有幾種主要的學習方式。將算法按照學習方式分類是一個不錯

2022-08-22 09:57:33

1446

機器學習算法的基礎介紹

現在，機器學習有很多算法。如此多的算法，可能對于初學者來說，是相當不堪重負的。今天，我們將簡要介紹 10 種最流行的機器學習算法，這樣你就可以適應這個激動人心的機器學習世界了！

2022-10-24 10:08:42

1518

KNN算法、分類回歸樹、隨機森林的優缺點及應用實例

KNN屬于一種監督學習的分類算法，用于訓練的數據集是完全正確且已分好類的。

2022-11-11 10:11:46

3352

機器學習理論：k近鄰算法

KNN(k-Nearest Neighbors)思想簡單，應用的數學知識幾乎為0，所以作為機器學習的入門非常實用、可以解釋機器學習算法使用過程中的很多細節問題。能夠更加完整地刻畫機器學習應用的流程。

2023-06-06 11:15:02

392

每日一課 | 智慧燈桿人工智能之實踐方法二：機器學習

。其中的算法有回歸算法（最小二懲罰、LR等）、基于實例的算法（KNN、LVQ等）、正則化方法（LASSO等）、決策樹算法（CART、C4.5、RF等）、貝葉斯

2022-03-22 09:50:11

470

cifar10數據集介紹 knn和svm的圖像分類系統案例

　　摘要：本文使用CIFAR-10數據集設計實現了基于k近鄰（knn）和支持向量機（svm）的圖像分類系統。首先介紹了CIFAR-10數據集及其特征，然后分析實現了兩種分類算法的原理與流程。在此基礎上，對 svm 和knn算法的模型進行了訓練和測試，最后通過對比分析了兩種模型的精度與性能。

2023-07-18 15:23:21

人工智能用什么編程

數據結構和算法是人工智能編程的重要組成部分，對于機器學習、深度學習等算法的實現和運用至關重要。其中，常用的機器學習算法包括決策樹、樸素貝葉斯、KNN（K最近鄰）、SVM（支持向量機）等；

2023-08-14 15:31:24

711

機器學習算法的5種基本算子

機器學習算法的5種基本算子機器學習是一種重要的人工智能技術，它是為了讓計算機能夠通過數據自主的學習和提升能力而發明的。機器學習算法是機器學習的核心，它是指讓計算機從數據中進行自主學習并且可以實現

2023-08-17 16:11:46

1245

機器學習算法匯總機器學習算法分類機器學習算法模型

機器學習算法匯總機器學習算法分類機器學習算法模型機器學習是人工智能的分支之一，它通過分析和識別數據模式，學習從中提取規律，并用于未來的決策和預測。在機器學習中，算法是最基本的組成部分之一。算法

2023-08-17 16:11:48

632

機器學習算法總結機器學習算法是什么機器學習算法優缺點

機器學習算法總結機器學習算法是什么?機器學習算法優缺點? 機器學習算法總結機器學習算法是一種能夠從數據中自動學習的算法。它能夠從訓練數據中學習特征，進而對未知數據進行分類、回歸、聚類等任務。通過

2023-08-17 16:11:50

939

機器學習算法入門機器學習算法介紹機器學習算法對比

，討論一些主要的機器學習算法，以及比較它們之間的優缺點，以便于您選擇適合的算法。一、機器學習算法的基本概念機器學習是一種人工智能的技術，它允許計算機從歷史數據中學習模式，以便于更好地預測未來的數據。機器學習算法

2023-08-17 16:27:15

569

機器學習vsm算法

機器學習vsm算法隨著機器學習技術的不斷發展，相似性計算是機器學習中的重要組成部分。在信息檢索、文本挖掘、機器翻譯等領域中，相似性計算是必不可少的一項技術。在這些領域中，我們通常使用向量空間模型

2023-08-17 16:29:35

529

機器學習有哪些算法？機器學習分類算法有哪些？機器學習預判有哪些算法？

機器學習有哪些算法？機器學習分類算法有哪些？機器學習預判有哪些算法？機器學習是一種人工智能技術，通過對數據的分析和學習，為計算機提供智能決策。機器學習算法是實現機器學習的基礎。常見的機器學習算法

2023-08-17 16:30:11

1245

基于計算機視覺與機器學習技術的跌倒風險預測

使用卷積神經網絡（CNN）、支持向量機（SVM）、K近鄰（KNN）和長短期記憶（LSTM）神經網絡等四種不同的分類方法對三種步態模式進行自動分類。

2024-03-22 11:10:54

已全部加載完成

搜索歷史

機器學習技術之KNN近鄰算法編程實例

評論