KNN K鄰近演算法

knn演算法又稱為k最近鄰分類演算法，是一種監督學習類方法，並且knn演算法不需要預先訓練，也就是說knn演算法只有測試過程，沒有訓練過程。所謂的k最近鄰，就是指最接近的k個鄰居（資料），核心思想是：在乙個含未知樣本的空間，可以根據離這個樣本最鄰近的k個樣本的資料型別來確定樣本的資料型別。你可以簡單的理解為由那離自己最近的k個點來投票決定待分類資料歸為哪一類。

該演算法涉及3個主要因素：訓練集、距離的衡量、k的大小。

距離的衡量在之前的k-means的筆記裡有實現歐式距離和person相似係數來衡量樣本之間的距離。

knn演算法過程：

輸入乙個測試樣本，計算已知類別的點（即訓練集）與測試樣本的距離。

在訓練集中選取與測試樣本距離最小的k個點。

確定前k個點所在類別的出現次數。

獲得投票最高的類別輸入的測試樣本的**分類。

knn演算法的python實現：

距離的衡量使用的是歐氏距離

# encoing:utf-8
import numpy as np
import math
import pandas as pd
import operator
defknn
(x_test, dataset,labels,k):
dataset = pd.dataframe(dataset, index=none)
datasetsize = dataset.shape[0]
# sqdiffvec = 
sqdiff = 
x_test=pd.series(x_test, index=none)
for i in range(datasetsize):
sqdiffveci = dataset[i]-x_test
sqdiffi = math.sqrt(sum(list(sqdiffveci)))
sortedsqdiffindex = np.argsort(sqdiff)
classcount={}
# 選取距離最小的k個點
for i in range(k):
votelabel = labels[sortedsqdiffindex[i]]
classcount[votelabel] = classcount.get(votelabel, 0)+1
sortedclasscount=sorted(classcount.iteritems(), key=operator.itemgetter(1), reverse=true)
return sortedclasscount.keys()[0]

KNN K鄰近演算法

kNN k鄰近演算法

K nn（k鄰近學習）

機器學習 KNN K 最鄰近演算法

KNN K鄰近演算法

kNN k鄰近演算法

K nn（k鄰近學習）

機器學習 KNN K 最鄰近演算法

相關推薦