機器學習 KNN演算法

一、近鄰算法 (knn)原理:

工作原理是：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個數據都存在標籤，即我們知道樣本集中每一數據與所屬分類的對應關係。輸人沒有標籤的新數據後，將新數據的每個特徵與樣本集中數據對應的特徵進行比較，然後算法提取樣本集中特徵最相似數據（最近鄰）的分類標籤。一般來說，我們只選擇樣本數據集中前 k個最相似的數據，這就是 k- 近鄰算法中 k 的出處 , 通常 k 是不大於 20 的整數。最後，選擇 k 個最相似數據中出現次數最多的分類，作為新數據的分類。

二、knn演算法一般流程：

(1) 收集數據：可以使用任何方法。

(2) 準備數據：距離計算所需要的數值，最好是結構化的數據格式。

(3) 分析數據：可以使用任何方法。

(4) 訓練算法：此步驟不適用於 k-近鄰算法。

(5) 測試算法：計算錯誤率。

(6) 使用算法：首先需要輸入樣本數據和結構化的輸出結果，然後運行女 -近鄰算法判定輸

入數據分別屬於哪個分類，最後應用對計算出的分類執行後續的處理。

三、knn演算法步驟：

對未知類別屬性的數據集中的每個點依次執行以下操作：

(1) 計算已知類別數據集中的點與當前點之間的距離；

(2) 按照距離遞增次序排序；

(3) 選取與當前點距離最小的 k個點；

(4) 確定前 k 個點所在類別的出現頻率；

(5) 返回前 k 個點出現頻率最高的類別作為當前點的預測分類

下面來看**：

# -*- coding: utf-8 -*-
from numpy import *
import operator
def createdataset():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels =['a','a','b','b']
return group, labels
# 輸入向量inx 訓練樣本集dataset 標籤向量lables
def classify0(inx, dataset, labels, k):
# shape 為求陣列或矩陣維度的函式 對於二維陣列來說 shape[0]表示其行數
datasetsize = dataset.shape[0]
# tile(a,n)，功能是將陣列a重複n次，構成乙個新的陣列
# tile(intx,(datasetsize,1))) 將陣列intx 轉為datasize行1列
diffmat = tile(inx, (datasetsize,1)) - dataset
# 矩陣diffmat每項求平方
sqdiffmat = diffmat**2
# sum(axis=1)將乙個矩陣的每一行向量相加
sqdistances = sqdiffmat.sum(axis=1)
# 開方
distances = sqdistances**0.5
# 排序 argsort函式返回的是陣列值從小到大的索引值
sorteddistindicies = distances.argsort()
classcount = {}
# 選擇距離最小的k個點
for i in range(k):
voteilabel = labels[sorteddistindicies[i]]
classcount[voteilabel] = classcount.get(voteilabel,0) + 1
# 通過逆序排序找到k個中出現次數最多的分類
sortedclasscount = sorted(classcount.iteritems(), key=operator.itemgetter(1),reverse=true)
return sortedclasscount[0][0]
if __name__ == "__main__":
group,labels = createdataset()
print classify0([1,1], group, labels, 3)

機器學習 KNN演算法

機器學習演算法 KNN

機器學習 KNN 演算法

機器學習 kNN演算法

機器學習 KNN演算法

機器學習 演算法 KNN

機器學習 KNN 演算法

機器學習 kNN演算法

相關推薦

機器學習演算法 KNN