K近鄰演算法

knn k近鄰演算法

（1）演算法思路

計算待測樣本與實際每乙個樣本之間的歐式距離（一般都是轉換為向量，二位影象也是轉化為一維向量）

選取距離最小的k個樣本

統計k個樣本的所屬類別，出現頻率最高的類別即為待測樣本的類別

演算法正確率影響引數，測試集和樣本資料的比重，以及k的選取

def
classify0
(inx,dataset,labels,k)
: datasetsize= dataset.shape[0]
# type: object # shape[0]獲取行 shape[1] 獲取列
diffmat=tile(inx,
(datasetsize,1)
)-dataset #tile類似於matlab中的repmat，
#1 計算歐式距離
sqdiffmat=diffmat**
2 sqdistance=sqdiffmat.
sum(axis=1)
distance=sqdistance**
0.5 sorteddistance=distance.argsort(
)#增序排序
classcount=
for i in
range
(k):
#獲取類別
voteilabel=labels[sorteddistance[i]
]# 字典的get方法，查詢classcount中是否包含voteilabel，是則返回該值，不是則返回defvalue，這裡是0
# 其實這也就是計算k臨近點**現的類別的頻率，以次數體現
classcount[voteilabel]
=classcount.get(voteilabel,0)
+1# 對字典中的類別出現次數進行排序，classcount中儲存的事 key-value，其中key就是label，value就是出現的次數
# 所以key=operator.itemgetter(1)選中的事value，也就是對次數進行排序
sortedclasscount=
sorted
(classcount.iteritems(
),key=operator.itemgetter(1)
,reverse=
true
)# sortedclasscount[0][0]也就是排序後的次數最大的那個label
return sortedclasscount[0]
[0]

（2）演算法應用例項

數值型、標稱型。

海倫約會資料**

可以用來對手寫的數字進行分類，但是對於影象運算量太大

（3）演算法優缺點

缺點：基於例項的學習，必須儲存全部資料集，占用儲存空間大

非常耗時：因為必須對資料集中的每乙個資料，計算距離。

無法給出任何資料的基礎結構資訊，無法知曉平均例項樣本和典型例項樣本具有的什麼特徵

優點：精度高，對異常值不敏感

k 近鄰演算法

此文章參考機器學習實戰一書，具體的理論知識可以參考該書。本文的初衷只是為了做乙個複習，將學過的知識加以整理，其中不免有一定的錯誤。2.k 近鄰演算法的原理介紹 k 近鄰演算法通過測量不同的特徵值之間的距離進行分類。它的工作原理如下存在乙個樣本的資料集合，也成為訓練樣本集合。並且樣本集中的每個資料都...

K 近鄰演算法

k 近鄰演算法採用測量不同特徵值之間的距離方法進行分類。優點精度高對異常值不敏感無資料輸入假定缺點計算複雜度高空間複雜度高適用資料範圍數值型和標稱型工作原理存在乙個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入...

K 近鄰演算法

首先，我們將 k 近鄰演算法的基本理論其次我們將使用python從文字檔案中匯入並解析資料再次，討論當存在許多資料的時，如何避免計算距離時可能碰到的一些常見錯誤最後，利用實際的例子講解如何使用k 近鄰演算法改進約會 1.1 knn演算法工作原理存在乙個樣本資料集合，也稱作訓練樣本集，並且...

K近鄰演算法

k 近鄰演算法

K 近鄰演算法

K 近鄰演算法

相關推薦