K 近鄰演算法簡介

1.k-近鄰演算法原理

k-近鄰(k-nearest neighbor，knn)分類演算法，是乙個理論很成熟的機器學習演算法之一。該算方法的工作原理：有乙個樣本的資料集，在機器學習中統稱為訓練樣本集。在訓練集中每個資料都有其標籤，我們通過標籤可以知道每個資料的所屬分類。當我們輸入乙個沒有標籤的新資料後，如果這個資料在特徵空間中的k個最相似(即特徵空間中最鄰近)的資料中的大多數屬於某乙個類別，則該樣本也屬於這個類別（即可以理解為離哪些k個樣本最近，則類別和這k個樣本一樣）。

2.例項講解k-近鄰演算法

如右圖所示，有兩類不同的樣本資料，分別用藍色的小正方形和紅色的小三角形表示，而圖正中間的那個綠色的圓所標示的資料則是待分類的資料。也就是說，現在，我們不知道中間那個綠色的資料是從屬於哪一類（藍色小正方形or紅色小三角形），下面，我們就要解決這個問題：給這個綠色的圓分類。我們常說，物以類聚，人以群分，判別乙個人是乙個什麼樣品質特徵的人，常常可以從他/她身邊的朋友入手，所謂觀其友，而識其人。我們不是要判別上圖中那個綠色的圓是屬於哪一類資料麼，好說，從它的鄰居下手。但一次性看多少個鄰居呢？從上圖中，你還能看到：

1.如果k=3，綠色圓點的最近的3個鄰居是2個紅色小三角形和1個藍色小正方形，少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於紅色的三角形一類。

2.如果k=5，綠色圓點的最近的5個鄰居是2個紅色三角形和3個藍色的正方形，還是少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於藍色的正方形一類。

3.k-近鄰演算法的優缺點

優點：精度高，對異常資料不敏感（你的類別是由鄰居中的大多數決定的，乙個異常鄰居並不能影響太大），無資料輸入假定；

缺點：計算發雜度高（需要計算新的資料點與樣本集中每個資料的「距離」，以判斷是否是前k個鄰居），空間複雜度高（巨大的矩陣）；樣本的不均衡可能造成結果錯誤：如果乙個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入乙個新樣本時，該樣本的k個鄰居中大容量類的樣本占多數。

K 近鄰演算法簡介

k 近鄰演算法

K 近鄰演算法

K 近鄰演算法

相關推薦