機器學習鄰近演算法（KNN）

臨近演算法

臨近演算法（knn）是資料探勘分類技術中最簡單的方法之一。所謂k最近鄰，就是k個最近的鄰居的意思，說的是每個樣本都可以用它最接近的k個鄰居來代表，knn方法既可以做分類，也可以做回歸。

*knn演算法的核心思想是如果乙個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。*該方法在確定分類決策上只依據最鄰近的乙個或者幾個樣本的類別來決定待分樣本所屬的類別。knn方法在類別決策時，只與極少量的相鄰樣本有關。由於knn方法主要靠周圍有限的臨近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對於類域的交叉或重疊較多的待分樣本集來說，knn方法較其他方法更為適合。

我們可以舉例，假如我們想估算a區某間公寓的**，我們可以在該間公寓附近統計統計其他公寓**，我們將收集來的公寓資料進行對比，從中選出面積，樓層，格局與目標公寓類似的公寓及其**，從而對目標公寓的**進行估算。

knn演算法三要素：k值的選取，距離度量方式和分類決策規則。

如何選擇k

1.猜測k：

我們可以根據我們對於問題的了解程度，對k值進行合理地選擇，並且可以合理地擴充套件k值，以獲得更平坦的近似。

2.啟發式選擇k:

（1）：挑選數目互質的類和k值可以保證較少產生平局（互質的數值之間除了1以外沒有共同的公約數）。

（2）：選擇大於或者等於類數加1的k，假設現在有三個類分別叫合法類，混亂類和中立類。乙個好的啟發式是選擇大於等於3的k值，因為k值小於3的話，將意味著不是每個類都能參與計算。

（3）：選擇足夠低的k值以避免雜訊。

機器學習鄰近演算法（KNN）

機器學習 KNN鄰近演算法

機器學習 K 鄰近演算法 KNN

機器學習 k鄰近演算法 KNN

機器學習鄰近演算法（KNN）

機器學習 KNN鄰近演算法

機器學習 K 鄰近演算法 KNN

機器學習 k鄰近演算法 KNN

相關推薦