機器學習初學KNN演算法（k近鄰演算法）

最近想搞點事情，用opencv實現手寫數字、字母識別。核心演算法就是knn，好高大上，其實原理明白了也不難的。

什麼是knn（k-nearestneighbor），它是乙個理論上比較成熟的方法，是一種最簡單的分類演算法，是基於例項的最基本的學習方法，是最好的文字分類演算法之一，是資料探勘分類技術中最簡單的方法之一。（說白了就是一種分類器）

knn演算法機器學習中「懶惰學習」的代表，它在訓練階段只是把資料儲存下來，訓練時間開銷為0，等收到測試樣本後進行處理。怎麼理解，就像我，平時不學習，等到考試了就使勁複習，這樣節省了平時的學習時間（訓練時間），這樣就需要在考試前花大把大把的時間複習（這樣導致程式執行中，knn分類器的執行效率低一點）。

具體原理是什麼？

存在乙個樣本資料集合（每個資料都帶有標籤），也就是訓練樣本集，即我們通過標籤知道樣本集中每個資料與所屬分類對應的關係。然後在我們輸入沒有標籤的資料後（也就是需要進行分類的資料），將新資料中的每個特徵與樣本集中資料對應的特徵進行比較，提取出樣本集中特徵最相似資料（最近鄰）的分類標籤。

用下面左圖來解釋其原理，綠色為新資料（需要歸類的資料），你覺得影象中綠色歸為紅色三角合適還是藍色矩形好？

knn演算法是這樣分類的，如果k=3（也就是選擇離著最近的三個樣本資料，也就是小圓內），那麼離綠色點最近的有2個紅色的三角形和1個藍色的矩形，這三個點進行投票，於是綠色的待分類點就屬於紅色的三角形。而如果k=5，那麼離綠色點最近的有2個紅色的三角形和3個藍色的正方形，這五個點進行投票，於是綠色的待分類點就屬於藍色的矩形。

k值的選擇會對k近鄰法的結果產生重大影響。在應用中，k值一般取乙個比較小的數值，通常採用交叉驗證法來選取最優的k值，k一般取值不大於20。

機器學習初學KNN演算法（k近鄰演算法）

機器學習 k 近鄰 kNN 演算法

機器學習 k近鄰演算法 kNN

機器學習 k 近鄰演算法（KNN）

機器學習 初學KNN演算法（k近鄰演算法）

機器學習 k 近鄰 kNN 演算法

機器學習 k近鄰演算法 kNN

機器學習 k 近鄰演算法（KNN）

相關推薦

機器學習初學KNN演算法（k近鄰演算法）