機器學習之k近鄰

knn演算法假設給定的訓練集中的例項都已經分好類了，對於新的例項，根據離它最近的k個訓練例項的類別來**它的類別。即這k個例項大多數屬於某個類別則該例項就屬於某個類別。比如k為5，離新例項a最近的5個樣本的情況為，3個樣本屬於a類，1個樣本屬於b類，乙個樣本屬於c類，那麼新例項a屬於a類。

k值的選取可能會影響到分類結果，如下圖，k=3和k=5時的分類結果是不同的。

k值小可能會導致**結果對近鄰的樣本點敏感，如果剛好是噪音則會導致**結果出錯，容易發生過擬合。近似誤差小，估計誤差大。

k值大可能會導致較遠的樣本也影響**，也可能會導致**錯誤。近似誤差大，估計誤差小。

k值一般先取較小的數，再用交叉驗證方法選擇最優k值。

兩種方式：線性掃瞄和kd樹。

knn的最簡單樸素的方法即直接線性掃瞄，大致步驟如下：

1. 計算待**資料與各訓練樣本之間的距離；

2. 按照距離遞增排序；

3. 選擇距離最小的k個點；

4. 計算這k個點類別的頻率，最高的即為待**資料的類別。

線性掃瞄非常耗時，為了減少計算距離的次數提高效率，使用kd樹方法，它能快速地找到查詢點近鄰。

可以通過將搜尋空間進行層次劃分建立索引樹以加快檢索速度。

對於二維空間，它最終要劃分的空間類似如下，

決定在哪個維度上進行分割是由所有資料在各個維度的方差決定的，方差越大說明該維度上的資料波動越大，更應該再該維度上對點進行劃分。例如x維度方差較大，所以以x維度方向劃分。

分割時一般取分割維度上的所有值的中值的點，比如下圖，第一次計算方差較大的維度為x維度，中值點為a，以x=ax分割，接著對分割後的點分別又繼續分割，計算方差並尋找中值，以y=cy、y=by分割，以此類推。

kd樹查詢

從根節點開始查詢，直到葉子節點，整個過程將最短距離d和相應的點記錄下來。

回溯，通過計算待**的點到分割平面的距離l與最短距離d比較，看是否要進入節點的相鄰空間去查詢。回溯的過程是為了確認是否有必要進入相鄰子空間去搜尋，當待**點到最近點的距離d大於待**點到分割面的距離l時，則需要到相鄰子空間查詢，否則則沒必要，直接往上一層回溯。

*****===廣告時間*****===

鄙人的新書《tomcat核心設計剖析》已經在京東銷售了，有需要的朋友可以到進行預定。感謝各位朋友。

為什麼寫《tomcat核心設計剖析》