詳解機器學習中的K近鄰演算法（中）

首先我們說一下k近鄰演算法的三個要素，第一就是超引數k，第二就是距離的定義，這距離的定義就是歐氏距離，第三就是決策的規則，比如投票表決，或者加權投票。這三個內容缺一不可。

那麼k近鄰演算法的執行的步驟是什麼呢？這種演算法的執行步驟是比較簡答的，總共就有兩個步驟，第一步驟就是選擇k和距離的度量，第二個步驟就是計算待標記的資料樣本和資料集中每個樣本的距離，取距離最近的k個樣本。待標記的資料樣本所屬的類別，就由這k個距離最近的樣本投票產生。從中我們可以發現，k 近鄰演算法的訓練過程，即是利用訓練資料集，對特徵向量空間進行劃分。當然，k近鄰演算法是乙個懶惰學習的演算法，沒有顯式的學習過程，即沒有它沒有訓練的步驟，是乙個基於記憶的學習演算法。而「多數表決」規則等價於「經驗風險最小化」。而k近鄰演算法的優化實現是依靠kd 樹，即是給訓練資料建立樹結構一樣的索引，期望快速找到 k個鄰居，以防止線性掃瞄。

那麼k近鄰演算法的應用領域都有哪些呢？k近鄰演算法的應用領域有很多，比如文字分類、模式識別、聚類分析，多分類領域等等，當然我們需要注意的是，使用距離作為度量時，要保證所有特徵在數值上是乙個數量級上，以免距離的計算被數量級大的特徵所主導。在資料標準化這件事上，還要注意一點，訓練資料集和測試資料集一定要使用同一標準的標準化。並且測試資料集在標準化的時候，一定也要使用「訓練資料集的平均值」和「訓練資料集的標準差」，而不能使用測試資料集的。

詳解機器學習中的K近鄰演算法（中）

詳解機器學習中的K近鄰演算法（中）

機器學習中的 K 近鄰演算法

機器學習 k 近鄰演算法

詳解機器學習中的K近鄰演算法（中）

詳解機器學習中的K近鄰演算法（中）

機器學習中的 K 近鄰 演算法

機器學習 k 近鄰演算法

相關推薦

機器學習中的 K 近鄰演算法