詳解機器學習中的K近鄰演算法(中)

2021-09-27 10:55:23 字數 630 閱讀 1271

首先我們說一下k近鄰演算法的三個要素,第一就是超引數k,第二就是距離的定義,這距離的定義就是歐氏距離,第三就是決策的規則,比如投票表決,或者加權投票。這三個內容缺一不可。

那麼k近鄰演算法的執行的步驟是什麼呢?這種演算法的執行步驟是比較簡答的,總共就有兩個步驟,第一步驟就是選擇k和距離的度量,第二個步驟就是計算待標記的資料樣本和資料集中每個樣本的距離,取距離最近的k個樣本。待標記的資料樣本所屬的類別,就由這k個距離最近的樣本投票產生。從中我們可以發現,k 近鄰演算法的訓練過程,即是利用訓練資料集,對特徵向量空間進行劃分。當然,k近鄰演算法是乙個懶惰學習的演算法,沒有顯式的學習過程,即沒有它沒有訓練的步驟,是乙個基於記憶的學習演算法。而「多數表決」規則等價於「經驗風險最小化」。而k近鄰演算法的優化實現是依靠kd 樹,即是給訓練資料建立樹結構一樣的索引,期望快速找到 k個鄰居,以防止線性掃瞄。

那麼k近鄰演算法的應用領域都有哪些呢?k近鄰演算法的應用領域有很多,比如文字分類、模式識別、聚類分析,多分類領域等等,當然我們需要注意的是,使用距離作為度量時,要保證所有特徵在數值上是乙個數量級上,以免距離的計算被數量級大的特徵所主導。在資料標準化這件事上,還要注意一點,訓練資料集和測試資料集一定要使用同一標準的標準化。並且測試資料集在標準化的時候,一定也要使用「訓練資料集的平均值」和「訓練資料集的標準差」,而不能使用測試資料集的。

詳解機器學習中的K近鄰演算法(中)

首先我們說一下k近鄰演算法的三個要素,第一就是超引數k,第二就是距離的定義,這距離的定義就是歐氏距離,第三就是決策的規則,比如投票表決,或者加權投票。這三個內容缺一不可。那麼k近鄰演算法的執行的步驟是什麼呢?這種演算法的執行步驟是比較簡答的,總共就有兩個步驟,第一步驟就是選擇k和距離的度量,第二個步...

機器學習中的 K 近鄰 演算法

k 近鄰 k nearest neighbor,簡稱knn 演算法是一種常用的監督學習方法,其工作機制 給定測試樣本,基於某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然後基於這k個 鄰居 的資訊進行 距離度量是什麼呢?拿歐氏距離來說,假如給定兩個樣本a,b 那麼最終的歐式距離就是 根號下 a1...

機器學習 k 近鄰演算法

一.k 近鄰演算法概述 簡單地說,k 近鄰演算法採用測量不同特徵值之間的距離方法進行分類。k 近鄰演算法 knn 它的工作原理是 存在乙個樣本資料集,也稱訓練樣本集,並且樣本集中每個資料都存在標籤,即我們知道樣本集中每一資料與所屬分類的對應關係。輸入沒有標籤的新資料後,將資料的每個特徵與樣本集合中資...