深度學習 K近鄰演算法

k近鄰演算法定義：k最近鄰(k-nearest neighbor，knn)分類演算法，是乙個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：在特徵空間中，如果乙個樣本附近的k個最近(即特徵空間中最鄰近)樣本的大多數屬於某乙個類別，則該樣本也屬於這個類別

一句簡單的話幫你理解什麼是knn

商業哲學家 jim rohn 說過一句話，「你，就是你最常接觸的五個人的平均。」那麼，在分析乙個人時，我們不妨觀察和他最親密的幾個人。同理的，在判定乙個未知事物時，可以觀察離它最近的幾個樣本，這就是 knn（k最近鄰）的方法

在上圖中顯示，一共存在兩種標籤不同的資料，我們需要根據這些資料來判別乙個新的資料（綠色點）屬於哪一類，例如選擇k=1，那麼結果就是距離該點最近的點的分類，而k-近鄰演算法（k-nearest

neighbor）要做的就是通過k值的選擇、距離的度量、分類策略規則的定義來給出乙個最好的**結果。

k 值的選擇會對演算法的結果產生重大影響。k值較小意味著只有與輸入例項較近的訓練例項才會對**結果起作用，但容易發生過擬合；如果 k

值較大，優點是可以減少學習的估計誤差，但缺點是學習的近似誤差增大，這時與輸入例項較遠的訓練例項也會對**起作用，是**發生錯誤。在實際應用中，k值一般選擇乙個較小的數值，通常採用交叉驗證的方法來選擇最有的 k 值。

該演算法中的分類決策規則往往是多數表決，即由輸入例項的 k 個最臨近的訓練例項中的多數類決定輸入例項的類別。

距離度量一般採用 lp距離，當p=2時，即為歐氏距離，在度量之前，應該將每個屬性的值規範化，這樣有助於防止具有較大初始值域的屬性比具有較小初始值域的屬性的權重過大（歸一化處理）。