KNN鄰近演算法

（k near neighbor）：k個最近的鄰居，即每個樣本都可以用它最接近的k個鄰居來代表。

演算法的思想是：樣本集中的某一樣本與資料集中的其他k個樣本最相似，如果這k個樣本中的大多數屬於某乙個類別，則該樣本也屬於這個類別。

1、計算已知類別資料集中的點與當前點之間的距離 2、按距離遞增次序排序 3、選取與當前點距離最小的k個點 4、統計前k個點所在的類別出現的頻率 5、返回前k個點出現頻率最高的類別作為當前點的**分類

1、演算法分類簡單有效 2、重新訓練代價底 3、演算法複雜度底 4、比較適合交叉類域樣本 5、適合大樣本自動分類

1、knn是一種惰性學習方法 2、類別分類不標準化 3、針對樣本分佈不均衡，有可能會出現錯誤分類。可採用權值的方法（和該樣本距離小的鄰居權值大）進行改進。 4、輸出可解釋性不強。 5、計算量較大（目前常用的解決方法是事先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本）

1、距離度量：

2、分類決策規則

k鄰近法中的分類決策規則往往是多數表決，即有輸入例項的k個鄰近的訓練例項中的多數類決定輸入例項的類。

3、k值的選擇

k值的選擇會對k鄰近法的結果產生重大影響。