機器學習實戰 第二章 K 近鄰演算法

2021-07-02 15:20:56 字數 425 閱讀 2044

本系列目的在於總結每乙個分類器的特點(優點、缺點、使用資料型別、使用時的注意事項等)。相關**自己搜。

python:建議使用2.7

python常用函式庫:numpy、scikit-learn等

python整合環境:anaconda

優點:1、對異常值不敏感

2、無資料輸入假設

缺點:1、計算複雜度高(對每乙個測試樣本要跑一邊knn,距離計算也很耗時)

2、空間複雜度高(儲存所有樣本)

3、隨k的變化結果可能受影響

4、無法給出資料的內在含義,僅靠距離作為唯一標準

使用資料型別:

1、連續型

2、離散型

使用時注意事項:

1、k一般不大於20

2、視情況對每個特徵進行歸一化

3、嘗試改變k調整模型精度

《機器學習實戰》第二章 k 近鄰演算法 筆記

在看這一章的書之前,在網上跟著博主jack cui的部落格學習過,非常推薦。python3 機器學習實戰 學習筆記 一 k 近鄰演算法 史詩級乾貨長文 講述的非常細緻,文字幽默有趣,演算法細節也講述的非常清楚,較書中而言還有sklearn調庫的補充內容。因此,在這裡,我只總結自己的筆記。2.k 近鄰...

第二章 K 近鄰演算法

步驟 1 收集資料 2 準備資料 3 分析資料 4 訓練資料 5 測試演算法 6 適用演算法 對未知類別屬性的資料集中的每個點一次執行以下操作 1 計算一直類別資料集中的點與當前點之間的距離 2 按照距離遞增次序排序 3 選取與當前點距離最小的k個點 4 確定前k個點所在類別出現的頻率 5 返回前k...

《機器學習實戰》 K 近鄰演算法

基本原理 通過計算新資料與給定的樣本資料之間的距離,來確定相似度排名 然後取前k個最相似的樣本,統計這k 一般不大於20 個樣本中出現最多的分類,設為新資料的分類。新資料,訓練樣本集,樣本資料標籤 即分類 最近鄰 前k個最相似資料 最近鄰標籤 演算法實施 首先提取要比較的特徵,確定各特徵的權重,進行...