機器學習基礎演算法（一）

簡介

k-近鄰法是一種基本分類與回歸方法。基本原理為：存在乙個已知資料集，每個資料集都存在標籤，輸入沒有標籤的新資料後，將新的資料的每個特徵與樣本集中資料對應的特徵進行比較，然後演算法提取樣本最相似資料(最近鄰)的分類標籤。一般來說，我們只選擇樣本資料集中前k個最相似的資料，這就是k-近鄰演算法中k的出處，通常k是不大於20的整數。最後，選擇k個最相似資料**現次數最多的分類，作為新資料的分類。

基本步驟

計算已知類別資料集中的點與當前點之間的距離；

按照距離遞增次序排序；

選取與當前點距離最小的k個點；

確定前k個點所在類別的出現頻率；

返回前k個點所出現頻率最高的類別作為當前點的**分類。

簡介決策樹(decision tree)是一種基本的分類與回歸方法。把決策樹看成乙個if-then規則的集合，將決策樹轉換成if-then規則的過程是這樣的：由決策樹的根結點(root node)到葉結點(leaf node)的每一條路徑構建一條規則；路徑上內部結點的特徵對應著規則的條件，而葉結點的類對應著規則的結論。決策樹的路徑或其對應的if-then規則集合具有乙個重要的性質：互斥並且完備。

過程收集資料：可以使用任何方法。比如想構建乙個相親系統，我們可以從媒婆那裡，或者通過參訪相親物件獲取資料。根據他們考慮的因素和最終的選擇結果，就可以得到一些供我們利用的資料了。

分析資料：可以使用任何方法，決策樹構造完成之後，我們可以檢查決策樹圖形是否符合預期。

訓練演算法：這個過程也就是構造決策樹，同樣也可以說是決策樹學習，就是構造乙個決策樹的資料結構。

測試演算法：使用經驗樹計算錯誤率。當錯誤率達到了可接收範圍，這個決策樹就可以投放使用了。

使用演算法：此步驟可以使用適用於任何監督學習演算法，而使用決策樹可以更好地理解資料的內在含義。

簡介樸素貝葉斯演算法是有監督的學習演算法，解決的是分類問題。該演算法的優點在於簡單易懂、學習效率高、在某些領域的分類問題中能夠與決策樹、神經網路相媲美。

基本步驟

將文字切分，存放到原始列表中，並對詞彙向量進行標註。

建立乙個詞彙表，並將切分好的詞條轉換為詞條向量，詞彙表（所有單詞出現的集合，裡面沒有重複元素）是用來將詞條向量化的，乙個單詞在詞彙表**現過一次，那麼就在相應位置記作1，如果沒有出現就在相應位置記作0。

得到詞條向量後，通過詞條向量訓練樸素貝葉斯分類器。

使用分類器進行分類。

機器學習基礎演算法（一）

機器學習演算法（一）基礎知識

機器學習基礎演算法一 KNN演算法回歸實驗

機器學習基礎（一）

機器學習基礎演算法（一）

機器學習演算法（一）基礎知識

機器學習基礎演算法一 KNN演算法回歸實驗

機器學習基礎（一）

相關推薦