機器學習（2）分類問題

參考部落格：

根據一些 feature 進行分類，每個節點提乙個問題，通過判斷，將資料分為兩類，再繼續提問。這些問題是根據已有資料學習出來的，再投入新資料的時候，就可以根據這棵樹上的問題，將資料劃分到合適的葉子上。

個人總結（不能保證正確），一組資料的特徵用向量表示，比如[x1,x2,x3,x4]有4個特徵，先通過x1特徵分為2類，然後再接著使用x2特徵分類，直到終止條件或特徵使用完。可以看成把特徵序列起來使用。根節點使用什麼特徵？什麼時候終止？

參考部落格：

隨機森林是為了解決決策樹容易過擬合的缺點(見上述參考部落格)，採用了多個決策樹的投票機制來改善決策樹，我們假設隨機森林使用了m棵決策樹，那麼就需要產生m個一定數量的樣本集來訓練每一棵樹，如果用全樣本去訓練m棵決策樹顯然是不可取的，全樣本訓練忽視了區域性樣本的規律，對於模型的泛化能力是有害的。產生n個樣本的方法採用bootstraping法，這是一種有放回的抽樣方法，產生n個樣本而最終結果採用bagging的策略來獲得，即多數投票機制

隨機森林的生成方法：

1.從樣本集中通過重取樣的方式產生n個樣本

2.假設樣本特徵數目為a，對n個樣本選擇a中的k個特徵，用建立決策樹的方式獲得最佳分割點

3.重複m次，產生m棵決策樹

4.多數投票機制來進行**

（需要注意的一點是，這裡m是指迴圈的次數，n是指樣本的數目，n個樣本構成訓練的樣本集，而m次迴圈中又會產生m個這樣的樣本集）

參考部落格：

給乙個新的資料時，離它最近的 k 個點中，哪個類別多，這個資料就屬於哪一類

如下圖，綠色圓要被決定賦予哪個類，是紅色三角形還是藍色四方形？如果k=3，由於紅色三角形所佔比例為2/3，綠色圓將被賦予紅色三角形那個類，如果k=5，由於藍色四方形比例為3/5，因此綠色圓被賦予藍色四方形類

演算法步驟：

1）計算測試資料與各個訓練資料之間的距離；

2）按照距離的遞增關係進行排序；

3）選取距離最小的k個點；

4）確定前k個點所在類別的出現頻率；

5）返回前k個點中出現頻率最高的類別作為測試資料的**分類。

參考部落格：

adaboost 是一種迭代演算法，其核心思想是針對同乙個訓練集訓練不同的分類器，即弱分類器，然後把這些弱分類器集合起來，構造乙個更強的最終分類器。

參考部落格：

要將兩類分開，想要得到乙個超平面，最優的超平面是到兩類的 margin 達到最大，margin就是超平面與離它最近一點的距離，如下圖，z2>z1，所以綠色的超平面比較好

參考部落格：

貝葉斯分類演算法是統計學的一種分類方法，它是一類利用概率統計知識進行分類的演算法。在許多場合，樸素貝葉斯(naïve bayes，nb)分類演算法可以與決策樹和神經網路分類演算法相媲美，該演算法能運用到大型資料庫中，而且方法簡單、分類準確率高、速度快。

既然是樸素貝葉斯分類演算法，它的核心演算法又是什麼呢？

是下面這個貝葉斯公式

參考部落格：

機器學習（2）分類問題

機器學習之多類分類問題

機器學習3 分類演算法

機器學習二分類精度

機器學習（2） 分類問題

機器學習之 多類分類問題

機器學習3 分類演算法

機器學習二分類精度

相關推薦

機器學習（2）分類問題

機器學習之多類分類問題