決策樹學習筆記

一、什麼是決策樹

決策樹是一種基於規則的方法，它用一組巢狀的規則進行**。在樹的每個決策節點處，根據判斷結果進入乙個分之，反覆執行這種操作直到到達葉子節點，得到**結果。這些規則是通過訓練得到的，而不是認為設定的。

規則是每一次**時的閥值。

二、樹形成決策的過程

為便於用程式實現，一般將決策樹設計成二叉樹。與樹的葉子節點、非葉子節點相對應，決策樹的節點分為兩種型別。

（1）決策節點。在這些節點處需要進行判斷以決定進入哪乙個分支（子節點），如用乙個特徵和設定的閥值進行比較。決策節點一定有兩個子節點，它是非葉子節點。

（2）葉子節點。表示最終的決策結果，他們沒有子節點。在分類問題中，葉子節點儲存的是類別標籤。

決策樹是乙個分層結構，可以為每乙個節點賦予乙個層次數。根節點的層次數為0，子節點的層次數為父節點層次數加1,。樹的深度定義為所有幾點的最大層數。

典型的決策樹有id3、c4.5 、cart(classification and regression tree, 分類與回歸樹)等，他們區別在於數的結構與構造演算法。cart同時支援分類問題和回歸問題。決策樹是一種判別模型，天然支援多分類問題。

分類樹的對映是多為空間的分段線性劃分，即用平行於各座標軸的超平面對空間進行切分；回歸樹的對映函式是分段函式。決策樹是分段線性函式而不是線性函式，它具有非線性建模能力。對於分類問題，如果決策樹深度夠大，它可以見訓練樣本的所有樣本正確分類。但如果特徵向量維數過高，可能會面臨維數災難導致準確率下降。

三、分類與回歸樹

分類與回歸樹的原理：

這是乙個二叉決策樹。**時從根節點開始，每次只對乙個特徵進行判斷，然後進入左節點或者右節點直至到達乙個葉子節點處，得到類別值或回歸函式值。**演算法的時間複雜度有關，判斷的執行次數不超過決策樹的深度。

四、訓練演算法

下面講如何使用訓練集建立決策樹。決策樹的目的是盡可能的對訓練樣本進行正確**。只管的想法是從根節點開始構造，遞迴的使用訓練樣本集建立起決策樹，這棵樹能夠將訓練集正確劃分，或者對訓練集的回歸誤差最小化。為此我們需要解決的問題有：

1.特徵向量有多少個分量，每個決策節點上應該選擇哪個分量做判斷；

2.選定乙個特徵後，判斷的規則是什麼；

3.合適停止**，何時吧節點設定為葉子節點？

4.如何為每個葉節點賦予類別標籤或者回歸值。