機器學習筆記之九決策樹原理以及舉例計算

決策樹是機器學習最基本的演算法之一，它本身作為一顆樹而言，十分簡單。

就是將特徵屬性放在結點的未知，按照特徵屬性將樣本分類，放在左子樹和右子樹。

而在左子樹和右子樹，繼續使用其他的特徵屬性作為結點，向下分類。

學習決策樹複雜的部分在於，如何最優的選擇特徵屬性作為結點，以及生成決策樹後的優化策略。

下面就進入第乙個問題，如何最優的選擇特徵屬性作為結點，下面引入的的資訊熵、條件熵、資訊增益都是為了解決這個問題。

意義：資訊熵用來描述系統資訊量的不確定度。即資訊熵越大，表示隨機變數越是均勻分布；資訊熵越小，隨機變數的取值差距越大。

公式：給定x的條件下，隨機變數y的資訊熵就叫做條件熵。

公式：熵在資料集中表現為：資訊熵是對label直接求熵，而條件熵則是在某個特徵的所有取值情況下的資訊熵的數學期望。

作用：在決策樹中，作為衡量特徵重要性的指標，其他還有gini係數、錯誤率等。

公式：西瓜書中的表示：

現在我們有了資訊增益這個值作為判斷特徵好壞的指標，那麼就可以用它來構建決策樹了。

值得一提的是，根據資訊增益構建的決策樹，我們可以給它乙個特有的指標：

我們用乙個小例題再來熟悉一下這幾個指標的計算。

例題1，根據下列房產、婚姻、年收，判斷其對能否還債的重要程度。

首先，先來了解一下前輩們給決策樹們起的名字。

id3：以上面計算的資訊增益作為特徵選擇標準的決策樹，就是id3決策樹。

它的優點：速度快，實現起來簡單。

缺點：a、計算依賴於特徵數量多的（某特徵類別多，佔比就大）

b、不是遞增演算法。

c、不會考慮特徵間的關係。

d、只適合小規模資料集。

f、抗噪性差。

c4.5 : 與id3演算法本質的差別在於c4.5演算法採用的是資訊增益率作為選擇標準。

而資訊增益率就是資訊增益除以特徵的資訊熵：

c4.5演算法使用資訊增益率，消除了id3演算法中的第乙個缺點，但是其他缺點還是共有的。

cart（分類與回歸樹）：cart使用基尼係數作為特徵選擇的標準。（ps：基尼係數一般應用於經濟領域，很有意思的東西）

cart構建的是二叉樹，且它的特徵會多次使用，以上兩種演算法乙個特徵只會在乙個結點中使用。

cart是目前最常用的決策樹。

cart的缺點：小資料集。

優點：特徵多的時候效果更好一點；可用於回歸演算法。

預剪枝：構建樹的過程中進行條件限制，造成修剪。（如sklearn中使用max_leaf_nodes、max_depth屬性來限制最大葉子結點數、最大深度）

後剪枝：構建後，對決策樹進行修剪。

對後剪枝的理解：（1）、以非葉子結點所領銜的子樹為物件，將其替換成合理的葉子節點。將修剪後的樹用驗證集驗證，若結果更好，則替換，不好則捨棄。

（2）、對所有的非葉子節點進行（1）操作，並交叉驗證。

乙個決策樹的能力往往是十分弱小的，但是我們可以採取多種樹整合的方式，將弱決策樹聯合起來，構成乙個強決策森林，而整合的方式，我們稱之為整合學習。

整合學習，下一節再來記錄。

機器學習之筆記決策樹

決策樹概念決策樹 decision tree 是在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於零的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種法。由於這種決策分支畫成圖形很像一棵樹的枝幹，故稱決策樹。一般流程 1 收集資料可以使用任何方...

機器學習筆記決策樹生成原理

決策樹是一種屬性結構的輔助決策工具。樹枝節點表示決策規則，也有叫屬性樹葉節點表示結果，也有叫類別。自上而下由根節點依次延伸，根據屬性閾值不同延伸到不同的方向，到達下乙個屬性節點，並繼續延伸，直至最終的葉子節點，也就是分類完成。決策樹學習是一種逼近離散值目標函式的方法，該方法學習到的函式被表示為乙個...

《機器學習》學習筆記之決策樹

決策樹，顧名思義，以樹的結構來進行它的基本概念在章節開頭有詳細的介紹。構建樹的遞迴演算法中，有三個情形會導致遞迴返回。其中第二個當前屬性特徵集為空，或是所有樣本在所有屬性上取值相同，無法劃分。其意思是已經沒有特徵拿來作進一步劃分生成子節點，或者此結點中的樣本標記不一致，但是他們在剩餘待劃分...

機器學習筆記之九 決策樹原理以及舉例計算

機器學習之筆記 決策樹

機器學習筆記 決策樹生成原理

《機器學習》學習筆記之決策樹

相關推薦

機器學習筆記之九決策樹原理以及舉例計算

機器學習之筆記決策樹

機器學習筆記決策樹生成原理