機器學習筆記之九 決策樹原理以及舉例計算

2021-09-03 07:03:44 字數 1940 閱讀 1852

決策樹是機器學習最基本的演算法之一,它本身作為一顆樹而言,十分簡單。

就是將特徵屬性放在結點的未知,按照特徵屬性將樣本分類,放在左子樹和右子樹。

而在左子樹和右子樹,繼續使用其他的特徵屬性作為結點,向下分類。

學習決策樹複雜的部分在於,如何最優的選擇特徵屬性作為結點,以及生成決策樹後的優化策略。

下面就進入第乙個問題,如何最優的選擇特徵屬性作為結點,下面引入的的資訊熵、條件熵、資訊增益都是為了解決這個問題。

意義:資訊熵用來描述系統資訊量的不確定度。即 資訊熵越大,表示隨機變數越是均勻分布;資訊熵越小,隨機變數的取值差距越大。

公式:給定x的條件下,隨機變數y的資訊熵就叫做條件熵。

公式:熵在資料集中表現為:資訊熵是對label直接求熵,而條件熵則是在 某個特徵的所有取值情況下的 資訊熵 的數學期望。

作用:在決策樹中,作為衡量特徵重要性的指標,其他還有gini係數、錯誤率等。

公式:西瓜書中的表示:

現在我們有了資訊增益這個值作為判斷特徵好壞的指標,那麼就可以用它來構建決策樹了。

值得一提的是,根據資訊增益構建的決策樹,我們可以給它乙個特有的指標:

我們用乙個小例題再來熟悉一下這幾個指標的計算。

例題1,根據下列房產、婚姻、年收,判斷其對能否還債的重要程度。

首先,先來了解一下前輩們給決策樹們起的名字。

id3:以上面計算的資訊增益作為特徵選擇標準的決策樹,就是id3決策樹。

它的優點:速度快,實現起來簡單。

缺點:a、計算依賴於特徵數量多的(某特徵類別多,佔比就大)

b、不是遞增演算法。

c、不會考慮特徵間的關係。

d、只適合小規模資料集。

f、抗噪性差。

c4.5 : 與id3演算法本質的差別在於c4.5演算法採用的是資訊增益率作為選擇標準。

而資訊增益率就是資訊增益除以特徵的資訊熵:

c4.5演算法使用資訊增益率,消除了id3演算法中的第乙個缺點,但是其他缺點還是共有的。

cart(分類與回歸樹):cart使用基尼係數作為特徵選擇的標準。(ps:基尼係數一般應用於經濟領域,很有意思的東西)

cart構建的是二叉樹,且它的特徵會多次使用,以上兩種演算法乙個特徵只會在乙個結點中使用。

cart是目前最常用的決策樹。

cart的缺點:小資料集。

優點:特徵多的時候效果更好一點;可用於回歸演算法。

預剪枝:構建樹的過程中進行條件限制,造成修剪。(如sklearn中使用max_leaf_nodes、max_depth屬性來限制最大葉子結點數、最大深度

後剪枝:構建後,對決策樹進行修剪。

對後剪枝的理解:(1)、以非葉子結點所領銜的子樹為物件,將其替換成合理的葉子節點。將修剪後的樹用驗證集驗證,若結果更好,則替換,不好則捨棄。

(2)、對所有的非葉子節點進行(1)操作,並交叉驗證。

乙個決策樹的能力往往是十分弱小的,但是我們可以採取多種樹整合的方式,將弱決策樹聯合起來,構成乙個強決策森林,而整合的方式,我們稱之為整合學習。

整合學習,下一節再來記錄。

機器學習之筆記 決策樹

決策樹 概念 決策樹 decision tree 是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種 法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。一般流程 1 收集資料 可以使用任何方...

機器學習筆記 決策樹生成原理

決策樹是一種屬性結構的輔助決策工具。樹枝節點表示決策規則,也有叫屬性 樹葉節點表示結果,也有叫類別。自上而下由根節點依次延伸,根據屬性閾值不同延伸到不同的方向,到達下乙個屬性節點,並繼續延伸,直至最終的葉子節點,也就是分類完成。決策樹學習是一種逼近離散值目標函式的方法,該方法學習到的函式被表示為乙個...

《機器學習》學習筆記之決策樹

決策樹,顧名思義,以樹的結構來進行 它的基本概念在章節開頭有詳細的介紹。構建樹的遞迴演算法中,有三個情形會導致遞迴返回。其中第二個 當前屬性 特徵 集為空,或是所有樣本在所有屬性上取值相同,無法劃分。其意思是 已經沒有特徵拿來作進一步劃分生成子節點,或者此結點中的樣本標記不一致,但是他們在剩餘待劃分...