機器學習之決策樹

2021-08-29 20:21:23 字數 1022 閱讀 3827

1.利用資訊增益來進行決策樹的屬性劃分時選擇屬性的資訊增益較大的。資訊增益準則對可取值數目較多的屬性有多偏好(id3),增益率準則對可取值數目較少的屬性有多偏好(c4.5),因此,c4.5演算法並不是直接選擇增益率較大的時候選劃分屬性,而是使用了乙個啟發式先從候選屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的。

2.基尼值反映了從資料集d中隨機抽取兩個樣本,其類別標記不一致的概率,因此,基尼值越小,資料集d的純度越高。

基尼指數是基於基尼值進行一定的計算之後的屬性a的值,在候選集合a中,選擇使得劃分後基尼指數最小的屬性作為最優劃分屬性。

3.決策樹剪枝

3.1 預剪枝

對屬性劃分前後的泛化效能進行研究,如果泛化效能沒有變化或者分支之後的泛化效能小於當前的效能,那就不進行分支。

優點:使得決策樹的很多分支都沒有展開,降低了過度擬合的風險,顯著減少了決策樹的訓練時間開銷和測試時間開銷

缺點:雖然有些分支的當前劃分不能提高泛化效能、甚至可能導致泛化效能下降,但是在其基礎上進行後續劃分卻有可能導致效能顯著提高;預剪枝基於」貪心"本質禁止這些分支展開,給預剪枝決策樹帶來了欠擬合的風險

3.2 後剪枝

後剪枝是先從訓練集生成一顆完整的決策樹,然後從樹的底端不斷將非葉子節點替換為葉子節點,比較替換前後的決策樹的泛化效能之後決定是否進行剪枝。後剪枝決策樹通常比預剪枝決策樹保留了更多的分支,一般情況下,後剪枝決策樹的欠擬合風險很小,泛華效能往往優於預剪枝決策樹,但後剪枝過程是在生成完全決策樹之後進行的,並且要自底向上對書中的所有非葉子節點進行逐一考察,因此其訓練時間開銷比未剪枝決策樹和預剪枝決策樹都要大的多。

機器學習之決策樹

在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...

機器學習之決策樹

決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...

機器學習之決策樹

簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...