打卡西瓜書2 第四章 決策樹

2021-09-23 14:34:00 字數 602 閱讀 6203

學習目的:產生一棵泛化能力強決策樹——「分而治之」

演算法思想:1. 生成結點node

##2,3,4用來確定結點類別

2.if 樣本集中包含樣本全屬於同一類別,node設為此類別(a,b,c,d,e都是好瓜)--->定此類別

3.if 當前屬性集為空或者樣本在所有屬性上取值相同(a,b,c,d,e都是根蒂卷、色澤綠)--->定最多類別

4.if 當前結點樣本為空--->定父節點類別

5.重新選擇最優屬性,迭代回去

那麼,如何選擇最優屬性?

資訊熵 ent(d)越小,d的純度越高--->資訊增益 (id3以此作為準則選擇屬性)

如何預防過擬合?--->剪枝處理

基本思路就是決策樹不生成的那麼深,到葉結點的父結點或者更靠近根結點的結點就停下,其依據是結構風險最小化原則。

​ 預剪枝和後剪枝

連續屬性怎麼辦?--->二分法

缺失資料怎麼辦?--->推廣資訊增益

推廣--->多變數決策樹

西瓜書 第四章 決策樹總結

1 什麼是決策樹 2 知道決策樹的學習目的和基本策略 分而治之 3 掌握決策樹演算法,知道有哪三種情況會導致遞迴返回 1 掌握基本概念和計算公式 資訊熵,資訊增益 著名的id3 增益率 c4.5演算法 基尼係數 cart演算法 2 知道該如何去選擇合適的劃分方法 1 為什麼要進行剪紙處理 對付 過擬...

第四章 決策樹

一般的,一棵決策樹包含乙個根節點,若干個內部節點和若干個葉節點。決策學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹學習的關鍵是如何選擇劃分屬性。隨著劃分過程的不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點的 純度 越來越高。1 資訊增益 資訊熵是度...

機器學習 第四章 決策樹

決策樹原理介紹 決策樹 decision tree 是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。劃分選擇 決策樹學習的關鍵在於,在每個 節點處如何選擇最優劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點...