隨機森林和決策樹區別 AI學習之決策樹與隨機森林

2021-10-11 16:03:21 字數 1488 閱讀 1503

決策樹:使用環境:資訊不確定性衡量熵值型別

資訊熵:資訊不確定性衡量

資訊增益:父節點熵-子節點熵,最大資訊增益的特徵為最佳分割特徵

舉例

/示例

依據天氣**是否打高爾夫球的概率:兩個步驟

步驟1:(確定分割節點,對於分割節點的每種情況繼續進行分割)

步驟2:依據建好的樹進行**

步驟1: 建樹---確定父節點

步驟1: 建樹---確定子節點

步驟2: **

值為連續值情況如何確定?

解決辦法:將連續值劃分為n個區間,每個區間作為乙個值

/總結:優缺點優點:

可解釋性高(可以整棵樹展示)

可以處理非線形資料

不需要歸一化

可用於特徵工程、特徵選擇?

對資料分布沒有偏好

廣泛使用

容易實現

可以轉換為規則

缺點:

啟發式生成,不是最優解

容易過擬合

微小資料改變會改變整棵樹形狀

對類別不平衡的資料不友好隨機森林:與adaboost區別: 隨機是並行,adaboost是序列的原理:同時訓練多個決策樹,然後進行投票,根據投票結果做**隨機性特點:訓練資料中隨機選擇子集;選擇分叉特徵的時候,隨機選擇乙個特徵優勢

消除了決策樹容易過擬合的缺點;(帶放回的去樣,樣本可能重疊)

減少**的變化(不會因為訓練資料的小變化而劇烈變化)

案例:離職**:kaggle資料

決策樹和隨機森林

決策樹 建立決策樹的關鍵,是在當前狀態下選擇那個屬性作為分類依據。根據不同的目標函式,建立決策樹主要有三個演算法 id3 iterative dichotomiser c4.5 cart classification and regression tree 資訊增益 當熵和條件熵中的概率由資料統計得...

決策樹和隨機森林

c4.5 cart 2,工具 能夠將dot檔案轉換為pdf png 3,執行命令 缺點 改進 建立10顆決策樹,樣本,特徵大多不一樣 隨機又放回的抽樣 bootstrap boolean,optional default true 是否在構建樹時使用放回抽樣。隨機森林的優點 import panda...

機器學習之 決策樹 隨機森林

一 決策樹 選擇特徵來分割 分割方法 id3 c4.5 cart 1.id3 資訊增益來選擇最優分割 id3偏向取值較多的屬性,例如id列 2.c4.5 資訊增益率選擇最優分割 資訊增益 iv 屬性a的特徵個數越多,iv越大。資訊增益率又會偏向較少的特徵。c4.5先找出資訊增益高於平均水平的屬性,再...