機器學習中的演算法決策樹與隨機森林

2021-09-25 01:12:07 字數 1510 閱讀 7443

本部落格為唐宇迪老師python資料分析與機器學習實戰課程學習筆記

一. 決策樹

1.1 樹模型

決策樹:從根節點開始一步步走到葉子節點(決策)

所有的資料最終都會落到葉子節點,既可以做分類也可以做回歸

1.2 樹的組成

1.3 節點

增加節點相當於在資料中切一刀,節點越多越好嗎?

1.4 決策樹的訓練與測試

1.5 如何切分特徵(選擇節點)

二. 衡量標準-熵

2.1 熵的定義

熵:表示隨機變數不確定性的度量。(就是物體內部的混亂程度,比如雜貨市場裡面什麼都有那肯定混亂,專賣店裡面只賣乙個牌子就穩定的多)(越亂熵值越大)

2.2 熵的公式

公式:h(x) = -∑pi * log pi, i = 1,2,3,……,n

2.3 乙個例子

a集合[1,1,1,1,1,1,1,1,2,2]

b集合[1,2,3,4,5,6,7,8,9,1]

顯然a集合的熵值要低,因為a裡面只有兩種類別,相對穩定一些而b中類別太多,熵值就會大很多。(在分類任務中我們希望通過節點分支後資料類別的熵值大還是小呢?)

2.4 熵

四. 資訊增益率

4.1 決策樹演算法

五.決策樹剪枝策略

5.1 連續值離散化

5.2決策樹剪枝策略

5.3 預剪枝與後剪枝

預剪枝:限制深度,葉子節點個數葉子節點樣本數,資訊增益量等

後剪枝:通過一定的衡量標準

(葉子節點越多,損失越大)

根據後剪枝的衡量標準通過計算,①和②。比較①和②的值,哪個值大,說明哪個效果不好。如果②比①小,說明②比①好,**比較好;如果①比②小,說明①比②好,則不**比較好。

六. 整合演算法-隨機森林

6.1 ensemble learning

八. 提公升模型

boosting模型

九. 堆疊模型

9.1 stacking模型

機器學習 決策樹 隨機森林演算法

決策樹api from sklearn.tree import decisiontreeclassifier import pandas as pd 字典特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.m...

機器學習演算法 決策樹

決策樹類似一中策略或者條件選擇,其中各個節點代表選擇條件,各個葉子結點代表可能達到的結果,決策樹 decision tree 是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就...

機器學習演算法 決策樹

決策樹的使用主要是用於分類。年齡收入 信用是否學生 是否買電腦年輕高 高是是中年 低中否否 老年中低否 是對於一些適合分類的資料中,考慮各種因素對結果的影響大小進行決策,一般是先選取區分度較高的因素。比如說,年齡大小這個因素在很大程度上影響我們的結果 是否買電腦。那麼,年齡因素將作為第乙個決策因素出...