機器學習演算法唐老師1 1決策樹演算法

樹模型

決策樹：從根節點開始一步步走到葉子節點（決策）

所有的資料最終都會落到葉子節點，既可以做分類也可以做回歸

樹的組成

根節點：第乙個選擇點

非葉子節點與分支：中間過程

葉子節點：最終的決策結果

決策樹的訓練與測試

訓練階段：從給定的訓練集構造出來一棵樹（從跟節點開始選擇特徵，如何進行特徵切分）

測試階段：根據構造出來的樹模型從上到下去走一遍就好了

一旦構造好了決策樹，那麼分類或者**任務就很簡單了，只需要走一遍就可以了，那麼難點就在於如何構造出來一顆樹，這就沒那麼容易了，需要考慮的問題還有很多的！

如何切分特徵（選擇節點）

問題：根節點的選擇該用哪個特徵呢？接下來呢？如何切分呢？

想象一下：我們的目標應該是根節點就像乙個老大似的能更好的切分資料（分類的效果更好），根節點下面的節點自然就是二當家了。

目標：通過一種衡量標準，來計算通過不同特徵進行分支選擇後的分類情況，找出來最好的那個當成根節點，以此類推。

衡量標準-熵

熵：熵是表示隨機變數不確定性的度量（解釋：說白了就是物體內部的混亂程度，比如雜貨市場裡面什麼都有那肯定混亂呀，專賣店裡面只賣乙個牌子的那就穩定多啦）

公式：h(x)=- ∑ pi * logpi, i=1,2, … , n

乙個栗子： a集合[1,1,1,1,1,1,1,1,2,2] b集合[1,2,3,4,5,6,7,8,9,1]

顯然a集合的熵值要低，因為a裡面只有兩種類別，相對穩定一些而b中類別太多了，熵值就會大很多。（在分類任務中我們希望通過節點分支後資料類別的熵值大還是小呢？）

熵：不確定性越大，得到的熵值也就越大當p=0或p=1時，h§=0,隨機變數完全沒有不確定性當p=0.5時，h§=1,此時隨機變數的不確定性最大

如何決策乙個節點的選擇呢？

資訊增益：表示特徵x使得類y的不確定性減少的程度。（分類後的專一性，希望分類後的結果是同類在一起）

機器學習演算法決策樹

決策樹類似一中策略或者條件選擇，其中各個節點代表選擇條件，各個葉子結點代表可能達到的結果，決策樹 decision tree 是乙個樹結構可以是二叉樹或非二叉樹其每個非葉節點表示乙個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放乙個類別。使用決策樹進行決策的過程就...

機器學習演算法決策樹

決策樹的使用主要是用於分類。年齡收入信用是否學生是否買電腦年輕高高是是中年低中否否老年中低否是對於一些適合分類的資料中，考慮各種因素對結果的影響大小進行決策，一般是先選取區分度較高的因素。比如說，年齡大小這個因素在很大程度上影響我們的結果是否買電腦。那麼，年齡因素將作為第乙個決策因素出...

機器學習演算法決策樹

1 決策樹直觀理解假設，已知10人房產婚姻年收入以及能否償還債務的樣本，那麼第11個人來，知其房產婚姻以及年收入情況，問他是否能償還債務？2 前置知識理解決策樹，我們必須知道一下概念資訊熵描述系統的不確定度，熵越高，代表系統越混亂，包含的資訊量也就越多，其公式例計算前10個樣本能...

機器學習演算法 唐老師1 1決策樹演算法

機器學習演算法 決策樹

機器學習演算法 決策樹

機器學習演算法 決策樹

相關推薦

機器學習演算法唐老師1 1決策樹演算法

機器學習演算法決策樹

機器學習演算法決策樹

機器學習演算法決策樹