決策樹的幾點思考

2021-09-21 06:37:17 字數 722 閱讀 2435

最近溫習了一下決策樹,又加深了理解。下面總結一下我對於決策樹的幾點思考。

我們知道三種經典的決策樹演算法:id3、c4.5、cart,也知道它們的幾點性質,比如,id3僅能用於特徵是離散值的情況,cart既可以用於分類也可以用於回歸,等等。那麼它們為什麼會有這些性質?

id3為什麼不能用於連續型特徵,而cart可以?

關鍵點在於「二元**」與「多元**」

id3選擇好特徵之後,對於這個特徵的每個取值生成乙個節點,是「多元**」,正適用於離散型特徵。如果換成連續型特徵,則無法為每個取值生成乙個節點。可以說id3是專門為離散型特徵而設計的。

而cart採用了「二元**」,使得它同時適用於離散型特徵和連續型特徵。對於離散型特徵,基於這種方法**:「如果該特徵取值是a,則進入左節點,否則進入右節點」。對於連續型特徵,基於這種方法**:「如果該特徵取值《統計學習方法》講cart演算法的時候,講回歸樹用的是連續型特徵,講分類樹用的是離散型特徵。實際上,無論回歸還是分類,資料集中既可以有連續型特徵,又可以有離散型特徵。

id3可以用於回歸嗎?

為什麼cart可以用於回歸?其實回歸和分類的區別僅在於特徵**後的評價標準。回歸採用平方誤差和,分類採用基尼指數。二者都希望最小化各自的評價標準。如果將id3中採用的熵換成平方誤差和,就可以做回歸了。(這時候演算法就不叫id3了。。這裡只是做乙個思路延伸)

決策樹的幾點註記

1 對每個特徵,有兩種特徵值 是 與 否 數學上,0與1。對特徵進行劃分,實質上是對特徵值進行劃分。在這個特徵下,屬於 是 的到一邊,屬於 否 的到另一邊。2 如果在該資料集下,所有樣本的類別都是一樣的,則劃分停止。3 每次劃分,會產生兩個子資料集。資訊增益是子資料集熵的加權平均與母資料集的熵之差。...

決策樹(二)關於的決策樹的一些思考

如果我可以使用邏輯回歸解決分類問題和線性回歸解決回歸問題,為什麼需要使用樹模型?我們很多人都有這個問題。實際上,你可以使用任何演算法。這取決於你要解決的問題型別。其中有一些關鍵因素,它們將幫助你決定使用哪種演算法 過度擬合是決策樹建模時面臨的主要挑戰之一。如果沒有限制,它將為您提供100 的訓練集準...

決策樹01 決策樹的原理

此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...