決策樹的幾點註記

2021-08-10 15:23:45 字數 404 閱讀 4257

1、對每個特徵,有兩種特徵值:「是」與「否」,數學上,0與1。對特徵進行劃分,實質上是對特徵值進行劃分。在這個特徵下,屬於「是」的到一邊,屬於「否」的到另一邊。

2、如果在該資料集下,所有樣本的類別都是一樣的,則劃分停止。

3、每次劃分,會產生兩個子資料集。資訊增益是子資料集熵的加權平均與母資料集的熵之差。

4、如何從不熟悉的資料集中提煉出「是否」的問答規則。決策樹的核心。

5、熵(entropy)衡量事物的混亂程度。事物越有序,熵越低;越無序,熵越高。可以將劃分前的資料集理解為無序的狀態,為了使得資訊增益最大,則劃分後的資料集應該是越有序越好。其差值自然越大。

決策樹的幾點思考

最近溫習了一下決策樹,又加深了理解。下面總結一下我對於決策樹的幾點思考。我們知道三種經典的決策樹演算法 id3 c4.5 cart,也知道它們的幾點性質,比如,id3僅能用於特徵是離散值的情況,cart既可以用於分類也可以用於回歸,等等。那麼它們為什麼會有這些性質?id3為什麼不能用於連續型特徵,而...

決策樹01 決策樹的原理

此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...