機器學習六決策樹

決策樹（decision tree）

是一種非常常用的分類演算法，也是一種**模型。在已知各種情況發生概率的情況下，通過構成決策樹來求取淨現值的期望值大於等於零的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種**法。由於這種決策分支畫成圖形很像一棵樹的枝幹，故稱決策樹。在機器學習中，決策樹是乙個**模型，它代表的是物件屬性與物件值之間的一種對映關係。

缺點：容易出現過擬合（overfitting）的情況，要在適當的時機停止決策樹的生長。

from sklearn import tree
clf = tree.decisiontreeclassifier()
clf.fit(features_train,labels_train)
pred = clf.predict(feature_test)
from sklearn.metrics import accuracy_score
acc = accuracy_score(pred, labels_test)

備註：在決策樹演算法中可以通過為決策樹分類器新增引數（例如：min_samples_split）減少演算法的複雜度。

熵（entropy）

對於資料雜質存在而言，熵就是一種衡量資料中存在雜質程度的方法。在使用決策樹時，很少需要處理對數底的細節，較低的熵指向更有條理的資料，而且決策樹將此用作事件分類方式。

熵公式：entropy = −∑

(pi

)log2

) 資訊增益（information gain）

非對稱，用於衡量兩種概率分布的差異。衡量標準是看特徵能夠為分類系統帶來多少資訊，帶來的資訊越多，該特徵越重要。對於乙個特徵而言，系統有它和沒它時資訊量將發生變化，而前後資訊量的差值就是這個特徵給系統帶來的資訊量（熵）。

在其他所有方面都相等的情況下，特徵數量越多會使決策樹的複雜性更高。

缺點：資訊增益只能考察特徵對整個系統的貢獻，而不能具體到某個類別上，這就使得它只適合用來做所謂「全域性」的特徵選擇（指所有的類都使用相同的特徵集合），而無法做「本地」的特徵選擇（每個類別有自己的特徵集合，因為有的詞，對這個類別很有區分度，對另乙個類別則無足輕重）。

information gain = entropy(parent) - sum(entropy(children))

偏差（bias）、誤差（error）、方差（variance）

error = bias + variance

error反映的是整個模型的準確度，bias反映的是模型在樣本上的輸出與真實值之間的誤差，即模型本身的精準度，

variance反映的是模型每一次輸出結果與模型輸出期望之間的誤差，即模型的穩定性。

機器學習六決策樹

機器學習決策樹

機器學習決策樹

機器學習決策樹

機器學習六 決策樹

機器學習 決策樹

機器學習 決策樹

機器學習 決策樹

相關推薦

機器學習六決策樹

機器學習決策樹

機器學習決策樹

機器學習決策樹