決策樹總結

決策樹是一種應用廣泛的機器學習演算法，過程簡單，結果易於解釋。決策樹是一種貪心演算法，它在給定時間給做出最佳選擇，並不關心能否達到全域性最優。

決策樹特點

id3：不能處理連續資料，沒有剪枝過程，採用資訊增益作為標準尋找最優特徵，這種方法偏向屬性取值多的特徵。

id3每次選取當前最佳的特徵來分割資料，並按照該特徵的所有可能取值來切分。一旦按某種特徵切分後，該特徵在之後的演算法執行過程中將不會再起作用，這種切分方法過於迅速。id3不能直接出來連續特徵。只有事先將連續特徵轉換成離散特徵，才能在id3演算法中使用。這種轉換過程會破壞連續性特徵的內在性質。

c4.5：對連續值離散處理，對於連續值，採用二元切分法，也可對缺失值處理，有剪枝過程。c4.5採用資訊增益率作為特徵選擇的標準，它和id3一樣，只能用於分類。

cart樹是十分著名且廣泛記載的樹構建演算法，可用於分類和回歸，它使用二元切分來處理連續型變數。分類時使用基尼指數選擇特徵，回歸時採用平方誤差選擇特徵。id3和c4.5對於離散特徵，根據特徵的不同取值，可構建多叉子節點，而cart採用多次二分的方法，每個節點只有兩個子節點，所以cart樹是二叉樹。cart樹有剪枝過程，可減少過擬合，增強樹模型的泛化能力。對於連續屬性，若當前節點劃分屬性為連續屬性，該屬性還可作為其後代節點的劃分屬性。

對於連續型資料，可採用二元切分法，如果特徵大於給定值就走左子樹，否則就走右子樹。二元切分法節省了樹的構建時間。二元切分法：把中位點作為候選劃分點。從小到大排序，取(ai+ai+1)/2作為候選劃分點。然後，就可以像離散屬性值一樣來考察這些劃分點，選取最優的劃分點進行樣本集合的劃分。

當樣本的某些屬性值缺失時，在選擇屬性時，僅使用不缺失該屬性的資料來計算資訊增益，最後乘以乙個代表缺失資料比例的比例係數；在對某個屬性進行劃分子節點時，對於不缺失該屬性的資料正常劃分，對於缺失該屬性的資料，按不同的權重劃分進行每個子節點

多變數決策樹

決策樹「增量學習」，接受到新樣本後對已學得的模型進行調整，不用完全重新學習，主要機制是通過調整分支路徑上的劃分屬性次序來度數進行部分重構。代表演算法有id4。增量學習可有效地降低每次接受到新樣本後的迅雷時間開銷，但多步增量學習後的模型會與汲取全部資料訓練而得到的模型有較大差別。

決策樹總結

決策樹總結

決策樹模型總結

決策樹面試總結

決策樹總結

決策樹總結

決策樹模型總結

決策樹面試總結

相關推薦