決策樹的一些東西，亂寫的當個總結。

有兩個非常開闊視野的文章：

隨機森林主要優點：該模型能夠輸出變數的重要性程度、在對缺失資料進行估計時，隨機森林是乙個十分有效的方法,隨機森林演算法中包含了對輸入資料的重複自抽樣過程，即所謂的bootstrap抽樣。這樣一來，資料集中大約三分之一將沒有用於模型的訓練而是用於測試，這樣的資料被稱為out of bag samples，通過這些樣本估計的誤差被稱為out of bag error。研究表明，這種out of bag 方法的與測試集規模同訓練集一致的估計方法有著相同的精確程度，因此在隨機森林中我們無需再對測試集進行另外的設定。

必須注意的是：根據離散特徵分支劃分資料集時，子資料集中不再包含該特徵（因為每個分支下的子資料集該特徵的取值就會是一樣的，資訊增益或者gini gain將不再變化）；而根據連續特徵分支時，各分支下的子資料集必須依舊包含該特徵（當然，左右分支各包含的分別是取值小於、大於等於**值的子資料集），因為該連續特徵再接下來的樹分支過程中可能依舊起著決定性作用。