隨機森林深入理解

《決策樹演算法——id3》中，我們介紹了決策樹的分類思想及原理，可以看出，決策樹對經驗資料可以很好的分類，但是模型通用性不強，**往往不準確，也就是過擬合。我們可以通過剪枝減弱過擬合，但是還不夠完美。

隨機森林原理

隨機森林的出現，完美的解決了決策樹的劣勢，使得分類效果大大提公升，甚至超過了神經網路。隨機森林的思想是：利用經驗資料的不同屬性建立多棵決策樹，**時每棵樹獨立的進行分類投票，最後選取投票數最多的分類結果作為**結果。

比如《創造101》選取女團成員，參考資訊有選手的身高，體重，年齡，顏值，性格，舞蹈，唱歌，創作，氣質等等屬性，我們需要把101個參賽選手分為出道和淘汰兩類。不同人有不同選擇，而且不同人分類的依據也不盡相同，我們單靠某個人的判斷進行組團，結果可能十分糟糕，但是我們通過全國成千上萬觀眾進行投票選擇，那麼結果一定符合社會對於女團成員的定義，這種結果往往是最優選擇。（當然，需要排除刷票，黑幕等情況）

這裡，我們可以把個人當做決策樹，所有參與投票的人當做隨機森林。隨機森林正是基於這種以群體投票代替個體選擇的思想進行分類，分類準確性當然高。並且隨機森林中的決策樹不是普通的分類器，而是專家分類器，隨機森林可以看做一群不同專業專家的集合，由專家共同投票選擇結果。

建立隨機森林

建立單棵決策樹的思想不再贅述，我們這裡詳述一下怎麼建立不同的決策樹。類似選取女團成員，只允許女生投票，結果不一定符合男生的審美，只允許老人投票，結果不一定符合年輕人的口味，所以建立不同的決策樹十分重要。

我們通過有放回的選取行資料和隨機選取列資料建立決策樹。一行為乙個經驗資料，一列為乙個屬性。

1、有放回的選取行資料

對於m行經驗資料，我們每次隨機從m行資料中選取1行資料，選擇m次。（選擇的m行資料中很可能存在重複資料）

2、隨機選取列資料

對於n列資料，我們隨機選取k列，k《這樣，我們得到了新的m * k經驗資料矩陣，我們基於這個經驗資料矩陣建立一棵決策樹。

重複上述過程c次，我們就得到了乙個包含c棵決策樹的隨機森林。

隨機森林分類

對於新資料**，我們使用隨機森林中的所有決策樹進行分類投票，最終選擇投票最多類別作為**結果。

隨機森林深入理解

理解隨機森林

理解隨機森林

深入理解C語言深入理解指標

隨機森林深入理解

理解隨機森林

理解隨機森林

深入理解C語言 深入理解指標

相關推薦

深入理解C語言深入理解指標