隨機森林深入理解

2022-07-10 11:00:18 字數 1075 閱讀 7349

《決策樹演算法——id3》中,我們介紹了決策樹的分類思想及原理,可以看出,決策樹對經驗資料可以很好的分類,但是模型通用性不強,**往往不準確,也就是過擬合。我們可以通過剪枝減弱過擬合,但是還不夠完美。

隨機森林原理

隨機森林的出現,完美的解決了決策樹的劣勢,使得分類效果大大提公升,甚至超過了神經網路。隨機森林的思想是:利用經驗資料的不同屬性建立多棵決策樹,**時每棵樹獨立的進行分類投票,最後選取投票數最多的分類結果作為**結果。

比如《創造101》選取女團成員,參考資訊有選手的身高,體重,年齡,顏值,性格,舞蹈,唱歌,創作,氣質等等屬性,我們需要把101個參賽選手分為出道和淘汰兩類。不同人有不同選擇,而且不同人分類的依據也不盡相同,我們單靠某個人的判斷進行組團,結果可能十分糟糕,但是我們通過全國成千上萬觀眾進行投票選擇,那麼結果一定符合社會對於女團成員的定義,這種結果往往是最優選擇。(當然,需要排除刷票,黑幕等情況)

這裡,我們可以把個人當做決策樹,所有參與投票的人當做隨機森林。隨機森林正是基於這種以群體投票代替個體選擇的思想進行分類,分類準確性當然高。並且隨機森林中的決策樹不是普通的分類器,而是專家分類器,隨機森林可以看做一群不同專業專家的集合,由專家共同投票選擇結果。

建立隨機森林

建立單棵決策樹的思想不再贅述,我們這裡詳述一下怎麼建立不同的決策樹。類似選取女團成員,只允許女生投票,結果不一定符合男生的審美,只允許老人投票,結果不一定符合年輕人的口味,所以建立不同的決策樹十分重要。

我們通過有放回的選取行資料和隨機選取列資料建立決策樹。一行為乙個經驗資料,一列為乙個屬性。

1、有放回的選取行資料

對於m行經驗資料,我們每次隨機從m行資料中選取1行資料,選擇m次。(選擇的m行資料中很可能存在重複資料)

2、隨機選取列資料

對於n列資料,我們隨機選取k列,k《這樣,我們得到了新的m * k經驗資料矩陣,我們基於這個經驗資料矩陣建立一棵決策樹。

重複上述過程c次,我們就得到了乙個包含c棵決策樹的隨機森林。

隨機森林分類

對於新資料**,我們使用隨機森林中的所有決策樹進行分類投票,最終選擇投票最多類別作為**結果。

理解隨機森林

理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。給定乙個訓練樣本集,數量為n,我們使用有放回取樣到n個樣本,...

理解隨機森林

理解隨機森林 隨機森林利用隨機的方式將許多決策樹組合成乙個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。隨機森林主要包括4個部分 隨機選擇樣本 隨機選擇特徵 構建決策樹 隨機森林投票分類。1.隨機選擇樣本 給定乙個訓練樣本集,數量為n,我們使用有放...

深入理解C語言 深入理解指標

關於指標,其是c語言的重點,c語言學的好壞,其實就是指標學的好壞。其實指標並不複雜,學習指標,要正確的理解指標。指標也是一種變數,占有記憶體空間,用來儲存記憶體位址 指標就是告訴編譯器,開闢4個位元組的儲存空間 32位系統 無論是幾級指標都是一樣的 p操作記憶體 在指標宣告時,號表示所宣告的變數為指...