IBM SPSS Modeler隨機森林演算法介紹

在之前的文章《bagging 或boosting讓你的模型更加優化》中，我們介紹了可以通過bagging或boosting技術，使得模型更加穩定和準確率更高，那麼今天要介紹的隨機森林演算法，本身的演算法邏輯已經使用了bagging技術，來構建多棵樹，最終實現構建「森林」的目的。

首先我們先來了解下這個演算法，記住幾個要點就可以：

1.在ibm spss modeler中，隨機森林構建的每棵樹，使用的演算法是c&rt，關於c&rt演算法的介紹可以參考之前的文章《ibm spss modeler演算法系列------c&r tree演算法介紹》；

2.使用bagging,每構建一棵樹，都是通過隨機選擇樣本資料來構建（有放回的）；

3.除了使用bagging技術，對使用的輸入指標，也隨機選擇。比如說一共有20個輸入指標，每選完一次樣本資料後，會再隨機選擇其中的10個指標來構建樹。

4.最終的**結果，會綜合前面構建的決策樹通過投票的方式得到最終的**結果，如果是數值型的**，則是取平均值做為最終的**結果。

5.在ibm spss modeler中，隨機森林演算法不僅支援傳統的關係型資料庫，比如db2、oracle、sql server等通過odbc可連線的資料庫，也支援haoop分布式架構的資料，它可以生成mapreduce或者spark，放到hadoop平台上去執行，從而提公升整個計算效率。

那麼接下來，我們來看下在ibm spss modeler的隨機森林演算法實現客戶的流失**，能給我們呈現出什麼樣的結果。

首先，我們建立資料流檔案，如下圖：

step1:連線資料來源excel檔案，檔案內容如下：

step2:型別節點設定影響因素及目標，如下圖：

step3:選擇隨機森林演算法，並使用預設引數設定生成模型。

該面板主要涉及到模型構建和樹增長兩方面的引數，包括以下內容：

在高階面板中，考慮到對樣本資料選擇的質量要求，該演算法也涵蓋了資料準備的內容。

資料準備可設定的引數包括：

step4:生成客戶流失分析模型。

在生成的模型結果裡面，會包括對輸入指標的重要性排序，如下圖：

模型結果中，也會包含在生成的這些樹中，最頻繁出現的規則集，包括決策規則內容、類別、準確性等內容。這些規則集可以協助我們做一些業務解讀。

step5:可以通過**檢視**結果。

step6:通過分析節點檢視模型準確率。