製造業OEE R語言資料探勘之隨機森林演算法

步驟：1、資料準備

2、選擇演算法

3、程式設計建模

4、分析結果

5、評價

一、資料準備

二、選擇演算法

三、程式設計建模

四、分析結果

五、評價

本次案例的資料來源是極板車間6月份所有開機的塗板機oee報表，將其彙總整理後成如下**，如下截圖所示

然後再加一列「result」,當oee>0.6時為「good」,否則為「bad」，刪除oee列（此處oee>0.6是因為塗板機oee的平均值為0.6，因此作為判斷好壞的標準，這裡僅僅是為了個人分析，不代表行業就是如此）

如下截圖所示

本案例採用隨機森林演算法。我在學習決策樹的時候，隨機森林是我認為準確率最高的演算法。

直接使用r包：randomforest, 簡單高效

r**如下：

library(randomforest) #載入r包
oeedata
oeedata
oeedata$result
set.seed(12345) # 設定種子，使此次抽樣在下一次能夠重現
rfmhead(rfm$votes) # 各觀測的各類別**概覽
importance(rfm,type=1) #各變數重要性測度
plot(rfm) # 隨機森林的oob錯判率和決策樹棵樹，對應圖1
varimpplot(x=rfm, sort=true,n.var=nrow(rfm$importance),main = "variable importance") #變數重要性視覺化，對應圖2

步驟三中，ntree=100，這個100是通過plot(rfm)找到最合適的數值。比如當設定ntree=100時，error值最小且保持穩定，此處我是反覆的試才找到100作為最優的引數；引數mtry的值同理。

plot（rfm）表示「隨機森林的oob錯判率和決策樹棵樹」，錯判率越低越好，棵樹越少越好。如圖1所示

圖1 隨機森林的oob錯判率和決策樹棵樹

當mtry=3,ntree =100，將隨機森林結果物件繪圖

分析結果如圖2所示

圖2 重要度視覺化

右邊的圖，表示該變數的重要程度（通過gini係數下降求得）

最重要的前三依次是：故障、合格（合格與不合格都歸為合格類）、培訓

這次通過隨機森林得到結果為故障、合格、培訓。

因為這兩次所用的演算法核心思想都是來自資訊理論的熵的計算，所以結果大致是一樣的。

製造業如何利用大資料

製造業如何利用大資料如果你正在進行大資料專案，那麼有四個因素需要牢記。1.資料不能脫離實際環境首先需要說明的是，脫離實際環境的資料的作用將會大打折扣。在生產製造領域，所謂的實際環境可以用工作任務或者執行步驟來提供。每一段資料必須與正在執行的任務或者正在生產的產品本身相關聯，並且與任務的特性相聯絡...

製造業資料探勘系統對於業務增長的作用日益增大

如今大資料分析已不再僅限應用於對過去情況進行表述，而是更多地用於來對未來情況進行並加深對逐步延伸的價值鏈的理解，於製造業資料探勘系統而言，大資料分析更是帶來了製造行業研究以及趨勢分析的全新維度。製造商所面臨的海量資料可謂讓人應接不暇。海量資料於外部內部或由機器與機器間的互動中產生。同樣，正是這些...

製造業用大資料書寫未來

資料蒐集生產流程跟蹤是大部分製造業企業都擅長的事，但鮮有企業在資料分析上下功夫，利用大資料分析改進生產的企業更是少之又少。大資料能為製造業帶來什麼？簡單來說，大資料就是超越人腦傳統分析工具能力範圍的龐大資料集合。企業可以利用大資料技術分析不同生產因素之間的關係，降低成本，提高生產效率，進一步完善...

製造業OEE R語言資料探勘之隨機森林演算法

製造業如何利用大資料

製造業資料探勘系統對於業務增長的作用日益增大

製造業 用大資料書寫未來

相關推薦

製造業用大資料書寫未來