資料探勘之決策樹

2021-09-19 06:02:27 字數 1480 閱讀 7766

熟悉掌握決策樹的原理,

熟練掌握決策樹的生成方法與過程

anaconda

sklearn

pydotplus

決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個**目標變數的模型。

from sklearn import tree

x =[[0

,0],

[1,1

]]y =[0,

1]clf = tree.decisiontreeclassifier(

)clf = clf.fit(x, y)

clf.predict([[

2.,2

.]])

clf.predict_proba([[

2.,2

.]])

#計算屬於每個類的概率

要求根據要求隨機生成資料,並構建決策樹,並舉例**。

(1) 呼叫資料的方法如下:

from sklearn.datasets import load_iris

iris = load_iris(

)# 從sklearn 資料集中獲取鳶尾花資料。

(2) 利用sklearn中的決策樹方法對鳶尾花資料建立決策樹

(3) 為了能夠直**到建好的決策樹,安裝 pydotplus, 方法如下:

pip install pydotplus
pydotplus使用方法

import pydotplus #引入pydotplus

dot_data = tree.export_graphviz(clf, out_file=

none

) graph = pydotplus.graph_from_dot_data(dot_data)

graph.write_pdf(

"iris.pdf"

)#將圖寫成pdf檔案

1.課堂上決策樹的思路很好理解,但是實際操作的時候還是遇到了很多問題,通過對比資料構建了決策樹

2.借助視覺化工具可以更好的理解決策樹,但是graphviz實在是坑太多了

總結了兩種解決graphviz』s not found的途徑:

(1)新增io,直接指向graphviz的位址

(2)修改環境變數

3.不使用sklearn的**找到了部分教程,還在鑽研

資料探勘之決策樹

決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。利用anaconda sklearn生成決策樹並利用決策樹進行 利用pydotplus來顯示 from sklearn import tree x 0 0 1,1 y 0...

資料探勘 決策樹

分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物 場景採取不同的應對方式。資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,...

資料探勘 決策樹

決策樹是以樹狀結構表示資料分類的結果 非葉子結點代表測試的條件。分支代表測試的結果 1.資訊熵 informationentropy 是度量樣本集合純度最常用的一種指標。2.基尼係數 gini 是度量樣本集合不確定性指標。基尼指數與熵可近似看做是統一概念,都是越大,確定性越差 基尼指數和資訊熵的影象...