決策樹引數調節

2021-10-07 21:32:40 字數 568 閱讀 3209

基本的決策樹語法如下

from sklearn.datasets import load_breast_cancer

from sklearn.model_selection import train_test_split

from sklearn.tree import decisiontreeclassifier

cancer=load_breast_cancer(

)x_train,x_test,y_train,y_test=train_test_split(

cancer.data,cancer.target,stratify=cancer.target,random_state=42)

tree=decisiontreeclassifier(random_state=0)

tree.fit(x_train,y_train)

倒數第二行,我們使用預設的決策樹建立型別,這樣會導致訓練集上絕對的吻合,模型出現嚴重的過擬合。

因此我們有必要了解decisiontreeclassifier函式的引數意義,以及針對不同型別的資料如何選擇。

決策樹引數

1 criterion 特徵選取標準。預設 gini。可選gini 基尼係數 或者entropy 資訊增益 1.1 選擇entropy,則是id3或c4.5演算法。id3演算法原理 a 計算訓練集所有樣本的資訊熵。b 計算每一特徵分類後的資訊增益。c 選擇資訊增益最大的特徵進行分類,得到子節點。d ...

決策樹 決策樹引數介紹(分類和回歸)

前面總結了資訊熵,資訊增益和基尼資訊的定義,以及決策樹三大演算法的原理及迭代過程,今天介紹下python中機器學習sklearn庫中決策樹的使用引數 決策樹既可以做分類,也可以做回歸,兩者引數大體相近,下面會先介紹分類,再對回歸不一樣的引數做單獨說明 1 criterion 特徵選取方法,可以是gi...

DecisionTree決策樹引數詳解

1.max depth 指定遍歷搜尋的最大深度。int or none,optional default none 一般來說,資料少或者特徵少的時候可以不管這個值。如果模型樣本量多,特徵也多的情況下,推薦限制這個最大深度,具體的取值取決於資料的分布。常用的可以取值10 100之間。常用來解決過擬合 ...