高階實訓第六周週報

如上週週報所述，本週在之前的資料與處理和特徵工程的基礎上，用更複雜的模型代替knn和決策樹，並觀察分類效能的提公升。主要選用的是xgboost和隨機森林兩個模型，理論部分在上週的週報中有提及，本次主要說明實際調參情況及結果分析。使用xgboost模型獲得的最好結果如下（相比兩周前用決策樹做到的0.6978有明顯提公升）：

對xgboost，我主要調整了一下4個引數：

max_depth=6, 類似決策樹的最大深度，過大易過擬合，過少易欠擬合，一般為5-10

learning_rate=0.1, 學習率，即梯度下降的步長，與收斂速度和魯棒性（或陷入區域性最優的可能性）有關

n_estimators=300, 基分類器的數目

subsumple=0.8, 控制每棵樹隨機取樣的比例，越小越保守，過大易過擬合

上述引數的具體取值根據一般經驗及我自己的嘗試確定。

隨機森林模型的分類效果不如xgboost好，且其執行速度較慢（可能是因為各決策樹的計算沒有很好地並行起來，且像boost演算法一樣未考慮對殘差做進一步學習），我使用的引數選擇如下：

criterion="entropy",

n_estimators=500, 基分類器（決策樹）數量

max_depth=6, 最大深度

min_samples_split=4, 最小**樣本數，控制過擬合

min_samples_leaf=2, 最小葉節點樣本數，控制過擬合

max_features=6, 使用的最大特徵數，過大易過擬合，過少易欠擬合

第六周週報

在第五周週報中，我認為我很難再通過資料的處理，提高模型的訓練水平，因此，我決定通過調整模型的引數，來提高我的模型，在上一周中，我學習了貝葉斯調參的方法，並且將其運用到了我的模型中，取得了不錯的成果。相對於一些其他的調參方法，例如網格搜尋，網格搜尋通過遍歷所有的引數組合，從而得出最優的結果，但是，對於...

資料探勘第六周週報

w np.ones cols initial all weight with 1 count 0 while true count 1 iscompleted true for i in range 0,length x dataset i print x print x y np.dot w,x ...

高階實訓第二週週報

實踐對部分有缺失值的特徵做了簡單的填充處理數值類用均值替代，類別類用眾數替代重點擊取部分與貸款數額評級收入與償還能力相關的屬性，使用knn模型進行訓練因其較簡單，執行速度較快由於測試集不含標籤，我使用sklearn將原訓練集隨機劃分為訓練集測試集，其中測試集佔比為0.3，即24000...

高階實訓第六周週報

第六周週報

資料探勘第六周週報

高階實訓第二週週報

相關推薦