高階實訓第六周週報

2021-10-10 05:02:21 字數 816 閱讀 5853

如上週週報所述,本週在之前的資料與處理和特徵工程的基礎上,用更複雜的模型代替knn和決策樹,並觀察分類效能的提公升。主要選用的是xgboost和隨機森林兩個模型,理論部分在上週的週報中有提及,本次主要說明實際調參情況及結果分析。使用xgboost模型獲得的最好結果如下(相比兩周前用決策樹做到的0.6978有明顯提公升):

對xgboost,我主要調整了一下4個引數:

max_depth=6, 類似決策樹的最大深度,過大易過擬合,過少易欠擬合,一般為5-10

learning_rate=0.1, 學習率,即梯度下降的步長,與收斂速度和魯棒性(或陷入區域性最優的可能性)有關

n_estimators=300, 基分類器的數目

subsumple=0.8, 控制每棵樹隨機取樣的比例,越小越保守,過大易過擬合

上述引數的具體取值根據一般經驗及我自己的嘗試確定。

隨機森林模型的分類效果不如xgboost好,且其執行速度較慢(可能是因為各決策樹的計算沒有很好地並行起來,且像boost演算法一樣未考慮對殘差做進一步學習),我使用的引數選擇如下:

criterion="entropy",

n_estimators=500, 基分類器(決策樹)數量

max_depth=6, 最大深度

min_samples_split=4, 最小**樣本數,控制過擬合

min_samples_leaf=2, 最小葉節點樣本數,控制過擬合

max_features=6, 使用的最大特徵數,過大易過擬合,過少易欠擬合

第六周週報

在第五周週報中,我認為我很難再通過資料的處理,提高模型的訓練水平,因此,我決定通過調整模型的引數,來提高我的模型,在上一周中,我學習了貝葉斯調參的方法,並且將其運用到了我的模型中,取得了不錯的成果。相對於一些其他的調參方法,例如網格搜尋,網格搜尋通過遍歷所有的引數組合,從而得出最優的結果,但是,對於...

資料探勘第六周週報

w np.ones cols initial all weight with 1 count 0 while true count 1 iscompleted true for i in range 0,length x dataset i print x print x y np.dot w,x ...

高階實訓第二週週報

實踐 對部分有缺失值的特徵做了簡單的填充處理 數值類用均值替代,類別類用眾數替代 重點擊取部分與貸款數額 評級 收入與償還能力相關的屬性,使用knn模型進行訓練 因其較簡單,執行速度較快 由於測試集不含標籤,我使用sklearn將原訓練集隨機劃分為訓練集 測試集,其中測試集佔比為0.3,即24000...