Datawhale 零基礎入門金融風控(五)

2021-10-09 20:25:09 字數 757 閱讀 3690

stacking

將若干基學習器獲得的**結果,將**結果作為新的訓練集來訓練乙個學習器。如下圖 假設有五個基學習器,將資料帶入五基學習器中得到**結果,再帶入模型六中進行訓練**。但是由於直接由五個基學習器獲得結果直接帶入模型六中,容易導致過擬合。所以在使用五個及模型進行**的時候,可以考慮使用k折驗證,防止過擬合。

與stacking不同,blending是將**的值作為新的特徵和原特徵合併,構成新的特徵值,用於**。為了防止過擬合,將資料分為兩部分d1、d2,使用d1的資料作為訓練集,d2資料作為測試集。**得到的資料作為新特徵使用d2的資料作為訓練集結合新特徵,**測試集結果。

3. blending與stacking的不同

a. stacking

stacking中由於兩層使用的資料不同,所以可以避免資訊洩露的問題。在組隊競賽的過程中,不需要給隊友分享自己的隨機種子。

b. blending

blending比stacking簡單,不需要構建多層模型。由於blending對將資料劃分為兩個部分,在最後**時有部分資料資訊將被忽略。同時在使用第二層資料時可能會因為第二層資料較少產生過擬合現象。

參考:datawhale–零基礎入門金融風控

Datawhale 零基礎入門CV

賽題名稱 零基礎入門cv之街道字元識別 1.匯入所需庫 import os,sys,glob,shutil,json os.environ cuda visible devices 0 import cv2 import matplotlib.pyplot as plt from pil impor...

Datawhale 零基礎入門CV賽事

本章將會講解卷積神經網路 convolutional neural network,cnn 的常見層,並從頭搭建乙個字元識別模型。學習cnn基礎和原理 使用pytorch框架構建cnn模型,並完成訓練 卷積神經網路 簡稱cnn 是一類特殊的人工神經網路,是深度學習中重要的乙個分支。cnn在很多領域都...

Datawhale 零基礎入門CV賽事

在機器學習模型 特別是深度學習模型 的訓練過程中,模型是非常容易過擬合的。深度學習模型在不斷的訓練過程中訓練誤差會逐漸降低,但測試誤差的走勢則不一定。在模型的訓練過程中,模型只能利用訓練資料來進行訓練,模型並不能接觸到測試集上的樣本。因此模型如果將訓練集學的過好,模型就會記住訓練樣本的細節,導致模型...