非均衡樣本的簡單認識

在分類問題中，每種類別的出現概率未必均衡。

比如：信用風險：正常使用者遠多於逾期/違約使用者。

非平衡樣本導致的問題：降低少類樣本的靈敏性。

考慮對小類下的樣本（不足1為甚至更少）進行過取樣，即新增部分樣本的副本，這樣做的缺點是過擬合。

考慮對大類下的樣本（超過1萬、十萬甚至更多）進行欠取樣，即刪除部分樣本；

欠取樣導致的問題是資訊丟失嚴重。

該演算法的主要步驟如下：

示例：

如果現在有乙個違約樣本 x (30,10000) ，分別表示(年齡，收入)，現在在k臨近中選取了乙個樣本y(40,15000)，然後根據這兩個樣本進行新的樣本生成：

假設rand為隨機數為0.4 則 new_age = 30 + 0.4 * (40 - 30) = 34

new_income =10000 + 0.4(15000 - 10000) = 12000

從而合成的新樣本為： (34,12000)

非均衡樣本處理的心法

身處大資料時代，對模型和風控工作者來說無異於福音。但與此同時，資料呈現長尾分布，不均衡分布導致訓練困難，效果不佳。具體到風控場景中，負樣本的佔比要遠遠小於正樣本的佔比。考慮乙個簡單的例子，假設有10萬個樣本，其中逾期客戶500個，壞樣本佔比0.5 如果我們直接將資料輸入模型進行訓練，將導致即便全部判...

不均衡樣本權重的計算

資料探勘中有時候會遇到不均衡樣本，一種常用的方法是通過根據樣本個數進行統計計算，或者根據業務場景人工計算權重。諸如sklearn的dt rf等模型都設定了class weight引數進行快速balanced 而xgb的fit中也有sampe weight引數，只是需要手動提供每個樣本對應權重的arr...

樣本類別不均衡的問題

樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少，導致模型忽略了小樣本的特徵，由大樣本主導。面對樣本數量不均的情況，常用的方法如下這種方法要麼丟失資料資訊，要麼會導致較少樣本共線性，存在明顯缺陷這種方式的弊端在於無法控制合適的權重比，需要多次嘗試這種使用場景侷限，前置的知...

非均衡樣本的簡單認識

非均衡樣本處理的心法

不均衡樣本權重的計算

樣本類別不均衡的問題

相關推薦