如何處理標籤不平衡問題

2021-10-22 07:10:07 字數 717 閱讀 5004

訓練集標籤類別不平衡是機器學習模型訓練非常常見的乙個問題。它是指訓練集中標籤a和標籤b樣本數比例差別很大,當要**小類標籤,即使模型的效果特別差,模型**的準確率也能達到很高的數值。因此,我們需要處理不平衡的資料集,避免這種情況出現。

一般情況下,我們需要處理的是極不平衡的問題(比如類別比例在1:100)。

在類別不平衡的情況下,關於混淆矩陣評估指標(準確率:accuracy;精確率:precision;召回率:recall)的解讀:

高召回率+高精確率:模型具有很全很好的**效果

低召回率+高精確率:模型不能全面的**結果,但**的效果很好

高召回率+低精確率:模型能全面的**類別,但**效果不是很好

低召回率+低精確率:模型基本沒有**效果

資料標籤不平衡處理方法:資料層面的方法和整合演算法層面的處理方法

1、 資料層面

主要方法有重取樣,通過取樣將資料集的小類標籤增多,或將大類標籤減少。

2、整合演算法層面

主要是模型訓練時通過對資料集中的樣本進行取樣訓練。

總結:一般認為,對於使用邏輯回歸這樣的模型時,先使用smote處理不平衡問題;而對於隨機森林、xgboost和lightgbm模型時,則在評估模型時是使用合理的方法。

如何處理不平衡資料

過取樣 過擬合 學習到小類別樣本中的雜訊 欠取樣 欠擬合 丟失大類別樣本中的重要資料 找到小類別樣本中的k個近鄰,然後在他們之間的連線上取點,作為新的樣本。缺點 容易過擬合 其與smote的不同是 smote是對每乙個minority樣本產生綜合新樣本,而borderline smote僅對靠近邊界...

在分類中如何處理訓練集中不平衡問題

在很多機器學習任務中,訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡,為了使得學習達到更好的效果,因此需要解決該類別不平衡問題。什麼是類別不均衡問題 類別資料不均衡是分類任務中乙個典型的存在的問題。簡而言之,即資料集中,每個類別下的樣本數目相差很大。例如,在乙個...

在分類中如何處理訓練集中不平衡問題

在很多機器學習任務中,訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡,為了使得學習達到更好的效果,因此需要解決該類別不平衡問題。什麼是類別不均衡問題 類別資料不均衡是分類任務中乙個典型的存在的問題。簡而言之,即資料集中,每個類別下的樣本數目相差很大。例如,在乙個...