深度學習樣本不均衡問題解決

2021-08-15 14:03:35 字數 957 閱讀 9200

在深度學習中,樣本不均衡是指不同類別的資料量差別較大,利用不均衡樣本訓練出來的模型泛化能力差並且容易發生過擬合。

對不平衡樣本的處理手段主要分為兩大類:

資料層面 (簡單粗暴)

、演算法層面 (複雜)

。資料重取樣:上取樣或者下取樣

上取樣下取樣

使用情況

資料不足時

資料充足 (支撐得起你的浪費)

資料集變化

增加間接減少(量大類被截流了)

具體手段

大量複製量少類樣本

批處理訓練時,控制從量大類取的影象數量

風險過擬合

資料合成方法是利用已有樣本生成更多的樣本。其中最常見的一種方法叫做smote,它利用小眾樣本在特徵空間的相似性來生成新樣本。對於小眾樣本xi∈smin,從它屬於小種類的k近鄰中隨機選取乙個樣本,生成乙個新的小眾樣本xnew:

上圖是smote方法在k=6近鄰下的示意圖,黑色圓點是生成的新樣本。

在目標函式中,增加

量少類樣本

被錯分的

損失值。

準確度這個評價指標在類別不均衡的分類任務中並不能work.

不同型別的五分類情況導致的代價是不一樣的。因此定義代價矩陣,cij表示將類別j誤分類為i的代價,顯然c00=c11=0.c01和c10為兩種不同的誤分類代價,當兩者相等時為代價不敏感的學習問題。

代價敏感學習方法主要有以下的實現方式:

參考:[1] 

[2] 

[3] 

樣本不均衡問題

樣本不均衡是機器學習,深度學習中常見問題。分類任務 a 95 b 5 模型將所有樣本 為a,那麼正確率可以達到95 第一種 是把多的那個組變少 降取樣 第二種 是把少的那個組變多 過取樣 最簡單的是oversampling,由於其侷限性,又有很多根據已有的資料生成新資料的方法,比如各種變體的synt...

分類問題 樣本不均衡

資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...

樣本不均衡問題 bagging方法

bagging是一種用來提高學習演算法準確度的方法,這種方法通過構造乙個 函式系列,然後以一定的方式將它們組合成乙個 函式。它使用bootstrap抽樣,其基本思想是 將乙個弱學習演算法使用多次 每次使用乙個放回的重複抽樣 並對結果進行投票,最後選取投票多的結果作為最終的結果 也可以通過得票的平均值...