如何在不均衡類上使用機器學習?

2021-07-22 09:01:22 字數 258 閱讀 9109

當我們訓練分類器時,需要投入海量的資料,這些資料大致**於公開的資料庫和自己製作的資料庫。已公開的資料庫,以casia-webface為例,共有10575個類,但每個類別包含的資料及其不平衡,從幾個到幾百個不等,因此這就給訓練分類器增加了難度。

一種方法是均衡處理:獲取100張以上的類別,然後訓練集放80張,測試集放20張。另外就是做不均衡資料處理:此處可參考機器之心的部落格

深度 | 解決真實世界問題:如何在不平衡類上使用機器學習?

在機器學習中如何應對不均衡分類問題?

在處理機器學習等資料科學問題時,經常會碰到不均衡種類分布的情況,即在樣本資料中乙個或多個種類的觀察值明顯少於其他種類的觀察值的現象。在我們更關心少數類的問題時這個現象會非常突出,例如竊電問題 銀行詐騙 易 罕見病鑑定等。在這種情況下,運用常規的機器學習演算法的 模型可能會無法準確 這是因為機器學習演...

機器學習中的類別不均衡問題

類別不均衡 指在分類演算法中,不同樣本類別的比例懸殊比較大,會對演算法的學習過程造成重大干擾。比如 乙個二分類的問題上,有1000個樣本,其中5個正樣本,995個負樣本,在這種情況下,演算法只需將所有的樣本 為負樣本,那麼它的精度也可以達到99.5 雖然結果的精度很高,但它依然沒有價值,因為這樣的學...

機器學習分類資料不均衡的簡單處理

隨機選擇類別較多的資料與類別較少的資料一致。x特徵,y類別 x data.ix data.columns class y data.ix data.columns class 小類別資料個數 number records fraud len data data.class 1 小類別資料索引 fra...