樣本類別不均衡的問題

2021-08-20 15:24:45 字數 558 閱讀 4421

樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少,導致模型忽略了小樣本的特徵,由大樣本主導。

面對樣本數量不均的情況,常用的方法如下:

這種方法要麼丟失資料資訊,要麼會導致較少樣本共線性,存在明顯缺陷

這種方式的弊端在於無法控制合適的權重比,需要多次嘗試

這種使用場景侷限,前置的知識學習代價高,核函式調整代價高,黑盒優化

實際規律比較難發現,難度較高

python有專門處理不平衡資料的包

pip install imbalanced_learn

from imblearn.over_sampling import smote # 過抽樣處理庫smote

from imblearn.under_sampling import randomundersampler # 欠抽樣處理庫randomundersampler

from imblearn.ensemble import easyensemble # 簡單整合方法easyensemble

#...不一一例舉

解決樣本類別分布不均衡的問題

不均衡指的是不同類別的樣本量差異非常大,樣本類別分布不均衡從資料規模上課 可分為大資料分布不均衡和小資料分布不均衡兩種。大資料分布不均衡 例如擁有1000萬條記錄的資料集中,其中佔比50萬條的少數分類樣本便屬於這種情況 小資料分布不均衡 例如擁有1000條記錄的資料集中,其中占有10條樣本的分類,其...

分類方法中樣本類別不均衡問題

大部分的分類學習方法都存在乙個基本的假設,訓練集中不同類別的訓練樣本數目差不多。如果不同類別的樣本數目差距很大,比如正類樣本有98個,而負類樣本只有2個,這種情況下學習出來的分類器只要一直返回正類的 結果,那很輕易的就能達到百分之九十八的正確率,但實際上這樣的模型並沒有什麼作用。欠抽樣,是指減少分類...

機器學習的樣本類別不均衡問題與解決方法

類別不平衡 class imbalance 就是指分類任務中,不同類別的訓練資料數目差別很大的情況。假設訓練樣例中正例數目m 負例數目m 那麼觀測機率為 m m 設乙個樣本 為正例的概率為p,則 為負例的概率為1 p,則分類器的 機率為p 1 p。通常情況下,我們假設訓練集是真實樣本總體的無偏取樣,...