分類方法中樣本類別不均衡問題

2021-08-11 12:44:13 字數 534 閱讀 8255

大部分的分類學習方法都存在乙個基本的假設,訓練集中不同類別的訓練樣本數目差不多。如果不同類別的樣本數目差距很大,比如正類樣本有98個,而負類樣本只有2個,這種情況下學習出來的分類器只要一直返回正類的**結果,那很輕易的就能達到百分之九十八的正確率,但實際上這樣的模型並沒有什麼作用。

欠抽樣,是指減少分類中數目較多的類別數量,來實現樣本均衡。最直接的方法就是隨機的去掉一些多數類中的樣本,但這樣可能會丟失一些重要的資訊。

比較有代表的欠抽樣演算法是easyensemble,利用整合學習機制,將多數類中的樣本劃分為若干個集合供不同的學習器使用,表面看來每個學習器都進行了欠抽樣,但整體看來卻不會丟失重要資訊。

過抽樣,是指增加分類中數目較少的類別數量,來實現樣本均衡。最直接的方法就是隨機的複製一些少數類中的樣本,但這樣可能會導致嚴重的過擬合。

比較有代表性的過抽樣演算法是smote,通過對訓練集裡的少數類樣本進行差值來產生額外的記錄。

權重懲罰,是指對不同的類別樣本賦予不同的權重,比如數量較少的類別擁有更大的權重,再進行建模。

此外還有一些其他的方法,就不一一枚舉了。

樣本類別不均衡的問題

樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少,導致模型忽略了小樣本的特徵,由大樣本主導。面對樣本數量不均的情況,常用的方法如下 這種方法要麼丟失資料資訊,要麼會導致較少樣本共線性,存在明顯缺陷 這種方式的弊端在於無法控制合適的權重比,需要多次嘗試 這種使用場景侷限,前置的知...

解決樣本類別分布不均衡的問題

不均衡指的是不同類別的樣本量差異非常大,樣本類別分布不均衡從資料規模上課 可分為大資料分布不均衡和小資料分布不均衡兩種。大資料分布不均衡 例如擁有1000萬條記錄的資料集中,其中佔比50萬條的少數分類樣本便屬於這種情況 小資料分布不均衡 例如擁有1000條記錄的資料集中,其中占有10條樣本的分類,其...

分類問題 樣本不均衡

資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...