分類方法中樣本類別不均衡問題

大部分的分類學習方法都存在乙個基本的假設，訓練集中不同類別的訓練樣本數目差不多。如果不同類別的樣本數目差距很大，比如正類樣本有98個，而負類樣本只有2個，這種情況下學習出來的分類器只要一直返回正類的**結果，那很輕易的就能達到百分之九十八的正確率，但實際上這樣的模型並沒有什麼作用。

欠抽樣，是指減少分類中數目較多的類別數量，來實現樣本均衡。最直接的方法就是隨機的去掉一些多數類中的樣本，但這樣可能會丟失一些重要的資訊。

比較有代表的欠抽樣演算法是easyensemble，利用整合學習機制，將多數類中的樣本劃分為若干個集合供不同的學習器使用，表面看來每個學習器都進行了欠抽樣，但整體看來卻不會丟失重要資訊。

過抽樣，是指增加分類中數目較少的類別數量，來實現樣本均衡。最直接的方法就是隨機的複製一些少數類中的樣本，但這樣可能會導致嚴重的過擬合。

比較有代表性的過抽樣演算法是smote，通過對訓練集裡的少數類樣本進行差值來產生額外的記錄。

權重懲罰，是指對不同的類別樣本賦予不同的權重，比如數量較少的類別擁有更大的權重，再進行建模。

此外還有一些其他的方法，就不一一枚舉了。

樣本類別不均衡的問題

樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少，導致模型忽略了小樣本的特徵，由大樣本主導。面對樣本數量不均的情況，常用的方法如下這種方法要麼丟失資料資訊，要麼會導致較少樣本共線性，存在明顯缺陷這種方式的弊端在於無法控制合適的權重比，需要多次嘗試這種使用場景侷限，前置的知...

解決樣本類別分布不均衡的問題

不均衡指的是不同類別的樣本量差異非常大，樣本類別分布不均衡從資料規模上課可分為大資料分布不均衡和小資料分布不均衡兩種。大資料分布不均衡例如擁有1000萬條記錄的資料集中，其中佔比50萬條的少數分類樣本便屬於這種情況小資料分布不均衡例如擁有1000條記錄的資料集中，其中占有10條樣本的分類，其...

分類問題樣本不均衡

資料層通過重取樣使樣本空間均衡演算法層重點學習正樣本來適應現存的分類器損失敏感方法整合資料層和演算法層的思想，假設正樣本誤分類的損失更大。boosting演算法不斷提高樣本權重 1 對正樣本隨機過取樣，對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本，雖然重取樣在樣...

分類方法中樣本類別不均衡問題

樣本類別不均衡的問題

解決樣本類別分布不均衡的問題

分類問題 樣本不均衡

相關推薦

分類問題樣本不均衡