處理非均衡問題的資料抽樣方法

舉個例子：測試樣本中有a類樣本90個，b 類樣本10個。分類器c1把所有的測試樣本都分成了a類，分類器c2把a類的90個樣本分對了70個，b類的10個樣本分對了5個。則c1的分類精度為 90%，c2的分類精度為75%。但是，顯然c2更有用些。

針對分均衡問題的調節分類器的方法就是分類器的訓練資料進行改造。這可以通過欠抽樣或者過抽樣來實現。過抽樣意味著複製樣例，而欠抽樣意味著刪除樣例。不管採用哪種方式，資料都會從原始形式改造為新形勢。抽樣過程則可以通過隨機方式或者某個預定的方式來實現。

通常也會存在某個罕見的類別需要我們來識別，比如在信用卡欺詐當中。正例類別屬於罕見類別（因為被欺詐的畢竟是很少的乙個部分），我們希望對於這種罕見類別能盡可能保留更多的資訊，因此，我們應該保留正例類別中的所有樣例，而對反例類別進行欠抽樣或者樣例刪除處理。這種方法的乙個確定啊就在於要確定哪些樣例需要進行刪除。但是，在選刪除的樣例中可能攜帶了剩餘樣例中並不包含的有價值資訊。

上述問題的一種解決方法，就是選擇那些離決策邊界較遠的樣例進行刪除。假定我們有乙個資料集，其中有50例信用卡欺詐交易和5000例合法交易。如果我呢想要對合法交易樣例進行欠抽樣處理，使得這兩類資料比較均衡的話，那麼我們就需要去掉4950個樣例，而這些樣例中可能包含有很多有價值的資訊。這看上去有些極端，因此有一種替代的策略就是使用反例類別的欠抽樣和正例類別的過抽樣相混合的方法。

要對正例類別進行過抽樣，我們可以複製已有樣例或者假如與已有樣例相似的點。一種方法是加入已有的資料點的插值點，但是這種做法可能會導致過擬合的問題。

處理非均衡問題的資料抽樣方法

處理非均衡問題的資料抽樣方法

hive資料抽樣的方法

非均衡樣本處理的心法

處理非均衡問題的資料抽樣方法

處理非均衡問題的資料抽樣方法

hive資料抽樣的方法

非均衡樣本處理的心法

相關推薦