處理非均衡問題的資料抽樣方法

2021-09-30 12:37:35 字數 744 閱讀 9179

舉個例子:測試樣本中有a類樣本90個,b 類樣本10個。分類器c1把所有的測試樣本都分成了a類,分類器c2把a類的90個樣本分對了70個,b類的10個樣本分對了5個。則c1的分類精度為 90%,c2的分類精度為75%。但是,顯然c2更有用些。

針對分均衡問題的調節分類器的方法就是分類器的訓練資料進行改造。這可以通過欠抽樣或者過抽樣來實現。過抽樣意味著複製樣例,而欠抽樣意味著刪除樣例。不管採用哪種方式,資料都會從原始形式改造為新形勢。抽樣過程則可以通過隨機方式或者某個預定的方式來實現。

通常也會存在某個罕見的類別需要我們來識別,比如在信用卡欺詐當中。正例類別屬於罕見類別(因為被欺詐的畢竟是很少的乙個部分),我們希望對於這種罕見類別能盡可能保留更多的資訊,因此, 我們應該保留正例類別中的所有樣例, 而對反例類別進行欠抽樣或者樣例刪除處理。這種方法的乙個確定啊就在於要確定哪些樣例需要進行刪除。但是,在選刪除的樣例中可能攜帶了剩餘樣例中並不包含的有價值資訊。

上述問題的一種解決方法,就是選擇那些離決策邊界較遠的樣例進行刪除。假定我們有乙個資料集,其中有50例信用卡欺詐交易和5000例合法交易。如果我呢想要對合法交易樣例進行欠抽樣處理,使得這兩類資料比較均衡的話,那麼我們就需要去掉4950個樣例,而這些樣例中可能包含有很多有價值的資訊。這看上去有些極端,因此有一種替代的策略就是使用反例類別的欠抽樣和正例類別的過抽樣相混合的方法

要對正例類別進行過抽樣,我們可以複製已有樣例或者假如與已有樣例相似的點。一種方法是加入已有的資料點的插值點,但是這種做法可能會導致過擬合的問題。

處理非均衡問題的資料抽樣方法

一種針對非均衡問題調節分類器的方法,就是對分類器的訓練資料進行改造。這可以通 過欠抽樣 undersampling 或者過抽樣 oversampling 來實現。過抽樣意味著複製樣例,而欠 抽樣意味著刪除樣例。不管採用哪種方式,資料都會從原始形式改造為新形式。抽樣過程則可以 通過隨機方式或者某個預定...

hive資料抽樣的方法

塊抽樣 block sampling hive 本身提供了抽樣函式,使用 tablesample 抽取指定的 行數 比例 大小,舉例 create table iteblog as select from iteblog1 tablesample 1000 rows create table ite...

非均衡樣本處理的心法

身處大資料時代,對模型和風控工作者來說無異於福音。但與此同時,資料呈現長尾分布,不均衡分布導致訓練困難,效果不佳。具體到風控場景中,負樣本的佔比要遠遠小於正樣本的佔比。考慮乙個簡單的例子,假設有10萬個樣本,其中逾期客戶500個,壞樣本佔比0.5 如果我們直接將資料輸入模型進行訓練,將導致即便全部判...