正負樣本不均衡的解決辦法

2021-09-25 10:29:47 字數 1264 閱讀 6806

問題定義:資料集中,每個類別下的樣本數目相差很大(數量級上的差距)。以下以二分類問題為例說明。

1.smote(synthetic minority over-sampling technique)過取樣小樣本(擴充小類,產生新資料)

即該演算法構造的資料是新樣本,原資料集中不存在的。該基於距離度量選擇小類別下兩個或者更多的相似樣本,然後選擇其中乙個樣本,並隨機選擇一定數量的鄰居樣本對選擇的那個樣本的乙個屬性增加雜訊,每次處理乙個屬性。這樣就構造了更多的新生資料。(優點是相當於合理地對小樣本的分類平面進行的一定程度的外擴;也相當於對小類錯分進行加權懲罰(解釋見3))

2.欠取樣大樣本(壓縮大類,產生新資料)

設小類中有n個樣本。將大類聚類成n個簇,然後使用每個簇的中心組成大類中的n個樣本,加上小類中所有的樣本進行訓練。(優點是保留了大類在特徵空間的分布特性,又降低了大類資料的數目)

3.對小類錯分進行加權懲罰

對分類器的小類樣本資料增加權值,降低大類樣本的權值(這種方法其實是產生了新的資料分布,即產生了新的資料集,譯者注),從而使得分類器將重點集中在小類樣本身上。乙個具體做法就是,在訓練分類器時,若分類器將小類樣本分錯時額外增加分類器乙個小類樣本分錯代價,這個額外的代價可以使得分類器更加「關心」小類樣本。如penalized-svm和penalized-lda演算法。

對小樣本進行過取樣(例如含l倍的重複資料),其實在計算小樣本錯分cost functions時會累加l倍的懲罰分數。

4.分治ensemble

將大類中樣本聚類到l個聚類中,然後訓練l個分類器;每個分類器使用大類中的乙個簇與所有的小類樣本進行訓練得到;最後對這l個分類器採取少數服從多數對未知類別資料進行分類,如果是連續值(**),那麼採用平均值。

5.分層級ensemble

使用原始資料集訓練第乙個學習器l1;將l1錯分的資料集作為新的資料集訓練l2;將l1和l2分類結果不一致的資料作為資料集訓練l3;最後測試集上將三個分類器的結果彙總(結合這三個分類器,採用投票的方式來決定分類結果,因此只有當l2與l3都分類為false時,最終結果才為false,否則true。)

6.基於異常檢測的分類

用異常檢測演算法(如高斯混合模型、聚類等)檢測得到離群點或異常點;再對這些異常點為訓練集學習乙個分類器。

解決這類問題主要分重取樣、欠取樣、調整權值

樣本不均衡

在分類中,訓練資料不均衡是指不同類別下的樣本數目相差巨大。舉兩個例子 在乙個二分類問題中,訓練集中class 1的樣本數比上class 2的樣本數的比值為60 1。使用邏輯回歸進行分類,最後結果是其忽略了class 2,將所有的訓練樣本都分類為class 1。在三分類問題中,三個類別分別為a,b,c...

樣本不均衡問題

樣本不均衡是機器學習,深度學習中常見問題。分類任務 a 95 b 5 模型將所有樣本 為a,那麼正確率可以達到95 第一種 是把多的那個組變少 降取樣 第二種 是把少的那個組變多 過取樣 最簡單的是oversampling,由於其侷限性,又有很多根據已有的資料生成新資料的方法,比如各種變體的synt...

機器學習中國如何解決正負樣本不均衡問題

抽樣是解決樣本分佈不均衡相對簡單且常用的方法,包括過抽樣和欠抽樣兩種。過抽樣過抽樣 也叫上取樣 over sampling 方法通過增加分類中少數類樣本的數量來實現樣本均衡,最直接的方法是簡單複製少數類樣本形成多條記錄,這種方法的缺點是如果樣本特徵少而可能導致過擬合的問題 經過改進的過抽樣方法通過在...