分類問題中的樣本不均衡演算法使用備忘錄

2021-08-03 06:46:09 字數 1256 閱讀 6094

1.使用代價函式時,可以增加小雷樣本的權重,降低打雷樣本的權重(這種方法其實是產生了新的資料分布,即產生了新的資料集),從而使得分類器將重點集中在小類樣本身上。剛開始,可以設定每個類別的全職與樣本個數比例的倒數,然後使用過取樣進行調優。

2.可以把小類樣本作為異常點(outliers),把問題轉化成一場檢測問題(anomaly detection)。此時分類器需要學習到大類的決策分介面,即分類器是乙個單個分類器(one class classifier)。 3.

由robert e. schapire提出的」the strength of weak learnability」方法,該方法是乙個boosting演算法,它遞迴地訓練三個弱學習器,然後將這三個弱學習器結合起形成乙個強的學習器。演算法流程如下:

•首先使用原始資料集訓練第乙個學習器l1。 

•然後使用50%在l1學習正確和50%學習錯誤的那些樣本訓練得到學習器l2,即從l1中學習錯誤的樣本集與學習正確的樣本集中,迴圈取樣一邊乙個。 

•接著,使用l1與l2不一致的那些樣本去訓練得到學習器l3。 

•最後,使用投票方式作為最後輸出。 

那麼如何使用該演算法來解決資料不均衡問題呢? 假設是乙個二分類問題,大部分的樣本都是true類。

•讓l1輸出始終為true。

•使用50%在l1分類正確的與50%分類錯誤的樣本訓練得到l2,即從l1中學習錯誤的樣本集與學習正確的樣本集中,迴圈取樣一邊乙個。因此,l2的訓練樣本是平衡的。

•接著使用l1與l2分類不一致的那些樣本訓練得到l3,即在l2中分類為false的那些樣本。

•最後,結合這三個分類器,採用投票的方式來決定分類結果,因此只有當l2與l3都分類為false時,最終結果才為false,否則true。

④以下方法同樣會破壞某些類的樣本的分布:

•設超大類中樣本的個數是極小類中樣本個數的l倍,那麼在隨機梯度下降(sgd,stochastic gradient descent)演算法中,每次遇到乙個極小類中樣本進行訓練時,訓練l次。

•將大類中樣本劃分到l個聚類中,然後訓練l個分類器,每個分類器使用大類中的乙個簇與所有的小類樣本進行訓練得到。最後對這l個分類器採取少數服從多數對未知類別資料進行分類,如果是連續值(**),那麼採用平均值。

•設小類中有n個樣本。將大類聚類成n個簇,然後使用每個簇的中心組成大類中的n個樣本,加上小類中所有的樣本進行訓練。

如果不想破壞樣本分佈,可以使用全部的訓練集採用多種分類方法分別建立分類器而得到多個分類器,投票產生**結果。

分類問題 樣本不均衡

資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...

樣本不均衡問題

樣本不均衡是機器學習,深度學習中常見問題。分類任務 a 95 b 5 模型將所有樣本 為a,那麼正確率可以達到95 第一種 是把多的那個組變少 降取樣 第二種 是把少的那個組變多 過取樣 最簡單的是oversampling,由於其侷限性,又有很多根據已有的資料生成新資料的方法,比如各種變體的synt...

分類任務中的樣本不均衡問題

參考 最近在做行人屬性相關工程,遇到個樣本不均衡問題。問題描述 行人屬性中很多屬性不平衡,例如,戴帽子和不戴帽子的人的比例很懸殊,我們的訓練集就會出現資料不均衡現象。針對這種現象,我們採用一種資料均衡取樣器解決,思路是這樣的,每個執行緒以1 2概率從戴帽子和不戴帽子的影象佇列中取出資料。這樣即可保證...