機器學習中的類別不均衡問題

類別不均衡：指在分類演算法中，不同樣本類別的比例懸殊比較大，會對演算法的學習過程造成重大干擾。

比如：乙個二分類的問題上，有1000個樣本，其中5個正樣本，995個負樣本，在這種情況下，演算法只需將所有的樣本**為負樣本，那麼它的精度也可以達到99.5%，雖然結果的精度很高，但它依然沒有價值，因為這樣的學習演算法不能**出正樣本。

不均衡問題　會導致樣本少的那一類的高錯分率，即較少一類的樣本很可能會被**為樣本數量較多的那一類。

欠取樣，減少數量較多的一類的樣本數量，使得樣本比例均衡

過取樣，增加數量較少的一類的樣本數量，使得樣本比例均衡

不處理樣本，樣本分類閾值移動

隨機欠取樣

隨機從多數類樣本中抽取一部分資料進行刪除。

有很大的缺點：未考慮樣本的分布情況，而取樣過程又具有很大的隨機性，可能會誤刪多數類樣本中一些重要的資訊。

基於knn欠取樣

有四中knn欠取樣方法：

隨機過取樣

指多次隨機從少數類樣本中有放回的抽取資料，取樣數量大於原有的少數類樣本數量，其中有一部分資料會出現重複，而重複資料的出現會增大方差造成模型的過擬合。

smote演算法

即合成少數類過取樣技術，

它是基於隨機過取樣演算法的一種改進方案，smote演算法的基本思想是對少數類樣本進行分析並根據少數類樣本人工合成新樣本新增到資料集中。

利用特徵空間中現存少數類樣本之間的相似性來建立人工資料的，也可以認為smote演算法假設了在相距較近的少數類樣本之間的樣本仍然是少數類，

具體過程如下：

１．隨機選擇乙個少數類樣本，計算它到少數類樣本集中所有樣本的距離，得到它k近鄰。

２．根據樣本不平衡比例設定乙個取樣比例以確定取樣倍率n，對於每乙個少數類樣本x，從其k近鄰中隨機選擇若干個樣本

３．對於每乙個隨機選出的近鄰，選擇乙個在[0,1]之間的隨機數乘以隨機近鄰和x的特徵向量的差，然後加上乙個x,

用公式表示：

基於k-means過取樣

基於k-means聚類過取樣方法一般分為兩步：

首先分別對正負例進行k-means聚類

聚類之後，對其中較小的簇進行上面的過取樣方法擴充樣本數量

然後在進行正負類樣本均衡擴充

該演算法不僅可以解決類間不平衡問題，而且還能解決類內部不平衡問題。

通常在乙個二分類的問題中，我們經常將0.5作為**結果的分類標準，比如將**概率大於0.5分為a類，**概率小於0.5分為b類，這裡的0.5就是分類閾值。

在二分類問題中，假如**乙個樣本為a的概率為p,那麼它為b的概率為1-p，而p/(1-p)表示兩類可能性的比，即機率(odds),或稱為優勢比。如果p/(1-p)>1，我們認為該樣本是a類的機率大於b。然而，在乙個資料集中正負樣本比例不相同時，此時會有乙個觀測機率，假設在資料集中有m個a樣本，n個b樣本，那麼觀測機率為m/n（樣本均衡的情況下觀測機率為1）。

在演算法分類過程中，如果**機率p/(1-p）大於實際的觀測機率m/n，此時我們才把樣本分類為a,而不是以0.5作為分類閾值（樣本均衡情況下以0.5作為閾值）

用公式表示：p/(1-p)>m/n

計算結果得到p>m/（m+n）

此時只有當p大於m/(m+n)時，**結果為a類，這裡m/(m+n) 取代0.5成為新的分類閾值。

借助以上的原理，在分類學習中面對樣本不均衡時，我們可以採用原有不均衡的樣本進行學習，然後通過改變決策規則來做分類，比如在樣本均衡時我們0.5作為分類閾值，而在樣本不均衡的情況下我們可以規定**概率需要達到0.8才能被**為多數類。

機器學習中的類別不均衡問題

類別不均衡問題

機器學習分類問題中訓練資料類別不均衡怎麼解決

樣本類別不均衡的問題

機器學習中的類別不均衡問題

類別不均衡問題

機器學習分類問題中 訓練資料類別不均衡怎麼解決

樣本類別不均衡的問題

相關推薦

機器學習分類問題中訓練資料類別不均衡怎麼解決