資料不平衡 機器學習

2021-09-26 01:56:09 字數 1551 閱讀 4172

2.1 加權處理

2.2 過取樣

2.3 降取樣

2.1加權處理

加權的操作:

1.遍歷每個樣本;

2.如果樣本滿足某個要求,例如在不平衡的二分類問題中,如果樣本的標籤是1,那麼我們就將其權重設為w

1w_1

w1​;如果樣本標籤為0,那麼我們將其權重設定為w

2w_2

w2​;

3.將樣本權重帶入模型進行訓練&測試

加權的直觀理解是讓乙個正樣本的價值頂的上多個負樣本,然後我們可以將其在模型的重要性調整為某乙個權重。

2.2 過取樣

過取樣的技術非常多,有隨機過取樣和smote過取樣。隨機過取樣,就是從少的類中進行隨機取樣然後拼接上去,這種效果很多時候和加權差不多。

smote演算法的生成過程:

1.對於少數類中每個樣本x,以歐氏距離為標準計算它到少數類樣本集中所有樣本的距離,得到其k近鄰;

2.根據樣本不均衡比例設定乙個取樣比例以確定取樣倍率n,對於每個少數類樣本x,從其k近鄰中選擇若干個樣本,假設選擇的近鄰為x

nx_n

xn​;

3.對於每個隨機選出的近鄰x

nx_n

xn​,分別與原樣本按照如下公式構造新的樣本

x ne

w=x+

rand

(0,1

)∗(x

n−x)

x_new = x + rand(0,1) * (x_n - x)

xn​ew=

x+ra

nd(0

,1)∗

(xn​

−x)直觀的說,smote取樣是生成樣本之間的一些樣本。但是smote演算法也有一些缺點:

·在近鄰選擇時,k值的決定一般較難,可以列舉然後根據實驗效果來定

·演算法無法客服非均衡資料集的資料分布問題,容易產生分布邊緣化問題。如果正樣本都分布在邊緣,我們通過取樣正樣本來生成樣本,那麼這樣新生成的樣本將也會全部在邊緣,而且會越來越邊緣化,從而模糊了正類樣本和負類樣本的邊界,而且使邊界變得越來越模糊。這種邊界模糊,雖然使資料集的平衡性得到了改善,但有時也會加大分類演算法進行分類的難度。 改進:borderline smote

2.3 欠取樣

欠取樣和過取樣是相對的,過取樣是對少的樣本進行取樣生成更多的樣本,欠取樣是對多的樣本進行取樣,降低類別多的樣本數,使得樣本個數更少。

欠取樣的優點:

·帶來訓練資料的差異性,方便模型整合;

·降低訓練資料集的大小,加速模型的訓練和降低記憶體的使用;

·在某些特定的資料集上效果非常的好。

tomek links欠取樣方法:

如果有兩個不同類別的樣本,它們的最近鄰都是對方,也就是a的最近鄰是b,b的最近鄰是a,那麼a,b就是tomek link。然後就是把所有的tomek link都刪掉,其中乙個刪除tomek link的方法就是:將組成tomek link的兩個樣本,如果有乙個術語多數類樣本,就將該多數類樣本刪除掉。這樣正負樣本就分的更開了。

機器學習 不平衡資料集

不平衡資料集是指在解決分類問題時每個類別的樣本量不均衡的資料集。比如,在二分類中你有100個樣本其中80個樣本被標記為class 1,其餘20個被標記為class 2.這個資料集就是乙個不平衡資料集,class 1和class 2的樣本數量之比為4 1.不平衡資料集不僅存在於二分類問題而且存在於多分...

資料不平衡問題

資料不平衡問題實際上指的就是y的分布相差很大的問題,又稱為類別不平衡問題。出現這種問題的原因是在實際取樣中,有可能會出現一類的y數量遠遠大於另一類的例子。乙個很明顯的例子就是在做信用卡還款 的時候,一定是按時還款的人佔據絕大多數,不按時還款的人佔一小部分,那如果機器無腦 新客戶一定會還款,正確率是很...

機器學習中的不平衡問題

從少數類sm in中抽取資料集 e 取樣的數量要大於原有少數類的數量,最終的訓練集為sm aj e 對於少數類中每乙個樣本 x 以歐氏距離為標準計算它到少數類樣本集sm in中所有樣本的距離,得到其k近鄰。根據樣本不平衡比例設定乙個取樣比例以確定取樣倍率n,對於每乙個少數類樣本x,從其k近鄰中隨機選...