不平衡樣本對SVM的影響

樣本失衡會對svm的影響

假設正類樣本遠多於負類

1、線性可分的情況

假設真實資料集如下：

由於負類樣本量太少，可能會出現下面這種情況

使得分隔超平面偏向負類。嚴格意義上，這種樣本不平衡不是因為樣本數量的問題，而是因為邊界點發生了變化。（比如，原來負類的支援向量沒有了）

2、線性不可分的情況

源資料以及理想的超平面情況如下：

很可能由於負類樣本太少出現以下這種情況，超平面偏向負類

解決不平衡的方案：

【svm對不平衡本身並不十分敏感】

【svm的超平面只與支援向量有關，因此原離決策超平面的資料的多少並不重要】

1、過抽樣（隨機過抽樣）

2、欠抽樣（對多數類邊界樣本進行取樣）（既能代表多數類樣本分佈特徵, 又能對分類介面有一定影響的樣本特性欠取樣方法）

3、改進演算法本身（代價敏感）

參考部落格

1)、對正例和負例賦予不同的c值，例如正例遠少於負例，則正例的c值取得較大，這種方法的缺點是可能會偏離原始資料的概率分布；

2)、對訓練集的資料進行預處理即對數量少的樣本以某種策略進行取樣，增加其數量或者減少數量多的樣本，典型的方法如：隨機插入法，缺點是可能出現

overfitting，較好的是：synthetic minority over-sampling technique(smote)，其缺點是只能應用在具體的特徵空間中，不適合處理那些無法用

特徵向量表示的問題，當然增加樣本也意味著訓練時間可能增加；

3)、基於核函式的不平衡資料處理。

樣本不平衡問題

樣本不平衡是指不同類別的樣本差別比較大，比如說正類和負類的樣本比例為50 1。處理樣本不平衡的原因一般而已，如果類別不平衡比例超過4 1，那麼其分類器會大大地因為資料不平衡性而無法滿足分類要求的。因此在構建分類模型之前，需要對分類不均衡性問題進行處理。在前面，我們使用準確度這個指標來評價分類質量...

資料樣本類別不平衡

準確度 accuracy 注意與精度區分對於二分類問題來說，正負樣例比相差較大為99 1，模型更容易被訓練成較大佔比的類別。因為模型只需要對每個樣例按照0.99的概率正類，該模型就能達到99 的準確率。1.上取樣 smote過取樣方法，基於插值來為少數類合成新的樣本構建新的樣本 2.下取樣 ...

樣本不平衡問題小記

來準備用vgg來做些fine tuning快速交個差，結果半天卡在0.3公升不上去入行沒多久，不能肯定是方向有問題，找了個pascal voc跑跑分類結果發現總是卡在0.2左右，在metric.py裡改了幾行草根就該用mxnet 把predict label和ground truth打出來，發...

不平衡樣本對SVM的影響

樣本不平衡問題

資料樣本類別不平衡

樣本不平衡問題小記

相關推薦