機器學習之樣本不平衡

2021-08-31 09:23:24 字數 1161 閱讀 3230

1.樣本不平衡導致什麼問題?

在機器學習的分類問題中,以二分類為例,如果訓練集合的正例和負例的樣本不平衡,相差懸殊很大。比如針對這個不平衡的訓練結合運用邏輯回歸的時候,一般來說,邏輯回歸的閾值0~1,常取0.5,當樣本不平衡時,採用預設的分類閾值可能會導致輸出全部為反例,產生虛假的高準確度,導致分類失敗。

樣本不均衡會導致:對比例大的樣本造成過擬合,也就是說**偏向樣本數較多的分類。

2.樣本不平衡的解決方法?

樣本不平衡的解決方法主要有兩個思路,乙個是改變模型,讓其對較少的類別較敏感,增大樣本數較少類別的樣本的權重,當這樣的樣本被誤分時,其損失值要乘上相應的權重,從而讓分類器更加關注這一類數目較少的樣本。比如邏輯回歸,可以調整閾值,讓其對少的類更敏感。二是改變訓練集合,用過取樣(over sampling,如smote等)和欠取樣(under sampling)的方式調整訓練集的平衡。

1.過取樣, 重複挑選少的類別加入構建訓練集。樣本較少時採用。

2.欠取樣,拋去多餘的多的類別的樣本。樣本較多的時候採用。

過取樣(右上)只是單純的重複了正例,因此會過分強調已有的正例。如果其中部分點標記錯誤或者是噪音,那麼錯誤也容易被成倍的放大。因此最大的風險就是對正例過擬合。

欠取樣(左下)拋棄了大部分反例資料,從而弱化了中間部分反例的影響,可能會造成偏差很大的模型同時,資料總是寶貴的,拋棄資料是很奢侈的

正例被反覆使用,和過取樣一樣,很容易造成模型的過擬合。

smote與一般的過取樣不用,不是簡單的重複類別少的例,而是生成一些新的資料。這大大降低了過擬合的風險,但同時也會產生一些「可疑」的點。

所以,總結一下緩解樣本不平衡的取樣方法:

機器學習模型構建時正負樣本不平衡帶來的問題及解決方法

欠取樣過取樣對模型的影響

樣本不平衡問題

樣本不平衡是指 不同類別的樣本差別比較大,比如說正類和負類的樣本比例為50 1。處理樣本不平衡的原因 一般而已,如果類別不平衡比例超過4 1,那麼其分類器會大大地因為資料不平衡性而無法滿足分類要求的。因此在構建分類模型之前,需要對分類不均衡性問題進行處理。在前面,我們使用準確度這個指標來評價分類質量...

樣本不平衡問題小記

來準備用vgg來做些fine tuning快速交個差,結果半天卡在0.3公升不上去 入行沒多久,不能肯定是方向有問題,找了個pascal voc跑跑分類 結果發現總是卡在0.2左右,在metric.py裡改了幾行 草根就該用mxnet 把predict label和ground truth打出來,發...

機器學習中樣本不平衡的處理方法

過取樣閾值移動 在現實收集的樣本中,正負類別不均衡是現實資料中很常見的問題。乙個分類器往往 accuracy 將近90 但是對少數樣本的判別的 recall 卻只有10 左右。這對於我們正確找出少數類樣本非常不利。一般而言,正負樣本比例超過1 3,分類器就已經會傾向於負樣本的判斷 表現在負樣本rec...