機器學習之欠取樣和過取樣

2021-10-25 04:15:24 字數 449 閱讀 5322

機器學習之欠取樣和過取樣

過取樣和欠取樣是處理非平衡分類問題時的常用手段。

拿二元分類為例,如果訓練集中陽性樣本有1000個,陰性樣本有10萬個,兩者比例為1:100嚴重失衡。為了一些模型的效能考慮,我們需要進行一些處理使得兩者的比例盡可能接近。

過取樣:對少的一類進行重複選擇,比如我們對1000個陽性樣本進行有放回的抽樣,抽5萬次(當然其中有很多重複的樣本),現在兩類的比例就變成了1:2,比較平衡。

欠取樣:對多的一類進行少量隨機選擇,比如我們對10萬個陰性樣本進行隨機選擇,抽中2000個(當然原樣本中很多樣本未被選中),現在兩類的比例就變成了1:2,比較平衡。

smote:smote演算法的基本思想就是對少數類別樣本進行分析和模擬,並將人工模擬的新樣本新增到資料集中,進而使原始資料中的類別不再嚴重失衡。該演算法的模擬過程採用了knn技術。

關於smote:

欠取樣和過取樣

一 取樣定理 只要取樣頻率高於訊號最高頻率的兩倍,就可以從取樣訊號中恢復出原始訊號。二 過取樣和欠取樣 1 取樣頻率高於訊號最高頻率的兩倍,這種取樣被稱為過取樣。2 取樣頻率低於訊號最高頻率的兩倍,這種取樣被稱為欠取樣。三 基帶訊號和頻帶訊號的取樣 1 對基帶訊號進行欠取樣是無法從取樣訊號中恢復出原...

機器學習中的 上取樣 下取樣 過取樣 欠取樣

這是兩種解決分類訓練過程中資料量不平衡的取樣方法 拿二分類舉例,期望陽性樣本數量 陰性樣本數量 1 1,但實際上陽性樣本數量 陰性樣本數量 1000 100 將100資料複製10份,達到兩個樣本數量之比為1000 1000 將1000資料隨機抽取100份,達到兩個樣本數量之比為100 100 卷積神...

降取樣,過取樣,欠取樣,子取樣,下取樣

這幾天看了一篇將關於降取樣,過取樣,欠取樣,子取樣,下取樣 的文章,寫的挺好的,直接給出鏈結,文章比較長不貼過來了。簡單的說 過取樣是取樣頻率大於最高頻率的兩倍 奈奎斯特取樣率 實際對低通訊號取樣也是2.5倍左右過取樣。欠取樣就是小於奈奎斯特取樣率,應該就指帶通取樣吧。上取樣和下取樣其實對數碼訊號進...