不平衡資料分類方法總結

2021-07-15 14:26:02 字數 558 閱讀 8679

傳統的分類演算法在面向不平衡資料時,效果一般,尤其是對少數類的判斷準確率很低,而現實生活中少數類往往是比多數類更有價值的。例如,網路安全**中,可能1000次通訊只有幾次是真的網路攻擊,但是將正常通訊判斷為攻擊和將攻擊判斷為正常通訊帶來的後果是完全不同的,我們其實更在意判斷是網路攻擊的準確率。

針對不平衡資料,我們往往從資料和演算法兩個層面來進行處理:

(一)資料層面:又可分為過抽樣和欠抽樣。

a)  過抽樣指的是增加少數類的樣本數(可以直接重複已有資料,也可以按照一定規則合 成少數類資料);

b)  欠抽樣指的是減少多數類樣本的數量,例如,可以將多數類樣本分為「噪音樣本」,「邊界樣本」,「安全樣本」,我們將「噪音樣本」和「邊界樣本」刪除,只保留「安全樣本」,這樣就減少了多數類樣本的數量。

(二)演算法層面:

a)  代價敏感:可以給每個訓練樣本加權或者在演算法中引入敏感因子

b)  整合學習方法:即多個分類器,然後利用投票或者組合得到結果。又可以分為同態整合學習方法(同種分類器組合)和異態整合學習方法(多種分類器組合)

c)  單類分類器方法:僅對少數類進行訓練,例如運用svm演算法

資料不平衡分類問題

不平衡分類問題是指訓練樣本數量在類間分布不平衡的模式分類問題。在實際應用中,不平衡問題很常見。有些問題其原始資料的分布就存在不平衡,如通過衛星雷達檢測海面石油油汙 監測信用卡非法交易 發掘基因序列中編碼資訊以及醫學資料分類等。所謂的資料不平衡是指 資料集樣本類別極不均衡。不平衡資料的學習即需要在如此...

不平衡分類問題處理方法

問題描述 工作中處理分類問題時,很多情況是多個分類類別的資料分布不平衡,有的類別的資料量可能遠小於其他類別。並且在實驗中發現,進行分類模型訓練時,各類別的資料比例不同對最終模型分類效果的影響很大。解決方法 對於這類問題,主要從資料和學習兩個角度進行處理。訓練集大小,類優先順序,誤分代價幾個重要影響因...

不平衡資料集中的分類問題

五 演算法級別 六 整合級別 總結不平衡資料集的部分分類或分類問題,是機器學習中的乙個基本問題,受到廣泛的關注。主要從三個級別進行考慮 演算法級別 資料級別 混合級別 在二元不平衡資料集中,一類的例項數高於第二類的例項數。因此,第一類被稱為多數派,第二類被稱為少數派。因此,該資料集包含兩種例項 多數...