機器學習 非均衡分類問題

2022-03-29 09:27:29 字數 3767 閱讀 6243

在機器學習的分類問題中,我們都假設所有類別的分類代價是一樣的。但是事實上,不同分類的代價是不一樣的,比如我們通過乙個用於檢測患病的系統來檢測馬匹是否能繼續存活,如果我們把能存活的馬匹檢測成患病,那麼這匹馬可能就會被執行安樂死;如果我們把不能存活的馬匹檢測成健康,那麼就會繼續餵養這匹馬。乙個代價是錯殺乙隻昂貴的動物,乙個代價是繼續餵養,很明顯這兩個代價是不一樣的

效能度量

衡量模型泛化能力的評價標準,就是效能度量。除了基於錯誤率來衡量分類器任務的成功程度的。錯誤率指的是在所有測試樣例中錯分的樣例比例。但是,這樣卻掩蓋了樣例如何被錯分的事實。在機器學習中,有乙個普遍試用的稱為混淆矩陣(confusion matrix)的工具,可以幫助人們更好地了解分類的錯誤。

利用混淆矩陣就可以更好地理解分類中的錯誤了。如果矩陣中的非對角元素均為0,就會得到乙個完美的分類器

正確率(precision)、召回率(recall)

正確率p= tp/(tp+fp),給出的是**為正例的樣本中的真正正例的比例。

召回率r= tp/(tp+fn),給出的是**為正例的真實正例所有真實正例的比例。

另乙個用於度量分類中的非均衡性的工具是roc曲線(roc curve),roc代表接收者操作特徵"receiver operating characteristic"

roc曲線的縱軸是「真正例率」,tpr=tp/(tp+fn)

橫軸是「假正例率」,fpr=fp/(tn+fp)

在理想的情況下,最佳的分類器應該盡可能地處於左上角,這就意味著分類器在假正例率很低的同時,獲得了很高的真正例率

對不同的roc曲線進行比較的乙個指標就是曲線下的面積(auc),auc給出的是分類器的平均效能值。乙個完美的分類器的auc是1,而隨機猜測的auc則為0.5。

若乙個學習器的roc曲線能把另乙個學習器的roc曲線完全包住,則這個學習器的效能比較好。

def plotroc(predstrengths, classlabels):		#roc曲線的繪製及auc計算函式

基於代價函式的分類器決策控制

為權衡不同型別錯誤所造成的不同損失,可為錯誤賦予「非均等代價」。

在「代價矩陣」中,將-1錯判成+1的代價(50),比把+1錯判成-1的代價(1)要高。

處理非均衡問題的資料抽樣方法

另外一種針對非均衡問題調節分類器的方法,就是對分類器的訓練資料進行改造。這可以通過欠抽樣或者過抽樣來實現。

過抽樣意味著複製樣例,而欠抽樣意味著刪除樣例。

機器學習中的非均衡分類問題

非均衡分類問題是指在分類器訓練時,正例數目和反例數目不相等 相差很大 或者錯分正反例導致的代價不同 可從代價矩陣觀測 時存在的問題。而大多數情況下,不同類別的分類代價並不相等,而諸如信用卡欺詐等場景中,正反例的樣本數目相差巨大,這就需要一些新的分類器效能度量方法和技術,來處理上述非均衡問題。分類器學...

機器學習處理分類問題時的類別均衡問題

舉個例子,在極端情況下,在總體為1000的樣本,若中有999個樣本標記為a類,有1個樣本標記為b類。則很明顯,a類與b類的樣本數偏差極大。一般認為當類別比例超過4 1時,則認為類別不均衡。主要分為以下這兩種方式 1.從資料集入手改變樣本分佈,降低不平衡程度 2.從學習演算法入手,修改演算法來適應不平...

機器學習 非監督演算法

1.k means k means 是所謂的爬山演演算法,它非常依賴於你的初始集群中心所處的位置 2.slc slc単連鎖聚類,有點像最小生成樹 把圖中黑色的點分成兩簇 3.軟聚類 soft clustering 依賴概率論 4.em演算法 em可以模擬成k means過程,即 em演算法是軟聚類,...