機器學習非均衡分類問題

在機器學習的分類問題中，我們都假設所有類別的分類代價是一樣的。但是事實上，不同分類的代價是不一樣的，比如我們通過乙個用於檢測患病的系統來檢測馬匹是否能繼續存活，如果我們把能存活的馬匹檢測成患病，那麼這匹馬可能就會被執行安樂死；如果我們把不能存活的馬匹檢測成健康，那麼就會繼續餵養這匹馬。乙個代價是錯殺乙隻昂貴的動物，乙個代價是繼續餵養，很明顯這兩個代價是不一樣的。

效能度量

衡量模型泛化能力的評價標準，就是效能度量。除了基於錯誤率來衡量分類器任務的成功程度的。錯誤率指的是在所有測試樣例中錯分的樣例比例。但是，這樣卻掩蓋了樣例如何被錯分的事實。在機器學習中，有乙個普遍試用的稱為混淆矩陣（confusion matrix）的工具，可以幫助人們更好地了解分類的錯誤。

利用混淆矩陣就可以更好地理解分類中的錯誤了。如果矩陣中的非對角元素均為0，就會得到乙個完美的分類器。

正確率（precision）、召回率（recall）

正確率p= tp/（tp+fp），給出的是**為正例的樣本中的真正正例的比例。

召回率r= tp/（tp+fn），給出的是**為正例的真實正例佔所有真實正例的比例。

另乙個用於度量分類中的非均衡性的工具是roc曲線（roc curve），roc代表接收者操作特徵"receiver operating characteristic"

roc曲線的縱軸是「真正例率」，tpr=tp/（tp+fn）

橫軸是「假正例率」，fpr=fp/（tn+fp）

在理想的情況下，最佳的分類器應該盡可能地處於左上角，這就意味著分類器在假正例率很低的同時，獲得了很高的真正例率。

對不同的roc曲線進行比較的乙個指標就是曲線下的面積（auc），auc給出的是分類器的平均效能值。乙個完美的分類器的auc是1，而隨機猜測的auc則為0.5。

若乙個學習器的roc曲線能把另乙個學習器的roc曲線完全包住，則這個學習器的效能比較好。

def plotroc(predstrengths, classlabels): #roc曲線的繪製及auc計算函式

基於代價函式的分類器決策控制

為權衡不同型別錯誤所造成的不同損失，可為錯誤賦予「非均等代價」。

在「代價矩陣」中，將-1錯判成+1的代價（50），比把+1錯判成-1的代價（1）要高。

處理非均衡問題的資料抽樣方法

另外一種針對非均衡問題調節分類器的方法，就是對分類器的訓練資料進行改造。這可以通過欠抽樣或者過抽樣來實現。

過抽樣意味著複製樣例，而欠抽樣意味著刪除樣例。

機器學習非均衡分類問題

機器學習中的非均衡分類問題

機器學習處理分類問題時的類別均衡問題

機器學習非監督演算法

機器學習 非均衡分類問題

機器學習中的非均衡分類問題

機器學習處理分類問題時的類別均衡問題

機器學習 非監督演算法

相關推薦

機器學習非均衡分類問題

機器學習非監督演算法