總結 分類 聚類的評估指標

2021-08-10 08:55:31 字數 3115 閱讀 1531

精確率(precision)指的是模型判為正的所有樣本中有多少是真正的正樣本;召回率(recall)指的是所有正樣本有多少被模型判為正樣本,即召回。感覺精確率是個區域性的,召回率是個全域性的。

精確率與召回率

真正類率(true positive rate ,tpr),刻畫的是分類器所識別出的 正例項佔所有正例項的比例(正樣本**結果數 / 正樣本實際數)。負正類率(false positive rate, fpr),計算的是分類器錯認為正類的負例項佔所有負例項的比例(被**為正的負樣本結果數 /負樣本實際數)。

( tpr=0,fpr=0 ) 把每個例項都**為負類的模型

( tpr=1,fpr=1 ) 把每個例項都**為正類的模型

( tpr=1,fpr=0 ) 理想模型

roc曲線

roc曲線下方的面積(area under the roc curve, auc)提供了評價模型平均效能的另一種方法。如果模型是完美的,那麼它的auc = 1,如果模型是個簡單的隨機猜測模型,那麼它的auc = 0.5,如果乙個模型好於另乙個,則它的曲線下方面積相對較大

首先auc值是乙個概率值,當你隨機挑選乙個正樣本以及乙個負樣本,當前的分類演算法根據計算得到的score值將這個正樣本排在負樣本前面的概率就是auc值。當然,auc值越大,當前的分類演算法越有可能將正樣本排在負樣本前面,即能夠更好的分類。

對數損失(log loss)亦被稱為邏輯回歸損失(logistic regression loss)

對數損失通用式

二分類對數損失

鉸鏈損失(hinge loss)一般用來使「邊緣最大化」(maximal margin)。

鉸鏈損失最開始出現在二分類問題中,假設正樣本被標記為1,負樣本被標記為-1,y是真實值,w是**值,則鉸鏈損失定義為:

鉸鏈損失

又被稱為錯誤矩陣,通過它可以直觀地觀察到演算法的效果。它的每一列是樣本的**分類,每一行是樣本的真實分類(反過來也可以),顧名思義,它反映了分類結果的混淆程度。混淆矩陣i行j列的原始是原本是類別i卻被分為類別j的樣本個數,計算完之後還可以對之進行視覺化:

混淆矩陣

兩種標註結果完全相符時,k=1,越不相符其值越小,甚至是負的

可將 jaccard相似係數用在衡量樣本的相似度上。

jaccard相似係數

這裡p+q+r可理解為a與b的並集的元素個數,而p是a與b的交集的元素個數。

平均絕對誤差mae(mean absolute error)又被稱為l1範數損失(l1-norm loss):

平均絕對誤差mae

平均平方誤差mse(mean squared error)又被稱為l2範數損失(l2-norm loss):

平均平方誤差mse

解釋變異( explained variance)是根據誤差的方差計算得到的:

解釋變異( explained variance)

當需要比較兩組資料離散程度大小的時候,如果兩組資料的測量尺度相差太大,或者資料量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,而變異係數可以做到這一點,他是原始資料標準差與原始資料平均數的比。

事實上,可以認為變異係數和極差、標準差和方差一樣,都是反映資料離散程度的絕對值。一般來說,變數值平均水平高,其離散程度的測度值越大,反之越小。

決定係數(coefficient of determination)又被稱為r2分數:

決定係數(coefficient of determination)

當r2越接近1時,表示相關的方程式參考價值越高;相反,越接近0時,表示參考價值越低。這是在一元回歸分析中的情況。但從本質上說決定係數和回歸係數沒有關係,就像標準差和標準誤差在本質上沒有關係一樣。

蘭德指數(rand index)需要給定實際類別資訊c,假設k是聚類結果,a表示在c與k中都是同類別的元素對數,b表示在c與k中都是不同類別的元素對數,則蘭德指數為:

蘭德指數(rand index)

ri取值範圍為[0,1],值越大意味著聚類結果與真實情況越吻合。

ari取值範圍為[−1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ari衡量的是兩個資料分布的吻合程度。

互資訊(mutual information)

輪廓係數(silhouette coefficient)適用於實際類別資訊未知的情況。對於單個樣本,設a是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,輪廓係數為:

輪廓係數(silhouette coefficient)

對於乙個樣本集合,它的輪廓係數是所有樣本輪廓係數的平均值。

輪廓係數取值範圍是[−1,1],同類別樣本越距離相近且不同類別樣本距離越遠,分數越高

分類,聚類,回歸

聚類 所謂聚類,即根據相似性原則,將具有較高相似度的資料物件劃分至同一類簇,將具有較高相異度的資料物件劃分至不同類簇。聚類與分類最大的區別在於,聚類過程為無監督過程,即待處理資料物件沒有任何先驗知識,而分類過程為有監督過程,即存在有先驗知識的訓練資料集。聚類 clustering 是分類 class...

多分類評估指標

多分類指標的情況 二分類和多分類其實沒有多少區別。用的公式仍然是y wx b。但有乙個非常大的區別是他們用的啟用函式是不同的。邏輯回歸用的是sigmoid,這個啟用函式的除了給函式增加非線性之外還會把最後的 值轉換成在 0,1 中的資料值。也就是 值是0 我們最後的一層中使用的啟用函式就是softm...

分類演算法評估指標

2 準確率 accuracy 準確率是常用的乙個評價指標,但是不適合樣本不均衡的情況。ac cura cy t p tn tp t n fp fn accuracy tp tn tp tn fp fnac cura cy t p tn tp t n fp fn 3 精確率 precision 又稱查...