總結分類聚類的評估指標

精確率（precision）指的是模型判為正的所有樣本中有多少是真正的正樣本；召回率（recall）指的是所有正樣本有多少被模型判為正樣本，即召回。感覺精確率是個區域性的，召回率是個全域性的。

精確率與召回率

真正類率(true positive rate ,tpr)，刻畫的是分類器所識別出的正例項佔所有正例項的比例（正樣本**結果數 / 正樣本實際數）。負正類率(false positive rate, fpr)，計算的是分類器錯認為正類的負例項佔所有負例項的比例（被**為正的負樣本結果數 /負樣本實際數）。

( tpr=0,fpr=0 ) 把每個例項都**為負類的模型

( tpr=1,fpr=1 ) 把每個例項都**為正類的模型

( tpr=1,fpr=0 ) 理想模型

roc曲線

roc曲線下方的面積（area under the roc curve, auc）提供了評價模型平均效能的另一種方法。如果模型是完美的，那麼它的auc = 1，如果模型是個簡單的隨機猜測模型，那麼它的auc = 0.5，如果乙個模型好於另乙個，則它的曲線下方面積相對較大。

首先auc值是乙個概率值，當你隨機挑選乙個正樣本以及乙個負樣本，當前的分類演算法根據計算得到的score值將這個正樣本排在負樣本前面的概率就是auc值。當然，auc值越大，當前的分類演算法越有可能將正樣本排在負樣本前面，即能夠更好的分類。

對數損失（log loss）亦被稱為邏輯回歸損失（logistic regression loss）

對數損失通用式

二分類對數損失

鉸鏈損失（hinge loss）一般用來使「邊緣最大化」（maximal margin）。

鉸鏈損失最開始出現在二分類問題中，假設正樣本被標記為1，負樣本被標記為-1，y是真實值，w是**值，則鉸鏈損失定義為：

鉸鏈損失

又被稱為錯誤矩陣，通過它可以直觀地觀察到演算法的效果。它的每一列是樣本的**分類，每一行是樣本的真實分類（反過來也可以），顧名思義，它反映了分類結果的混淆程度。混淆矩陣i行j列的原始是原本是類別i卻被分為類別j的樣本個數，計算完之後還可以對之進行視覺化：

混淆矩陣

兩種標註結果完全相符時，k=1，越不相符其值越小，甚至是負的

可將 jaccard相似係數用在衡量樣本的相似度上。

jaccard相似係數

這裡p+q+r可理解為a與b的並集的元素個數，而p是a與b的交集的元素個數。

平均絕對誤差mae（mean absolute error）又被稱為l1範數損失（l1-norm loss）：

平均絕對誤差mae

平均平方誤差mse（mean squared error）又被稱為l2範數損失（l2-norm loss）：

平均平方誤差mse

解釋變異（ explained variance）是根據誤差的方差計算得到的：

解釋變異（ explained variance）

當需要比較兩組資料離散程度大小的時候，如果兩組資料的測量尺度相差太大，或者資料量綱的不同，直接使用標準差來進行比較不合適，此時就應當消除測量尺度和量綱的影響，而變異係數可以做到這一點，他是原始資料標準差與原始資料平均數的比。

事實上，可以認為變異係數和極差、標準差和方差一樣，都是反映資料離散程度的絕對值。一般來說，變數值平均水平高，其離散程度的測度值越大，反之越小。

決定係數（coefficient of determination）又被稱為r2分數：

決定係數（coefficient of determination）

當r2越接近1時，表示相關的方程式參考價值越高；相反，越接近0時，表示參考價值越低。這是在一元回歸分析中的情況。但從本質上說決定係數和回歸係數沒有關係，就像標準差和標準誤差在本質上沒有關係一樣。

蘭德指數（rand index）需要給定實際類別資訊c，假設k是聚類結果，a表示在c與k中都是同類別的元素對數，b表示在c與k中都是不同類別的元素對數，則蘭德指數為：

蘭德指數（rand index）

ri取值範圍為[0,1]，值越大意味著聚類結果與真實情況越吻合。

ari取值範圍為[−1,1]，值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講，ari衡量的是兩個資料分布的吻合程度。

互資訊（mutual information）

輪廓係數（silhouette coefficient）適用於實際類別資訊未知的情況。對於單個樣本，設a是與它同類別中其他樣本的平均距離，b是與它距離最近不同類別中樣本的平均距離，輪廓係數為：

輪廓係數（silhouette coefficient）

對於乙個樣本集合，它的輪廓係數是所有樣本輪廓係數的平均值。

輪廓係數取值範圍是[−1,1]，同類別樣本越距離相近且不同類別樣本距離越遠，分數越高。

總結分類聚類的評估指標

分類，聚類，回歸

多分類評估指標

分類演算法評估指標

總結 分類 聚類的評估指標

分類，聚類，回歸

多分類評估指標

分類演算法評估指標

相關推薦

總結分類聚類的評估指標