機器學習分類與效能度量

2021-10-20 18:49:16 字數 2930 閱讀 6626

資料集:訓練集(training set)、驗證集(validation set)和測試集(test set)

1、 當模型無需人為設定超引數,所用引數都通過學習得到,則不需要驗證集。驗證集適合多個不同超引數訓練多個模型,通過驗證集,選擇最好的模型及其相應的超引數。

2、監督學習(supervised learning ): 有導師學習,分類和回歸

從給定的訓練資料集中學習出乙個函式(模型引數),當輸入新資料時,可以根據這個函式**結果。

3 、無監督學習(unsupervised learning):無導師學習,聚類和維度約簡。

輸入資料沒有標籤,樣本資料類別未知,需要根據樣本間的相似性對樣本集進行劃分是類內差距最小化,類間差距最大化。

4、強化學習(reinforcement learning):再勵學習、評價學習或增強學習

用於描述和解決智慧型體(agent) 在與環境的互動過程中通過學習策略以達成匯報最大化或實現特定目標的問題。

指的是模型輸出與真值的偏離程度,通常定義乙個損失函式來衡量誤差大小。

1、過擬合:模型在訓練樣本中表現的過於優越,導致在驗證集以及測試集上表現不佳。

2、欠擬合:指模型在訓練和**時表現的都不好。

1、留出法

資料集分為互斥的訓練集和測試集。資料分布保持一致。測試集比例保持在1/3 至1/5。

2、交叉驗證法

資料集平均分為互斥的k份,每次訓練從資料集中選擇出乙份作為測試集,經過k次後,就k份測試集,求誤差的平均值。

3、自助法

資料集d中包含m個樣本,對資料集d進行m次有放回取樣,取樣到的資料構成資料集s,將s作為訓練集,未出現在s中的資料作為測試集。

樣本不出現在s中的概率為:

適合小資料集,不會減小訓練集規模,但改變了資料分布,易引起估計偏差。

分類模型效能度量方法

1、混淆矩陣(confusion matrix):誤差矩陣,主要用於分類結果和例項的真實資訊。以二分類為例,如下。

真正tp:模型**為正的正樣本

假正fp:模型**為正的負樣本

假負fn:模型**為負的正樣本

真負tn:模型**為負的負樣本

f1-score:precision和recall的調和平均評估指標。

f1-score=2*pre

cisi

on∗r

ecal

lpre

cisi

on+r

ecal

l\frac

precis

ion+

reca

llpr

ecis

ion∗

reca

ll​2、roc曲線:根據結果計算得到roc空間中相應的點,連線這些點形成roc曲線。值越大代表**準確率越高。

真正率(tpr):**為正的正樣本/正樣本實際數。

tpr=tp/(tp+fn)

假正率(fpr):**為正的負樣本數/負樣本實際數

fpr=fp/(fp+tn)

3、auc:roc曲線下的面積(roc的積分)

4、pr曲線:precision對recall的曲線

5、pr曲線與roc曲線

回歸模型效能度量

1、解釋變異:給定資料中的變異能被數學模型所解釋的部分,通常方差來量化變異。

explainedvariance(y,y_)=1- var

(y−y

)var

y\frac

varyva

r(y−

y)​​

2、決定係數:回歸關係已經解釋的y值變異在其總變異中所佔的比率。

3、蘭德指數(rand index)

給定實際類別資訊c,假設k是聚類結果,a表示在c與k中都是同類別的元素對數,b表示在c與k都是不同類別的元素對數。

4、調整蘭德指數

ari=ri−

e(ri

)max

(ri)

−e(r

i)\frac

max(ri

)−e(

ri)r

i−e(

ri)​

,ari取值範圍[-1,1]

5 、互資訊:用來衡量兩個資料分布的吻合程度。

假設u與v是對n個樣本標籤的分布情況,則:

其中p(i,j)=∣ui

∩vj∣

n\frac

n∣ui​∩

vj​∣

​6、標準化互資訊nmi

7、調整互資訊

8、輪廓係數

對於單個樣本,設a是它與同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離

s=b −a

max⁡

(a,b

)\frac

max⁡(a

,b)b

−a​,取值範圍[-1,1]。

適用於實際類別資訊未知的情況。

分類效能度量

錯誤率是分類錯誤的樣本數佔總樣本數的比例 精度是分類正確的樣本數佔總樣本數的比例 查準率p 真正例 為正的樣本數 tp tp fp 是指挑出來的東西裡,有多少是好的。查全率r 真正例 實際為正的樣本數 tp tp fn 是指全部的好東西,挑出來了多大比例。p r圖 查全率為橫軸,查準率為縱軸,包線在...

機器學習效能度量

回歸評估指標 分類評估指標 聚類評估指標 參考常見的評估方法有 1.留出法 hold out 2.交叉驗證法 cross validation 3.自助法 bootstrap 將已有的資料集分為兩個互斥的部分 保證資料s與t的分布一致 測試集比例一般保持在1 3 1 5 將原始資料分成k組 一般是均...

分類效能度量指標

正確率 precision tp tp fp 給出的是 為正例的樣本中的真正正例的比例。召回率 recall tp tp fn 給出的是 為正例中的真實正例佔所有真實正例的比例。f 度量值 f score 組合precision和recall為乙個單獨的得分,被定義為精確度和召回率的調和平均數 2 ...