機器學習評估方法

2021-08-19 23:58:49 字數 1045 閱讀 2261

訓練/測試集的劃分要盡可能保持資料分布的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響,例如:在分類任務中,至少要保持樣本的類別比例類似。如果從取樣的角度來看待資料集的劃分過程,則保留類別比例的取樣方式稱為「分層取樣」

單詞使用留出法得到的估計結果往往不夠穩定可靠,在使用留出法,一般要採用若干次隨機劃分、重複進行實驗評估後取平均值作為留出法的評估結果。

通常將大約2/3~4/5的樣本用於訓練,其餘的用於測試。

交叉驗證先將資料集d互粉為k個大小相似的互斥子集,每個子集都盡可能的保持資料分布的一致性,即從d中通過分層取樣得到。然後,每次使用k-1個子集的並集作為訓練集,餘下的那個子集作為測試機,這樣就可以獲得k組訓練/測試集,從而可進行k次訓練和測試,最終返回的是這k個測試結果的均值,為強調這一點,通常把交叉驗證稱為k折交叉驗證

與留出法相似,將資料集互粉為k個子集同樣存在多種劃分方式,為減小因劃分樣本不同而引入的差別,k這交叉驗證通常要隨機使用不同的劃重複p次,最終的評估結果是這p次k折交叉驗證結果的均值,例如常見的「10次10折交叉驗證」。

特例:留一法,若資料集包含m個樣本,令k=m則為交叉驗證特例,留一法。留一法不受隨機樣本劃分方式的影響,留一法使用的訓練集與初始資料集相比只少了乙個樣本,因此留一法中被實際評估的模型與期望評估的用d訓練出來毛線哦ing很相似,因此比較準確。

留一法缺點:在資料集比較大時,訓練m個模型的計算開銷可能是難以忍受的,而這還是在未考慮演算法調參的情況下。另外,留一法的估計結果也未必永遠比其他評估方法準確。

留出法和交叉驗證都會因為訓練樣本與原始訓練樣本規模不同而導致估計偏差。留一法計算複雜度又太高。

自助法以自助取樣為基礎,對m個樣本的資料集d進行m次有放回取樣得到新資料集d』,將d』作為訓練集,d\d』作為測試集。

這樣的測試結果,「包外結構」

自助法在資料集較小,難以有效劃分訓練/測試集時很有用,自助法能從初始資料集中產生多個不同的訓練集,這對整合學習登方法很有用,然而,自助法產生的資料集改變了初始資料集的分布,這會引入估計偏差。因此,在初始資料量足夠時,留出法和交叉驗證更常用一些。

機器學習模型評估方法

分類模型評價度量 概率輸出型 這個有邏輯回歸 隨機森林 梯度提公升 adaboost等演算法,都是以概率作為輸出的。要想把概率型輸出變為分型別輸出,只要為其設立乙個閾值即可。positive predictive value 陽性 值 or precision 精度 陽性 值被 正確的比例。nega...

機器學習評估方法(基本)

其定義是 對於給定的測試資料集,分類器正確分類的樣本數與總樣本數之比。也就是損失函式是0 1損失時測試資料集上的準確率。由準確率,我們可以在一些場合,從某種意義上得到乙個分類器是否有效,但它並不總是能有效的評價乙個分類器的工作。比如 搜尋引擎 抓取了 csdn 100個頁面,而它索引中共有10,00...

機器學習方法 機器學習模型評估方法

通常我們採用實驗測試的方法對模型的泛化誤差做出評估。為此我們就需要乙個測試集用來測試訓練好的模型。通常情況下,在我們拿到資料之後,在正式開始訓練模型前,就會將資料劃分為訓練集合測試集。需要注意的是 訓練集與測試集應盡可能互斥,也就是盡量不要重複。測試集要符合真實樣本的分布,也就是說在劃分時要隨機抽樣...