機器學習評估方法

訓練/測試集的劃分要盡可能保持資料分布的一致性，避免因資料劃分過程引入額外的偏差而對最終結果產生影響，例如：在分類任務中，至少要保持樣本的類別比例類似。如果從取樣的角度來看待資料集的劃分過程，則保留類別比例的取樣方式稱為「分層取樣」。

單詞使用留出法得到的估計結果往往不夠穩定可靠，在使用留出法，一般要採用若干次隨機劃分、重複進行實驗評估後取平均值作為留出法的評估結果。

通常將大約2/3~4/5的樣本用於訓練，其餘的用於測試。

交叉驗證先將資料集d互粉為k個大小相似的互斥子集，每個子集都盡可能的保持資料分布的一致性，即從d中通過分層取樣得到。然後，每次使用k-1個子集的並集作為訓練集，餘下的那個子集作為測試機，這樣就可以獲得k組訓練/測試集，從而可進行k次訓練和測試，最終返回的是這k個測試結果的均值，為強調這一點，通常把交叉驗證稱為k折交叉驗證。

與留出法相似，將資料集互粉為k個子集同樣存在多種劃分方式，為減小因劃分樣本不同而引入的差別，k這交叉驗證通常要隨機使用不同的劃重複p次，最終的評估結果是這p次k折交叉驗證結果的均值，例如常見的「10次10折交叉驗證」。

特例：留一法，若資料集包含m個樣本，令k=m則為交叉驗證特例，留一法。留一法不受隨機樣本劃分方式的影響，留一法使用的訓練集與初始資料集相比只少了乙個樣本，因此留一法中被實際評估的模型與期望評估的用d訓練出來毛線哦ing很相似，因此比較準確。

留一法缺點：在資料集比較大時，訓練m個模型的計算開銷可能是難以忍受的，而這還是在未考慮演算法調參的情況下。另外，留一法的估計結果也未必永遠比其他評估方法準確。

留出法和交叉驗證都會因為訓練樣本與原始訓練樣本規模不同而導致估計偏差。留一法計算複雜度又太高。

自助法以自助取樣為基礎，對m個樣本的資料集d進行m次有放回取樣得到新資料集d』，將d』作為訓練集，d\d』作為測試集。

這樣的測試結果，「包外結構」

自助法在資料集較小，難以有效劃分訓練/測試集時很有用，自助法能從初始資料集中產生多個不同的訓練集，這對整合學習登方法很有用，然而，自助法產生的資料集改變了初始資料集的分布，這會引入估計偏差。因此，在初始資料量足夠時，留出法和交叉驗證更常用一些。

機器學習評估方法

機器學習模型評估方法

機器學習評估方法（基本）

機器學習方法機器學習模型評估方法

機器學習評估方法

機器學習模型評估方法

機器學習評估方法（基本）

機器學習方法 機器學習模型評估方法

相關推薦

機器學習方法機器學習模型評估方法