機器學習模型選擇與驗證

k折交叉驗證

在不浪費太多資料的情況下，精確估計真實誤差而設計的，在k折交叉驗證中，將原訓練集拆分為樣本數量為m/k的k折樣本集（這裡假定m/k為一整數）

對於每一折資料樣本，這個演算法是在其他折樣本的聯合樣本上訓練，然後由這一折樣本上估計出輸出的誤差。最終，所有誤差的平均即為真實誤差的估計。

特殊情形k=m，這裡m表示樣本數量，這種方法稱為留一驗證法（loo）

訓練--驗證--測試拆分

將資料樣本拆分為3個資料集合，第乙個資料集合用於訓練我們的演算法，第二個資料集合用於模型的選擇的驗證資料集合。選擇最優模型後，我們在第三個

資料集上測試輸出**器的效能，第三個資料集我們稱為測試資料集。測試集上的測試結果被用於估計學習**器的真實誤差。

如果機器學習失敗了，我們應該做些什麼呢

個人總結如下：

1.增加樣本量

2.改變假設類

3.擴大假設類

4.減少假設類

5.徹底改變它

6.改變資料的特徵表示

7.改變學習引數

8.應用學習規則改變優化演算法

1.擬合接近目標的遠近程度。過擬合學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。欠擬合學習能力低下導致欠擬合。學習能力低下，擁有長髮的都是女生。2.評估方法目標所選模型的泛化誤差最小一留出法 step 1 將資料集d 互斥的分成訓練集s和測試集t，d sut。step ...

1 經驗誤差和過擬合錯誤率分類錯誤的樣本數佔樣本總數的比例精度 1 錯誤率誤差分為訓練誤差或稱經驗誤差和泛化誤差訓練誤差在訓練集上的誤差泛化誤差在新樣本上的誤差機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得太好了的時候，很可能已經把訓練樣本自身的一些特點當做...

第二章模型評估與選擇一概覽對於同一資料集而言，給定不同的演算法，會提取不同的模型，甚至對於同一演算法給定不同的引數，也會得到不同的模型，選擇最佳的模型的過程稱為模型選擇。模型選擇會遵循一定的標準，首先需要將資料集分成若干部分，一部分用於訓練模型，一部分用於測試模型的泛化能力，對於測試的結果給...