機器學習模型評價和優化方法

機器學習中的高偏差指的是模型的損失函式校驗中，訓練集和測試集error大，模型欠擬合；高方差是指訓練集的error小，測試集的error大，模型過擬合。通俗來說，高偏差問題就是採用訓練集訓練效果都不太好的模型，而高偏差問題就是訓練效果好，但是測試效果不好的模型，繪製學習曲線有助於了解演算法是高偏差問題還是高方差問題，

針對高偏差的優化方向：

針對高方差的優化方向：

一般在做機器學習時，通常會將資料集分為訓練集和測試集，用訓練集來訓練、測試集做驗證。但是這種方式的弊端就是，模型對資料集的劃分相對敏感，而且可能對未來的新資料不適應（偏差過高）。此外，也有的方法會將資料集分為訓練集、驗證集和測試集，通過訓練、驗證集得出的最優演算法，用於測試集，這樣可以有效規避一些新資料不適應的問題，但是問題依舊存在。

因此交叉驗證就應運而生，交叉驗證顧名思義，就是將資料集分為多個部分，來進行訓練和測試，最終得出乙個評價指標，交叉驗證也是模型評價方法的一種優化：

學習曲線和驗證曲線可用於觀察模型的優劣性，學習曲線和驗證曲線通常也需要採用交叉驗證的方式來計算，提高可靠性。

網路搜尋（gridsearch）通常用於模型的超引數選擇，模型的引數分為兩類：

巢狀式交叉驗證

這是一種計算量更大的網路搜尋，做法是在k折交叉驗證上再套一層內迴圈（再套一層交叉驗證），目的是為了讓模型更能適應未見過的資料。具體做法是，k折中，每次分到的訓練集又採用交叉驗證分為訓練集和驗證集，內部交叉驗證完成後，得出的模型給外側的測試機進行評價。

模型的評價效能指標通常有很多種：

機器學習模型評價和優化方法

機器學習評價方法

機器學習模型知乎機器學習模型選擇與評價

機器學習模型評價指標混淆矩陣

機器學習 模型評價和優化方法

機器學習評價方法

機器學習模型 知乎 機器學習 模型選擇與評價

機器學習模型評價指標 混淆矩陣

相關推薦

機器學習模型評價和優化方法

機器學習模型知乎機器學習模型選擇與評價

機器學習模型評價指標混淆矩陣