機器學習演算法診斷

2022-08-15 18:54:14 字數 623 閱讀 7417

如果我們在某個資料集上訓練得到乙個模型假設 h(x),而當我們將這個模型應用到乙個新的資料集上,或者說用這個模型來做**的時候,發現這個模型的**錯誤很大,那麼我們應該如何做,採取什麼辦法來 改善 模型 的效能呢?

辦法就是,對演算法進行診斷。

機器學習演算法的診斷,可以看做是對 模型或者演算法 做的乙個測試。通過 對 訓練得到的機器學習模型 進行測試,可以了解到 這個模型在什麼情況下工作的很好,什麼情況下工作的不好;從而,對如何最好的改善演算法效能 得到指導性的知識。

診斷乙個模型,是要花費時間的,但這樣做反而會少走彎路,從而更高效率的利用時間 得到 乙個 更好的模型。

方法:首先,把資料集分成訓練集、測試集(通常比例是 7:3 或者 6:4);

其次,使用訓練集 來訓練得到模型假設;

最後,使用測試集 來評估 模型假設效能。

簡單的例子:

1)線性回歸模型

使用訓練集得到模型,然後使用測試集進行測試,並使用不帶規整化的 cost函式 來計算錯誤

2) 邏輯回歸模型

使用訓練集得到模型,然後使用測試集進行測試,

計算測試集上的錯誤時,可以有兩種方法:

a)使用不帶規整化的 花費函式 來計算錯誤

b)誤分類錯誤(0/1分類錯誤)

機器學習 診斷偏差和方差

如果乙個機器學習演算法表現不理想,要麼是欠擬合,要麼是過擬合。越高次方越能代表我們的訓練集,但能適應訓練集並不代表能推廣至一般情況。高偏差 訓練誤差很大,訓練誤差與測試誤差很小,隨著樣本增多,訓練誤差增大。高方差 訓練誤差很小,訓練誤差與測試誤差差距很大,隨著樣本增多,測試誤差會減小。訓練集誤差和交...

一套機器學習的診斷方案

通過前面幾章的學習,我們已經掌握了一部分的機器學習的演算法,已經可以利用機器學習的知識去解決生活中的一些問題。但是我們作為初學者在利用機器學習的知識解決問題的時候不可避免地會遇到很多的問題,而面對這些問題,我們可能或多或少地能夠想到一些解決方案。例如 1.獲取更多的資料用來訓練。2.減少資料中的特徵...

一套機器學習的診斷方案

通過前面幾章的學習,我們已經掌握了一部分的機器學習的演算法,已經可以利用機器學習的知識去解決生活中的一些問題。但是我們作為初學者在利用機器學習的知識解決問題的時候不可避免地會遇到很多的問題,而面對這些問題,我們可能或多或少地能夠想到一些解決方案。例如 1.獲取更多的資料用來訓練。2.減少資料中的特徵...