一套機器學習的診斷方案

2021-09-12 09:32:52 字數 1339 閱讀 4518

通過前面幾章的學習,我們已經掌握了一部分的機器學習的演算法,已經可以利用機器學習的知識去解決生活中的一些問題。但是我們作為初學者在利用機器學習的知識解決問題的時候不可避免地會遇到很多的問題,而面對這些問題,我們可能或多或少地能夠想到一些解決方案。例如:

1.獲取更多的資料用來訓練。

2.減少資料中的特徵數目。

3.增加資料中的特徵數目。

4.增加多項式的項數。

5.減少正則化懲罰項。

6.增大正則化懲罰項。

而面對這些解決方案,我們或許不知道到底該如何選擇,就有可能導致我們盲目地選擇乙個方法然後花了大量的時間和精力最後得到的效果卻不盡如意。而這一章的目的就是告訴我們如何高效地從一堆解決方案中選擇出我們這個模型最需要的方案,而不是隨機選擇然後浪費大量時間卻收效甚微。

在機器學習的過程之中,可能最常見的問題就是高偏差(high bias)和高方差問題(high variance),也就是我們通常所說的欠擬合和過擬合問題。而為了解決這一類問題,以前在特徵數量較少的時候可以把假設函式畫出來看看是否是有過擬合的問題,但是在通常情況下,假設函式一般是無法視覺化的。所以我們需要乙個更加有效的方式,那就是要把我們的資料分為訓練資料和測試資料(一般是7:3),通過測試資料的準確性來判斷是否出現了過擬合或者欠擬合的問題。

在這裡我已多項式擬合為例子。

除了用交叉集的誤差來大致判斷是否有擬合問題,我們還有乙個更加直觀有效的方式來判斷模型是否存在擬合問題。

和上面一樣,這裡的目的就是確定lambda和確定d是乙個道理

這個方法能夠幫助我們很快地確定模型到底是出現了高方差還是高偏差問題。

學習了這些系統診斷模型的方法,我們便可以很快地選擇正確的模型,以及引數並且診斷出模型到底是遇到了什麼問題。

一套機器學習的診斷方案

通過前面幾章的學習,我們已經掌握了一部分的機器學習的演算法,已經可以利用機器學習的知識去解決生活中的一些問題。但是我們作為初學者在利用機器學習的知識解決問題的時候不可避免地會遇到很多的問題,而面對這些問題,我們可能或多或少地能夠想到一些解決方案。例如 1.獲取更多的資料用來訓練。2.減少資料中的特徵...

一套策劃正確的網頁配色方案

網頁設計師策劃乙個 需要經過反覆多次的思考,而在決定網頁配色方案時同樣需要經過再三的思量。為了得到更好的策劃意見,組織者既應該與合作人員反覆進行集體討論,還應該找一些風格類似的成功站點進行技術分析,乙個大型站點是由幾層甚至數十層的鏈結和上百上千種不同風格的網頁所構成,所以在需要的時候應該繪製乙個合理...

一套很好的C 學習課件

c 學習網頁課件鏈結 第一講 c 簡介 第二講 c 對c的擴充 1 第三講 c 對c的擴充 2 第四講 程式設計方法 第五講 類的成員 第六講 物件的簡單應用 第七講 構造析構函式 第八講 陣列與指標 第九講 資料的保護 第十講 賦值和複製 第十一講 運算子過載 第十二講 過載應用 第十三講 資料間...