機器學習筆記之一（2 1）

周志華的《機器學習》第二章的內容概念較多，但理解起來需要補充的內容很多，再次依次對其進行小結。

模型評估對於所要進行實驗測試及研究是非常重要的地位，選擇哪個模型達到的效果會相差很遠，如何進行選擇，如何達到預期的效果是我們每一位學習者和研究者值得去學習和研究的。因此在此章節中提供的評估標準及評估方法、度量標準及比較檢驗的方法講的不是很細，需要大量補充。

誤差和擬合的所涉及的概念

誤差和精度是兩個相對的詞語，誤差是多少，精度就是1-誤差的值

泛化誤差（generalization error）即真實情況下模型的誤差。模型在測試資料上測試，會得到乙個誤差，叫測試誤差。但其實我們真正想要的是模型在總體上的誤差，這就是泛化誤差。而測試誤差因為取樣的關係，與泛化誤差是有偏差的。此外，泛化誤差也叫out of sample error，這是相對於in sample error講的。in sample error是指模型在訓練資料集上的誤差。

擬合與過擬合、欠擬合

過擬合:在訓練資料上表現良好，在未知資料上**時表現差。太過於刻畫細節，泛化能力差。

欠擬合:在訓練資料和未知資料上表現都很差。模型沒有很好地捕捉到資料特徵，不能夠很好地擬合資料

過擬合：

產生過擬合的原因：

（1) 模型的複雜度太高。比如：網路太深

（2）過多的變數（特徵）

（3）訓練資料非常少。

解決方法：

（1）儘量減少特徵的數量（特徵選擇）

（2）early stopping

（3）資料集擴增

「有時候不是因為演算法好贏了，而是因為擁有更多的資料才贏了。」

（4）dropout

在訓練開始時，我們隨機地「刪除」0.2--0.5的隱層單元，視它們為不存在，經過多次迭代，直至訓練結束，每次都刪除0.2--0.5的隱層單元。

（5）正則化包括l1、l2

正則化會保留所有的特徵變數，但是會減小特徵變數的數量級。正則化就是使用懲罰項，通過懲罰項，我們可以將一些引數的值變小。通常引數值越小，對應的函式也就越光滑，也就是更加簡單的函式，因此不容易發生過擬合問題。

（6）清洗資料。

欠擬合：

產生欠擬合的原因：

因為模型不夠複雜而無法捕捉資料基本關係，導致模型錯誤的表示資料。

解決辦法：

1）新增其他特徵項

2）新增多項式特徵

例如將線性模型通過新增二次項或者三次項使模型泛化能力更強

3）減少正則化引數

正則化的目的是用來防止過擬合的，但是現在模型出現了欠擬合，則需要減少正則化引數。

1.2.

機器學習筆記之一（2 1）

機器學習之一

Stanford機器學習系列之一機器學習基本概念

機器學習流程 ML之一

機器學習筆記之一（2 1）

機器學習之一

Stanford機器學習系列之一 機器學習基本概念

機器學習流程 ML之一

相關推薦

Stanford機器學習系列之一機器學習基本概念