小菜鳥對過擬合的認識

2021-09-13 10:09:27 字數 951 閱讀 6114

一句話概括過擬合

:過擬合是指訓練的模型在訓練集中表現很好但是在測試集中表現不佳。(比如說訓練集中的loss值只有1%,而在測試集中的loss值高10%)

舉例說明過擬合及其解決方案:

例一:舉乙個誇張點的例子,訓練集中只有兩個資料,每乙個資料都有三個屬性,第乙個資料的三個屬性為(男生,24歲,1m8),第二個資料的三個屬性為(女生,30歲,1m7)。我們使用乙個含有三個引數的模型進行訓練來對資料劃分,最終訓練好的模型實現的功能為:將年紀小的、身高高的男生劃分為一類;將年紀大的、身高矮的女生劃分為一類,從訓練集(僅兩個資料)中來看,正確率為100%。此時再來乙個測試資料(男生,50歲,1m6),通過該訓練好的模型,看身高和年齡的話,我們將其和女生化為一類;看性別的話,我們將其和男生化為一類。此時我們不難發現,對測試資料進行分類的化,正確率很低。

通過上面的例子,我們不難發現,產生過擬合的原因可能是訓練集資料過少、模型引數過多(指引數數量級大於等於訓練集的數量級),此時我們的解決方案為:(1)增加訓練集,在cv領域一般使用資料增強方法來擴充資料集;(2)調整模型複雜度,也就是減少引數個數;(3)使用dropout,也就是在訓練過程中讓神經元以一定的概率不工作,其原理和減少引數個數差不多;(4)使用正則化,正則化是指通過引入額外新資訊來解決機器學習中過擬合問題的一種方法,這種額外資訊通常的形式是模型複雜性帶來的懲罰度,正則化可以保持模型簡單,還可以約束我們模型的特性,正則化項一般為引數的l2正規化。

通過上面的例子,我們不難發現,產生過擬合的原因可能是訓練集和測試集特徵分布不一致。使用訓練集訓練模型時,由於狗的佔比非常大,所以能夠學習到很多細節。在測試集中,假如有300張貓的和訓練集中的狗狗特徵相似,將會被錯誤分類為狗類。這就好比家長讓你學了10年畫畫,平時也就乙個月出去鍛鍊一次身體,結果最後藝考的時候讓你去考體育,你是不是會想,「尼瑪,我能考過才怪?」。當然,處理訓練集和測試集特徵分布不一致的方法是準備測試集的時候注意就好。

對過擬合,欠擬合和正則化的理解

過擬合 定義 訓練誤差和測試誤差之間的差距太大 原因 模型容量過大 後果 無法提取有效的結構資訊,即解過多,無法選出乙個泛化能力好的解 這裡就得解釋一下模型容量和泛化能力的概念了,模型容量即擬合各種函式的能力,顯然高次函式多項式的這種能力比低次的強,就說更高次的模型容量大。泛化能力即在未觀測到的輸入...

對過渡 動畫的初步認識

今天學習了過渡,除了基本的基礎 以外,還可以通過新增偽元素新增滑鼠經過 懸停的效果 首先載入兩張備用 首先設定好html樣式 class db class tt class ttlogo div div div 除了打底的背景外,內部設定兩個div是為了滑鼠懸停時,能讓圖示背板和圖示共同進行過渡 設...

剛入行的小菜鳥

慢慢的,老大會讓做些客戶的小需求,參照別人的 進行一些縫縫補補,有時候做出來,還是蠻有成就感的額。但是這一兩個月來,我並沒有體會到,我到底能做什麼,前端 資料庫 後端,感覺啥都不懂,隨便難點的問題,就可以讓我卡上一天。想學東西,又不知道從何學,真是新人連下手的放向都沒有。前些日子,表哥讓我沒事多逛論...