欠擬合,過擬合,正則化,歸一化問題小結。

2021-09-02 23:25:37 字數 1441 閱讀 4645

概念:

欠擬合:擬合的函式和訓練集誤差較大,我們稱這種情況為欠擬合

擬合:擬合的函式和訓練集誤差較小,我們稱這種情況為合適擬合

過擬合:擬合的函式和訓練集誤差完美匹配,我們稱這種情況為合適擬合

欠擬合原因:

欠擬合問題,根本的原因是特徵維度過少,導致擬合的函式無法滿足訓練,誤差大。

解決方法:

1.新增其他特徵項,有時候我們的模型出現欠擬合的時候是因為特徵不夠導致的,可以新增其他的

特徵項來很好的解決。

2.新增多項式特徵,這個在機器學習演算法裡面用的很普通,例如線性模型通過新增二次或者三次項使

模型泛化能力更強。

3.減少正則化引數,正則化是防止過擬合的,但是現在模型出現了欠擬合,則需要減少正則化引數。

過擬合:過擬合問題,根本的原因是特徵維度過多,導致擬合的函式完美的經過訓練集,但是對新資料的**結果

則較差。

解決方法:

1.重新清洗資料:導致過擬合的乙個原因也可能是資料不純導致的,如果出現過擬合就需要清洗資料

2.增大資料的訓練量,還有乙個原因是我們用於訓練的資料量太小導致的,訓練資料佔總資料的比例過小。

3.採用正則化方法。正則化方法包括l0正則,l1正則和l2正則,而正則一般是在目標函式之後加上對應的範數。

4.採用dropout方法。這個方法在神經網路裡面很常用。通俗點說就是dropout方法在訓練的時候讓神經元以一定的概率不工作。

正則化(標準化),歸一化(正規化):對資料進行預處理的兩種方式,目的是讓資料便於計算和獲得更加泛化的結果。

常用正則化:

l1正規化-所有引數w絕對值之和

l2正規化-所有引數w的平方和

資料的標準化和歸一化:

資料的標準化是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標中經常會用到,

去除資料的單位限制,將其轉化為無量綱的數值,便於不同單位或量級的指標能夠進行比較和加權。

其中最典型的就是資料歸一化處理,既將資料統一對映到[0,1]區間上。

目前資料標準化方法有多種,歸結起來可以分為直線型方法,折線型方法,曲線型方法。

歸一化的目標:

1.把數字變為(0,1)之間的小數

主要為了資料處理方便提出來的,把資料對映到0-1範圍之內處理,更加便捷快速,應該歸到數字訊號處理範疇之內。

2。把有量綱表示式變成無量綱表示式

歸一化是一種簡化計算的方式,及將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。

歸一化後的兩個好處

1.提公升模型收斂速度

2.提公升模型的精度

幾種梯度下降

bgd:批梯度下降,每次用所有樣本計算梯度

mbgd,小批梯度下降,每次選一部分資料進行梯度計算

sgd:隨機梯度下降,每次只用乙個樣本計算梯度

常用梯度變種:momentum,nesterov,adagrad,adadelta,adam

過擬合 欠擬合 正則化

產生原因 緩解方法 合適的資料分布 合理的模型複雜性 合理的組合應該是 複雜的資料分布 簡單的模型 或者 簡單的資料分布 複雜的模型 神經網路中的過擬合 原理 或者說思考 從貝葉斯的角度來說,代價函式可以表示為p y w,x 的形式,而正則項則是對引數w做了乙個先驗分布的假設,使得代價函式變成p y...

什麼是欠擬合現象 過擬合 欠擬合與正則化

在機器學習模型的訓練過程中,經常會發生過擬合 overfitting 欠擬合 underfitting 的現象。那這二者究竟為何物呢?過擬合,通俗點說,就是我們的模型對資料模擬的太好了,訓練集中的資料幾乎都被完美 有人就說了,我 的完美也有錯嗎?是的,你有錯。因為我們的目標並不是看你訓練集中的資料 ...

過擬合,欠擬合,偏差,誤差,正則化

欠擬合 過擬合與偏差 方差關係 過擬合 在訓練資料上表現良好,在未知資料上表現差。高方差 模型把資料學習的太徹底,以至於把雜訊資料的特徵也學習到了,使得測試的時候不能夠很好地識別資料,即不能正確的分類,模型泛化能力太差 解決方法 1 重新清洗資料 2 增大資料的訓練量 3 採用正則化方法,正則化方法...