吳恩達機器學習（正則化）

圖1：是乙個線性模型，欠擬合或者叫做高偏差，不能很好地適應我們的訓練集；我們看看這些資料，很明顯，隨著房子面積增大，住房**的變化趨於穩定或者說越往右越平緩。因此線性回歸並沒有很好擬合訓練資料。

圖2：恰當合適的擬合了資料

圖3：完美的擬合了訓練資料，稱之為過擬合或者叫做高方差，過於強調擬合原始資料，而丟失了演算法的本質：**新資料。我們可以看出，若給出乙個新的值使之**，它將表現的很差，是過擬合，雖然能非常好地適應我們的訓練集但在新輸入變數進行**時可能會效果不好。

換句話說就是：訓練出的假設函式能很好的擬合資料集，可能會使代價函式非常接近零或等於零，千方百計的擬合資料集，就會導致模型**新樣本（沒有出現在訓練集的樣本）的能力降低。

圖1：欠擬合或者叫做高偏差

圖2：恰當合適的擬合了資料

圖3：過擬合或者叫做高方差

（1）減少選取變數的數量，人工選擇哪些變數保留哪些變數捨去

（2）正則化。保留所有的特徵，但是減少引數的大小（magnitude）。

我們從前面的圖形可以看出，正是那些高次項導致了過擬合的產生，所以如果我們能讓這些高次項的係數接近於0的話，我們就能很好的擬合了，所以我們要做的就是在一定程度上減小這些引數 θ的值，這就是正則化的基本方法。

懲罰：就是指減少引數的大小。

假如我們有非常多的特徵，我們並不知道其中哪些特徵我們要懲罰（即一些不重要的引數），我們將對所有的特徵進行懲罰，並且讓代價函式最優化的軟體來選擇這些懲罰的程度，這樣我們就得到了乙個更簡單的可以防止過擬合問題的假設：

其中 λ 又稱為正則化引數，

因為如果我們令 λ 的值很大的話，為了使代價函式盡可能的小，所有的 θ的值（不包括 θ 0 ）都會在一定程度上減小。但若 λ 的值太大了，那麼 θ（不包括 θ 0 ）都會趨近於0，這樣我們所得到的只能是一條平行於 x 軸的直線。

所以對於正則化，我們要取乙個合理的 λ 的值，這樣才能更好的應用正則化。

正則化線性回歸的優化目標/代價函式

正則化代價函式用梯度下降進行最小化

正則化logistic回歸代價函式：

正則化代價函式用梯度下降進行最小化

注意：

雖然正則化的logistic回歸中的梯度下降和正則化的線性回歸中的表示式看起來一樣，但由於兩者的 h θ ( x ) 不同所以還是有很大差別。

θ0不參與其中的任何乙個正則化。