ML小白打卡第二天（補充）

多分類：

softmax回歸同線性回歸一樣，也是乙個單層神經網路。

如果假定給定的資料是線性可分的，這時候使用邏輯回歸模型引數會變得無窮大。why?

下圖中的上面乙個座標上的資料，是完全線性可分的，我們叫做線性可分；但是下面座標上的圓圈和叉所表示的資料是不能完全分開的，肯定會存在一定的誤差的，所以線性不可分，叫做非線性可分。這其中有個問題就是當給定的資料線性可分的時候，邏輯回歸的引數會趨向於無窮大。

這是個重要的現象，在我們現實中的一些訓練中會發生的，我們分3個方面講： 1) 線性可分的定義 2）為什麼會發生這樣的乙個現象？ 3）通過什麼樣的方式可以把這個問題解決掉

線性可分的定義假定我們在做二分類的問題，假設我們使用邏輯回歸的時候，我們可以通過一條線把資料完美的區分開，就是存在這樣一條線，使得把兩個分類完美的區分開，這樣的話我們就說線性可分，對於三分類或者四分類也是一樣的，如果有幾條線可以把每個分類都完美的區分開，那也就是線性可分。

如何解決這個問題為了避免當資料可分的時候，w趨向於無窮的這樣的乙個現象，那我們如何去通過技術的手段去解決這樣乙個問題呢？這個會引出乙個很重要的概念叫做正則（regularization）

目標函式中加乙個關於引數的l2範數。這會有效避免引數變得太大。

所以這裡的l2範數可以理解為加入了引數的平方來控制引數不要變得太大。

l2範數相比其他的形態更易於計算，也更方便融合到梯度下降法里。

正則上我們一般都帶有乙個可控引數，在這裡用lambda來表示。它可以控制目標與正則之間的比重。這個值越大，正則佔的比重會越大，這樣一來引數值也會變得更小，反之變得更大。比如當lambda為0的時候，正則相當於沒有起到作用，就回到無正則的情況。當lambda值為無窮大的時候，模型引數就會變成0。

這裡的lambda我們把它稱作超引數(hyperparamter)，需要使用交叉驗證來獲得最合適的引數值。

乙個模型存在過擬合現象的時候，它的引數會趨向於變大。