嶺回歸 lasso回歸

嶺回歸（ridge regression）和lasso（least absolute shrinkage and selection operator）都是ols的改進，知乎上有關於三者異同的詳細討論：

關於lasso：

這裡記錄一下最近的學習心得。

嶺回歸的含義：

嶺回歸的權值計算公式中有單位方陣i，就像嶺一樣，所以稱為嶺回歸。

遺留的問題：

嶺回歸和lasso都可以將引數控制在較小的範圍中，lambda越大，係數就越小，優化過程中，他們的損失函式ols項是w的函式，具有最小值，而正則化項的最小值都是0，顯然，正則化項正常都不應該是0，ols項和正則項是相互制約的，lambda控制著他們的「比例」，最後達到某種平衡狀態。

但大家都說，lasso具有縮減特徵的作用，因為lasso能讓某些具有線性關係的特徵的係數趨於0，比如，x1和x2具有較強的相關性，lasso能隨機讓x1或x2的係數為0，進而我們可以剔除其中乙個特徵。

問題是，lasso為什麼可以，而嶺回歸不可以呢，就損失函式而言，兩者本質上差不多。翻了幾本書都沒有提到這個問題，只是說能，網路上討論這個問題的也不多。

比對損失函式來看，嶺回歸正則化項的梯度是theta，是連續的，而lasso的梯度為[-1,1]，theta小於0時候是-1，而大於0的時候是1，也就是在[-1,1]的值域中lasso的梯度要大，因而下降的快？

此知乎中有談論這個問題，分別畫出了兩者正則項部分的輪廓圖，然後根據他們輪廓圖的不一樣，得到的結論是lasso更加容易下降到0，不甚明白。