機器學習正則化回歸與分類辨析

這篇文章是對自己早期一篇講正則化和回歸的補充。當時寫作那篇文章的時候自己還剛剛入門機器學習，許多知識是理解了，但是缺少從一定的高度上的總結。結合這篇來看原來的那篇，不容易亂。

首先要明確，正則化不是回歸的專利，回歸和分類都是可以使用的。在回歸中使用正則化就是嶺回歸（l2正則化）和lasso（l1正則化），在分類中使用就是我們常見的loss function中的正則項了（其實還有乙個方面的應用，知乎這位答主提到了，就是直接構造loss function,例如l1正則就構造成這樣：

，l2正則就構造成這樣:

),在例如sklearn中的模型中都有對應的引數選擇。

至於l1和l2正則的取捨，可以看上面我提到的知乎回答的其他一些答案:

徐梓薦

l0範數：向量中非0元素的個數。

l1範數(lasso regularization)：向量中各個元素絕對值的和。

l2範數(ridge regression)：向量中各元素平方和求平方根。

l0範數和l1範數都能夠達到使引數稀疏的目的，但l0範數更難優化求解，l1範數是l0的最優凸相似且更易求解，故得到廣泛的應用。

l2範數主要作用是防止模型過擬合，提高模型的泛化能力。

魏晉l1是藍色的線，l2是紅色的線，很明顯，l1的分布對極端值更能容忍。那麼如果資料損失項使用l1 norm，很明顯，l1 norm對outlier沒有l2 norm那麼敏感；如果正則化損失項使用l1的話，那麼使學習到的引數傾向於稀疏，使用l2 norm則沒有這種傾向。

實踐中，根據quaro的data scientist 的經驗，實際應用過程中，l1 nrom幾乎沒有比l2 norm表現好的時候，優先使用l2 norm是比較好的選擇。

其實從某一方面來說，分類和回歸的區別就體現了閾值的有無上，設定了閾值判斷的回歸就是分類。其實仔細想想，分類和回歸問題在機器學習和深度學習上差不多是半斤八兩，只是因為自己現在做的是計算機視覺的目標檢測，所以對分類模型比較重視，在其他的領域，例如****等等之類的場景，回歸問題還是很多的，兩者的區別就體現了網路結構的設計上，但是如果都是有監督學習的範疇內的話，區別真的不太大，例如這個知乎問題所說。

機器學習正則化回歸與分類辨析

機器學習分類與回歸

機器學習線性回歸二先驗與正則化

機器學習 K NN分類回歸

機器學習 正則化 回歸與分類辨析

機器學習 分類與回歸

機器學習 線性回歸 二 先驗與正則化

機器學習 K NN分類 回歸

相關推薦

機器學習正則化回歸與分類辨析

機器學習分類與回歸

機器學習線性回歸二先驗與正則化

機器學習 K NN分類回歸