機器學習 線性回歸

2022-07-25 06:36:07 字數 3238 閱讀 5742

本部落格只記錄基本知識,不涉及模型的推導。詳細過程請參考文末 reference

假設模型的輸入資料為 \(d\) 維向量 \(\vec\),輸出 \(y\) 為連續型。回歸模型等價於尋找乙個函式\(f\),建立\(\vec\)到\(y\)的對映關係\(y=f(x)\)輸入特徵是非隨機的且互不相關

隨機誤差具有零均值、同方差的特點,且彼此不相關

輸入特徵與隨機誤差不相關

隨機誤差項服從正態分佈 \(n(0,\sigma^2)\)

模型:\(y=w_1x+w_0\),使用最小化殘差平方和 \(\min rss(w_1,w_0)\) 求解(ols),最優解為

\[\hat_1=\frac^nx_i^2-n\bar\bar}

^nx_i^2-n(\bar)^2},\quad

\hat=\bar-\hat_1\bar

\]模型:\(y=\boldsymbol^t\boldsymbol\),輸出\(\hat}=\boldsymbol\boldsymbol\),殘差平方和\(rss(\boldsymbol)=||\boldsymbol-\boldsymbol\boldsymbol||_2^2\),最優解\(\hat}=(\boldsymbol^t\boldsymbol)^\boldsymbol^t\boldsymbol\)

本質就是 l2 正則和 l1 正則。

利用拉格朗日乘子法,約束優化問題等價於無約束懲罰函式優化問題。正則化的本質是偏差(bias)和方差(variance)的平衡

lasso 求解方法

座標下降法(coordinate descent),lars 演算法,基於近似的梯度方法(proximal gradient)的 ista(iterative shrinkage-thresholding algorithm)和 fista。ista 演算法如下:

最小化乙個光滑函式\(f(\boldsymbol)\),梯度下降法基於當前變數值\(\boldsymbol^\)迭代:\(\boldsymbol^=\boldsymbol^-\eta\nabla f(\boldsymbol^)\),\(\eta\)是學習率

梯度下降的近似形式:\(\boldsymbol^=\arg\min\limits_\boldsymbol f(\boldsymbol^)+\nabla f(\boldsymbol^)^t(\boldsymbol-\boldsymbol^)+\frac1||\boldsymbol-\boldsymbol^||_2^2\)

如果最小化\(f+g\),則

\[\begin

\boldsymbol^=&\arg\min\limits_\boldsymbol f(\boldsymbol^)+\nabla f(\boldsymbol^)^t(\boldsymbol-\boldsymbol^)+\frac1||\boldsymbol-\boldsymbol^||_2^2+g(\boldsymbol)\\

=&\arg\min\limits_}g(\boldsymbol)+\frac1||\boldsymbol-(\boldsymbol^-\eta\nabla f(\boldsymbol^))||_2^2

\end

\]lasso 的目標函式\(f(\boldsymbol)=\frac12||\boldsymbol-\boldsymbol\boldsymbol||_2^2\),\(g(\boldsymbol)=\lambda||\boldsymbol||_1\),\(f\)的梯度\(\nabla f(\boldsymbol)=\boldsymbol^t(\boldsymbol\boldsymbol-\boldsymbol)\)故迭代公式為

\[\boldsymbol^=\arg\min\limits_\boldsymbol\lambda||\boldsymbol||_1+\frac1||\boldsymbol-(\boldsymbol^-\eta\nabla f(\boldsymbol^))||_2^2\\

\boldsymbol^=s_(\boldsymbol^-\eta\nabla f(\boldsymbol^))\\

\]其中\(s_(\boldsymbol)\)代表軟閾值操作(soft thresholding operator),

\[(s_a(\boldsymbol))_i=\left\lbrace

\begin

&v_i-a, && if\quad v_i>a&\\

&0, && if\quad |v_i|\le a&\\

&v_i+a, && if\quad v_i

\end

\right.

\]為社麼 lasso 可以產生稀疏解

從優化理論可知,最優解發生在目標函式的等高線和可行區域的交集處。角比邊更容易和等高線相交,在高維情況下尤其明顯,因為高維的角更加凸出。而\(l_2\)球可能相交於任意點,所以不容易產生稀疏解。

正則化路徑分析

正則化路徑是指回歸係數的估計值\(\hat}\)隨著正則化係數增大而變化的曲線,可以分析特徵之間相關性和進行特徵選擇。

嶺回歸的正則化路徑被稱為嶺跡。嶺跡波動很大說明該特徵與其他特徵有相關性。標準化的特徵可以直接比較回歸係數的大小,回歸係數比較穩定且絕對值很小的特徵可以去除。回歸係數不穩定且震動趨於零的特徵也可以去除。

lasso 回歸當\(\lambda\)很大時所有特徵的係數都被壓縮到 0,但係數減小是逐個進行的,可以通過控制\(\lambda\)選擇特徵個數。

彈性網路(elastic net)正則化:\(j(\boldsymbol)=||\boldsymbol-\boldsymbol\boldsymbol||_2^2+\lambda_1||\boldsymbol||_1+\lambda_2||\boldsymbol||_2^2\),具有特徵分組的效果:高度相關的特徵係數趨於相等(負相關的特徵有符號)

group lasso:事先確定\(g\)組\(\boldsymbol=(\boldsymbol_1,\boldsymbol_2,\cdots,\boldsymbol_g)\),目標函式\(j)\boldsymbol)=||\boldsymbol-\boldsymbol\boldsymbol||_2^2+\sum\limits_^\lambda_g||\boldsymbol_g||_2^2\)

《資料科學導引》,歐高炎、朱占星、董彬、鄂維南,高等教育出版社

《機器學習》,周志華,清華大學出版社

machine learning. andrew ng. coursera

機器學習 線性回歸

可以說基本上是機器學習中最簡單的模型了,但是實際上其地位很重要 計算簡單 效果不錯,在很多其他演算法中也可以看到用lr作為一部分 先來看乙個小例子,給乙個 線性回歸是什麼 的概念。圖來自 2 假設有乙個房屋銷售的資料如下 面積 m 2 銷售價錢 萬元 123 250 150 320 87 160 1...

機器學習(線性回歸)

在機器學習中,回歸 分類和標註共同構成了監督學習技術。監督學習 supervised learning 是機器學習在工業界應用最廣的乙個領域分支。在學術界中也是研究最多的領域之一。大家都知道的資料探勘十大經典演算法中,監督學習技術佔據6席。方法 自變數 特徵 因變數 結果 關係 回歸演算法是試圖採用...

機器學習 線性回歸

line fitter linearregression 建立模型 line fitter.fit temperature,sales 傳入引數 sales predict line fitter.predict temperature 模型 直線 直線上會有loss 計算loss時 要使用平方距離...