機器學習之引數估計

引數估計(parameter estimate)就是通過一系列演算法，來求出模型的最優引數。在各個機器學習深度學習的框架裡，都變成了optimizer的活了。

其實這個名字很奇怪，但是在比較早的機器學習**裡都是這麼叫的，我們重點來關注下裡面涉及的一些演算法。

這裡主要關注的是

二乘是平方的意思，感覺最小二乘法就相當於均方誤差（mse）了，最小二乘法的思想是找到一組引數\(\theta=(\theta_0, \theta_1, ..., \theta_n)\)使得\(\sum_^n(h_\theta(x_i)-y_i)^2\)最小

具體求解時，通過代數法求解，假設模型為\(h_\theta(x) = x\theta\)，那麼定義損失函式為\(j(\theta) = \frac(x\theta-y)^t(x\theta-y)\)，這裡二分之一是為了計算方便。那麼求解步驟如下：

\[\frac = x^t(x\theta-y) = 0\\

\theta = (x^tx)^x^ty

\]總結：

最小二乘法需要計算\((x^tx)^\)，這個逆不一定存在；

當特徵很多時，求逆的過程非常複雜；

當模型函式不是線性函式時，無法使用最小二乘法。

梯度下降是一種迭代求解的方法，主要思路是：

\[\theta = \theta - \alpha \frac

\]其中，\(\alpha\)代表學習速率，也是迭代過程中的步長。

根據資料的不同，主要分為以下三種：

總結：牛頓法同樣是使用近似求解，但是它的速度是比梯度下降法更快的。首先來看下牛頓法在求零點的時候的應用，對於函式\(f(x)\)求近似零點，假設當前的近似零點是\(x_n\)，要進一步求解下乙個零點\(x_\)，該怎麼做呢？

首先，將在\(x_n\)處展開\(f(x)\)的二階泰勒展開式得：

\[f(x) = f(x_n) + f'(x_n)(x-x_n) + \frac(x-x_n)^2 \tag

\]此時，當前的零點滿足

\[f'(x_n) = 0 \tag

\]對(1)進行求導並結合(2)得

\[\begin

f'(x) & = 0 = f'(x_n) + f''(x_n)(x-x_n)\\

x & = x_n - \frac

\end

\]於是得到新的零點\(x\)，這裡的\(x\)就是下乙個零點\(x_\)

現在把引數\(x\)擴充套件成向量，定義損失函式\(f(x)\)為

\[\sum_^n}f(x)

\]假設\(f(x)\)具有二階連續偏導數，若第\(k\)次迭代值為\(x^\)，則可將\(f(x)\)在\(x^\)的附近進行二階泰勒展開：

\[f(x) = f(x^) + g^t_k(x-x^) + \frac(x-x^)^th(x^)(x-x^)

\]其中\(g_k = g(x^)=\nabla f(x^)\)是f(x)的梯度向量在點\(x^\)的值，\(h(x^)\)是\(f(x)\)的海塞矩陣(hessian matrix)在點\(x^\)的值，其中海塞矩陣的定義如下：

\[h(x) = [\frac]_

\]這裡令\(\nabla f(x)=0\)，得到

\[\begin

g_k & + h_k(x-x^)= 0\\

x & = x^ - h_k^g_k

\end

\]這裡將\(h(x^)\)簡記為\(h_k\)，於是得到了牛頓法。

總結：改進方法：擬牛頓法

機器學習之引數估計

引數估計引數估計

引數估計與非引數估計

引數估計與非引數估計

機器學習之引數估計

引數估計 引數估計

引數估計與非引數估計

引數估計與非引數估計

相關推薦

引數估計引數估計