機器學習之引數估計

2022-03-30 02:42:45 字數 1721 閱讀 6321

引數估計(parameter estimate)就是通過一系列演算法,來求出模型的最優引數。在各個機器學習深度學習的框架裡,都變成了optimizer的活了。

其實這個名字很奇怪,但是在比較早的機器學習**裡都是這麼叫的,我們重點來關注下裡面涉及的一些演算法。

這裡主要關注的是

二乘是平方的意思,感覺最小二乘法就相當於均方誤差(mse)了,最小二乘法的思想是找到一組引數\(\theta=(\theta_0, \theta_1, ..., \theta_n)\)使得\(\sum_^n(h_\theta(x_i)-y_i)^2\)最小

具體求解時,通過代數法求解,假設模型為\(h_\theta(x) = x\theta\),那麼定義損失函式為\(j(\theta) = \frac(x\theta-y)^t(x\theta-y)\),這裡二分之一是為了計算方便。那麼求解步驟如下:

\[\frac = x^t(x\theta-y) = 0\\

\theta = (x^tx)^x^ty

\]總結:

最小二乘法需要計算\((x^tx)^\),這個逆不一定存在;

當特徵很多時,求逆的過程非常複雜;

當模型函式不是線性函式時,無法使用最小二乘法。

梯度下降是一種迭代求解的方法,主要思路是:

\[\theta = \theta - \alpha \frac

\]其中,\(\alpha\)代表學習速率,也是迭代過程中的步長。

根據資料的不同,主要分為以下三種:

總結:牛頓法同樣是使用近似求解,但是它的速度是比梯度下降法更快的。首先來看下牛頓法在求零點的時候的應用,對於函式\(f(x)\)求近似零點,假設當前的近似零點是\(x_n\),要進一步求解下乙個零點\(x_\),該怎麼做呢?

首先,將在\(x_n\)處展開\(f(x)\)的二階泰勒展開式得:

\[f(x) = f(x_n) + f'(x_n)(x-x_n) + \frac(x-x_n)^2 \tag

\]此時,當前的零點滿足

\[f'(x_n) = 0 \tag

\]對(1)進行求導並結合(2)得

\[\begin

f'(x) & = 0 = f'(x_n) + f''(x_n)(x-x_n)\\

x & = x_n - \frac

\end

\]於是得到新的零點\(x\),這裡的\(x\)就是下乙個零點\(x_\)

現在把引數\(x\)擴充套件成向量,定義損失函式\(f(x)\)為

\[\sum_^n}f(x)

\]假設\(f(x)\)具有二階連續偏導數,若第\(k\)次迭代值為\(x^\),則可將\(f(x)\)在\(x^\)的附近進行二階泰勒展開:

\[f(x) = f(x^) + g^t_k(x-x^) + \frac(x-x^)^th(x^)(x-x^)

\]其中\(g_k = g(x^)=\nabla f(x^)\)是f(x)的梯度向量在點\(x^\)的值,\(h(x^)\)是\(f(x)\)的海塞矩陣(hessian matrix)在點\(x^\)的值,其中海塞矩陣的定義如下:

\[h(x) = [\frac]_

\]這裡令\(\nabla f(x)=0\),得到

\[\begin

g_k & + h_k(x-x^)= 0\\

x & = x^ - h_k^g_k

\end

\]這裡將\(h(x^)\)簡記為\(h_k\),於是得到了牛頓法。

總結:改進方法:擬牛頓法

引數估計 引數估計

1 引數估計 用樣本統計量去估計總體的引數。2 估計量 用於估計總體引數的統計量的名稱 如樣本均值,樣本比例,樣本方差等 例如 樣本均值就是總體均值 3 引數用 4 估計值 估計引數時計算出來的統計量的具體值 如果樣本均值 5 點估計 例如 用樣本均值直接作為總體均值的估計乙個點估計量的可靠性是由它...

引數估計與非引數估計

引數估計 parameter estimation 根據從 總體中抽取的 樣本估計總體分布中包含的未知引數的方法。人們常常需要根據手中的資料,分析或推斷資料反映的本質規律。即根據樣本資料如何選擇統計量去推斷總體的分布或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是指根據樣本對總體分布或...

引數估計與非引數估計

背景知識 概率密度,直觀的理解就是在某乙個區間內,事件發生的次數的多少的問題,比如n 0,1 高斯分布,就是取值在0的很小的區間的概率很高,至少比其他等寬的小區間要高。引數估計要求明確引數服從什麼分布,明確模型的具體形式,然後給出引數的估計值。根據從總體中抽取的樣本估計總體分布中包含的未知引數。非引...