斯坦福機器學習實現與分析之四(廣義線性模型)

2022-02-19 07:03:05 字數 1656 閱讀 6459

指數分布族

首先需要提及下指數分布族,它是指一系列的分布,只要其概率密度函式可以寫成下面這樣的形式:

\(\begin p(y;\eta)=b(y)exp(\eta^tt(y)-a(\eta))\end\)

一般的很多分布(如高斯分布,泊松分布,二項式分布,伽馬分布等)都屬於指數分布族。該分布族有很多良好的特性,參見《generalized linear models (2nd ed.)》一書3.3節。

廣義線性模型構建假設

廣義線性模型主要基於以下假設:

1.\(y|x;\theta\)的分布屬於指數分布族

2.**值為\(t(y)\),因此模型就是\(e(t(y)|x)\)

3.模型線性性,即\( \eta=\theta^tx\)

線性回歸與邏輯回歸模型推導

線性回歸中,假設\(y|x;\theta\)服從高斯分布\( n(\mu,\sigma^2)\),則將其寫成指數分布族形式如下:

\( \begin p(y|x;\theta)&=\sigma}}exp(-\frac)\\&=\sigma}}e^}exp(\fracy}-\frac) \end \)

注意這裡\(\eta\)和\(t(y)\)可以有多種取法滿足上面這個式子,但根據上面假設的第二條,由於我們需要**的是\(y\),則\(t(y)=y\),從而就有

\(\begin b(y)= \sigma}}e^}\end\)

\(\begin \eta =\frac\end\)

\(\begin a(\eta)=\frac\end\)

從而:\(\begin h_\theta(x)=e(y|x;\theta)=\mu=\sigma^2\eta=\sigma^2\theta^tx \end\)

這裡\(\begin\sigma^2 \end\)是乙個常數,則上式可寫為:

\(\begin h_\theta(x)=\theta^x \end\)

此即為線性回歸中使用的線性模型的**。同理,對於邏輯回歸,有

\( \begin p(y|x;\theta)&=\phi^y(1-\phi)^\\&=exp(ylog+(1-y)log)\\&=exp(log}+log(1-\phi)) \end \)

則\(\begin t(y)=y \end\)

\(\begin b(y)= 1 \end\)

\(\begin \eta =log} \end\)

\(\begin a(\eta)=-log(1-\phi)\end\)

由此可得:

\(\begin \phi=\frac} \end\)

故而有\( \begin h_\theta(x)=e(y|x;\theta)=\phi=\frac}=\frac}} \end\)

此即為邏輯回歸使用的模型。

同理,對於其他分布,我們也可以寫出對應的回歸模型。上面給出了線性回歸和邏輯回歸的模型,通過最大似然估計與梯度下降法,即可求出引數。

問題與思考

1.構建glm的三條假設,其中假設一在此模型構建中起了什麼作用,目前還未理解。假如分布不屬於指數分布族,那是否也可以構建其他形式的線性模型?有理解的同學望不吝賜教。

2.假設三即是模型的線性假設,這也能說明了邏輯回歸只能處理線性可分情況。

斯坦福機器學習筆記五

有時候發現訓練出來的模型誤差很大,會有很多解決辦法。例如 增加更多的訓練樣本,減少特徵數目,增加特徵數目,增加多項式特徵,減小或增大正則化引數 的值 但是這些嘗試往往會浪費很多時間,所有這裡提出了一種機器學習診斷法。1 資料的分配 將資料分為三部分,訓練集 60 交叉驗證集 20 和測試集 20 利...

斯坦福機器學習筆記十

這裡以電影推薦的栗子來說明什麼是推薦系統。nu 代表使用者的數量 nm 代表電影的數量 r i,j 如果使用者給電影評過分,則r i,j 1 y ij 代表使用者i給電影j的評分 mj 代表使用者j評過分的電影總數 j 代表使用者j的引數向量 x i 代表電影i的特徵向量 如圖所示,推薦系統能夠幫我...

斯坦福機器學習筆記十二

由於大規模資料集求最優解,計算量非常大,對於這樣的問題,如果能夠將資料集分配給多台計算機,讓每台計算機處理資料集的乙個子集,然後將計算結果彙總再求和,這樣的方法叫做對映簡化。如果任何學習演算法能夠表達為,對訓練集的函式求和,那麼就能將這個任務分配給多台 計算機 或者同一臺計算機的不同cpu核心 以達...