機器學習筆記概論

2、

3、書籍勘誤表：

自己看書做的筆記。本人屬於初學，水平不高，記錄內容難免有誤。請各位不吝賜教，積極指正。

要是能讓各位看官有所收穫，嘿嘿，那在下就功德無量了(doge)

基礎知識

概率分布：

極大似然估計：

先驗概率和後驗概率：

監督學習：（supervised learning）的任務是學習乙個模型，使模型能夠對任意給定的輸入，對其相應的輸出做出乙個好的**

監督學習的目的在於學習乙個由輸入到輸出的對映，這一對映由模型來表示．換句話說，學習的目的就在於找到最好的這樣的模型．

無監督學習：給出不帶標籤的資料集，計算機自主發現資料集內部的結構

回歸：設法**連續值的輸出 (房價之類的)

分類：設法**乙個離散值的輸出(如腫瘤是良性還是惡性的)

統計學習三要素：模型+策略+演算法

模型：模型就是所要學習的條件概率或者決策函式。模型的假設空間包含所有可能的條件概率或分布。可以定義為決策函式的集合，也可以定義為條件概率的集合。()

策略：用什麼樣的準則學習或者選擇最優的模型。

代價函式:一次**的好壞

風險函式：平均意義下模型**的好壞

常用的損失(或代價函式)函式：

由於模型的輸入、輸出(x,y)是隨機變數，遵循聯合分布p(x,y)，所以損失函式的期望是:$r_(f)=e_p[l(y,f(x))]=\int\limits_l(y,f(x))p(x,y)dxdy$，稱為風險函式(或期望損失)。其中，l(y,f(x))為損失函式，聯合分布p(x,y)是未知的

經驗風險：模型f(x)關於訓練資料集的平均損失稱為經驗風險(或經驗損失)，記經驗損失為$r_$，$r_(f)=\frac\sideset{}{}_^l(y_i,f(x_i))$

tips：期望損失：$r_$

經驗損失：$r_$

按照經驗損失最小化求最優模型就是求解最優化問題：$\sideset{}{}_}\frac\sum_^l(y_i,f(x_i))$

機構化風險最小：是為了防止過擬合而提出的策略，結構化風險最小等價於正則化。結構風險在經驗風險上加上表示模型複雜度的正則化項（regularizer）或罰項(penalty term)．

在假設空間、損失函式以及訓練資料集確定的情況下，結構風險的定義是$r_(f)=\fracl(y_i,f(x_i))+\lambda j(f)$。

tips：其中$\lambda \ge 0$ ,$j(f)$為模型複雜度，越大模型越複雜，即模型複雜度表示了對複雜模型的懲罰(會使結構風險增加)

演算法：演算法是指學習模型的具體計算方法．統計學習基於訓練資料集，根據學習策略,從假設空間中選擇最優模型,最後需要考慮用什麼樣的計算方法求解最優模型。

訓練誤差：$r_)}=\frac\sum_^nl(y_i,\hat(x_i))$

測試誤差：$e_=\frac}\sum_^}l(y_i,\hat(x_i))$

tips:其中$y=\hat(x)$是學習到的模型，$n$是訓練樣本容量,$n^$是測試樣本容量

過擬合：如果一味追求提高對訓練資料的**能力，所選模型的複雜度則往往會比真模型更高(就是針對性過強了)．這種現象稱為過擬合（over-fitting)．這種情況下，模型對訓練樣本效果很好，但對測試樣本效果不好。

$l(w)=\frac\sum_^(\sum_^w_jx_i^j-y_i)^2$

$let \frac}=0$,則：

$\frac\sum_^2(\sum_^w_jx_i^j-y_i)x_i^k=0$

$\sum_^\sum_^w_jx_i^=\sum_^x_ky_i$

$\sum_^(\sum_^x_i^)w_j=\sum_^x_i^ky_i$

下面的求和符號上下限都是$i=1$到$n$,即$\sum_^$i=1

'>n

'>, 為了方便略去不寫。

$\beginn&\sum x_i &\sum x_i^2&\cdots& \sum x_i^m\\\sum x_i&\sum x_i^2&\sum x_i^3&\cdots&\sum x_i^\\\sum x_i^2&\sum x_i^3&\sum x_i^4&\cdots&\sum x_i^\\\vdots&\vdots&\vdots&\ddots&\cdots\\\sum x_i^m&\sum x_i^&\sum x_i^&\cdots&\sum x_i^\end\beginw_0\\w_1\\w_2\\\vdots\\w_m\end=\begin\sum y_i\\\sum x_iy_i\\\sum x_i^2y_i\\\vdots\\\sum x_i^my_i\end$

則所求的擬合多項式係數$w_0^*,w_1^*,\cdots,w_m^*$就可以通過解上面的方程組得到，只需要將$\sum\limits_^ x_i^j(j=0,1,2,\cdots,2m)$和$\sum\limits_^x_i^jy_i(j=0,1,2,\cdots,m)$代入其中求解即可

正則化regularization)：模型選擇的典型方法，它是在經驗風險上加-乙個正則化項(regularizer)或罰項(penalty terrn)

正則化項一般是模型複雜度的單調遞增函式，模型越複雜，正則化值就越大.比如正則化項可以是模型引數向量的範數.正則化的作用就是選擇經驗風險與模型複雜度同時小的模型。

正則化形式：$\sideset{}{}_}\fracl(y_i,f(x_i))+\lambda j(f)$，其中第一項是經驗風險，第二項是正則化專案，$\lambda \ge 0$為調整兩者之間關係的引數

奧卡姆剃刀原理：

交叉驗證：模型選擇的另一種方法(包括簡單交叉驗證，s折交叉驗證，留一交叉驗證)

若樣本資料充足，可將資料集切分成三部分，分別為訓練集(training set)、驗證集(validation set)和測試集(testset)．訓練集用來訓練模型，驗證集用於模型的選擇，而測試集用於最終對學習方法的評估．在學習到的不同複雜度的模型中，選擇對驗證集有最小**誤差的模型．

泛化能力：由該方法學習到的模型對位置資料的**能力

泛化誤差：$r_(f)=e_p[l(y,f(x))]=\int\limits_l(y,f(x))p(x,y)dxdy$（就是損失函式的期望）

機器學習筆記概論

機器學習概論

機器學習概論

機器學習機器學習概論

機器學習筆記 概論

機器學習概論

機器學習概論

機器學習 機器學習概論

相關推薦

機器學習筆記概論

機器學習機器學習概論