統計學習筆記之基礎篇

只看知識點的繞路，以下是個人學習經歷之談。

接觸機器學習半年多來，一開始對理論云云一臉矇圈，於是直接上手看**。雖然過程還是略頭疼，但事實證明，「talk」確實「cheap」，"show code」確實是個簡單粗暴卻好用的方式。就我個人學習習慣來說，對於一些看不見摸不著的理論沒什麼耐心，我知道有些**說得很好，然而對於有的文章就呵呵了，還不如貴壇某些經驗之談有意義。到現在，在徹底算搞清了乙個平台的這些時日，漸漸回過頭去看《統計學習》, 很多理論一下便落地了。

說到底，機器學習本質也就是統計學習。不過是通過假設模型，不斷通過訓練樣本去調整模型引數使之成為乙個有較好**問題結論的能力即泛化能力。簡言之，統計學習就是在講三件事：模型、策略、演算法，即統計學習方法=模型+策略+演算法。

策略：對於以上我們所選定的任何乙個模型，我們可以為乙個模型選定不同引數去使得該類問題在該模型上的泛化能力較好。這些根據不同引數確定的（一般無窮多）模型假設空間中，策略便是幫助去確定那份最優的引數，即如何選擇這些引數。這便是如何選擇最優模型的問題，比如可以通過選擇乙個合適的損失函式，使得學習到的模型達到盡量優的泛化能力。

演算法：學習模型的具體計算方法。統計學習根據學習策略選擇最優模型，最後需要考慮用什麼樣的計算方法求解最優模型。於是統計學習的演算法便成了最優化問題的演算法。舉個例子，很多**中在介紹他們的方法時都會給出演算法。

損失函式：損失即衡量模型誤差的一種方法。這裡不再列舉，常見即 0-1，平方損失，絕對損失，對數損失。

風險函式（經驗風險）：按理說損失越小，模型越優。模型輸入輸出滿足聯合分布p(x,y)，損失函式期望（泛化誤差）即：

過擬合：模型在訓練集變現出幾乎完美的**能力，但在驗證集上**能力極差，樣本容量極少易發生。

結構風險：為避免過擬合，提出乙個策略——正則化，結構風險便是在經驗風險上加乙個正則項。使得模型不僅損失越小越優，而且模型複雜度還要盡可能還要小。（越複雜越可能造成過擬合，3次曲線和9次曲線便是很好例子。）

正則化：即結構風險最小化策略的實現，在經驗風險上加乙個正則化項或叫罰項，一般是模型越複雜，正則化值越大，常見的正則化項可以是模型引數向量的範數。比如有：

交叉驗證：在資料不充足時，可採用交叉驗證方法。即把給定的資料切分集組合成訓練集和測試集，反覆訓練和驗證。一般有，簡單交叉驗證（70%訓練啊，30%驗證），s折交叉驗證（切分s份，每次s-1訓練，1份驗證，重複s次），留一交叉驗證（s=資料集容量）。

統計學習筆記之基礎篇

統計學習 k NN篇

統計學習基礎

統計學習基礎

統計學習筆記之基礎篇

統計學習 k NN篇

統計學習基礎

統計學習基礎

相關推薦