統計學習筆記之基礎篇

2021-08-26 05:32:33 字數 1316 閱讀 2714

只看知識點的繞路,以下是個人學習經歷之談。

接觸機器學習半年多來,一開始對理論云云一臉矇圈,於是直接上手看**。雖然過程還是略頭疼,但事實證明,「talk」確實「cheap」,"show code」確實是個簡單粗暴卻好用的方式。就我個人學習習慣來說,對於一些看不見摸不著的理論沒什麼耐心,我知道有些**說得很好,然而對於有的文章就呵呵了,還不如貴壇某些經驗之談有意義。到現在,在徹底算搞清了乙個平台的這些時日,漸漸回過頭去看《統計學習》, 很多理論一下便落地了。

說到底,機器學習本質也就是統計學習。不過是通過假設模型,不斷通過訓練樣本去調整模型引數使之成為乙個有較好**問題結論的能力即泛化能力。簡言之,統計學習就是在講三件事:模型、策略、演算法,即統計學習方法=模型+策略+演算法

策略:對於以上我們所選定的任何乙個模型,我們可以為乙個模型選定不同引數去使得該類問題在該模型上的泛化能力較好。這些根據不同引數確定的(一般無窮多)模型假設空間中,策略便是幫助去確定那份最優的引數,即如何選擇這些引數。這便是如何選擇最優模型的問題,比如可以通過選擇乙個合適的損失函式,使得學習到的模型達到盡量優的泛化能力。

演算法:學習模型的 具體計算方法。統計學習根據學習策略選擇最優模型,最後需要考慮用什麼樣的計算方法求解最優模型。於是統計學習的演算法便成了最優化問題的演算法。舉個例子,很多**中在介紹他們的方法時都會給出演算法。

損失函式:損失即衡量模型誤差的 一種方法。這裡不再列舉,常見即 0-1,平方損失,絕對損失,對數損失。

風險函式(經驗風險):按理說損失越小,模型越優。模型輸入輸出滿足聯合分布p(x,y),損失函式期望(泛化誤差)即:

過擬合:模型在訓練集變現出幾乎完美的**能力,但在驗證集上**能力極差,樣本容量極少易發生。

結構風險:為避免過擬合,提出乙個策略——正則化,結構風險便是在經驗風險上加乙個正則項。使得模型不僅損失越小 越優,而且模型複雜度還要盡可能還要小。(越複雜越可能造成過擬合,3次曲線和9次曲線便是很好例子。)

正則化:即結構風險最小化策略的實現,在經驗風險上加乙個正則化項或叫罰項,一般是模型越複雜,正則化值越 大,常見的正則化項可以是模型引數向量的範數。比如有:

交叉驗證:在資料不充足時,可採用交叉驗證方法。即把給定的資料切分集組合成訓練集和測試集,反覆訓練和驗證。一般有,簡單交叉驗證(70%訓練啊,30%驗證),s折交叉驗證(切分s份,每次s-1訓練,1份驗證,重複s次),留一交叉驗證(s=資料集容量)。

統計學習 k NN篇

k 近鄰法是一種基本的分類與回歸方法,其三個基本要素是k值的選擇 距離度量 分類決策規則,乙個實現方法是kd樹。它的基本思想是給定乙個訓練資料集,對新的輸入例項,在訓練資料集中找到與該例項最鄰近的k個例項,這k個例項的多數屬於某個類,就把該輸入例項分為這個類。當k 1 時為特殊情況,稱為最近鄰演算法...

統計學習基礎

腦圖檢視效果更好 包括監督學習 非監督學習 半監督學習 強化學習等 1 有限訓練資料集 2 學習模型集合 所有可能模型的假設空間 3 確定學習策略 模型選擇準則 4 學習演算法 求解最優模型 5 使用模型對資料進行 或分析概率模型 由條件概率分布p x,y 表示 非概率模型 由決策函式y f x 表...

統計學習基礎

過擬合是指訓練誤差和測試誤差之間的差距太大。就是模型複雜度高於實際問題,模型在訓練集上表現很好,但在測試集上卻表現很差。措施 1 增加資料集 2 加入正則化 3 進行特徵選擇 4 提前停止訓練,深度學習中常用dropout策略。欠擬合是指模型不能在訓練集上獲得足夠低的誤差。換句換說,就是模型複雜度低...