統計學習方法筆記 概述

2021-08-20 11:15:03 字數 1970 閱讀 2603

小知識點:

法向量:垂直於平面的直線所表示的向量為該平面的法向量

法向量一般是方程的係數,比如:ax+by+cz+d = 0,那麼法向量就是(a,b,c)

證明如下:

一、範數:

l0範數:向量中非0元素的個數

l1範數:向量中各元素的絕對值之和

l2範數:向量中各元素的平方和然後求平方根

二、經驗風險與結構化風險:

經驗風險:

在假設空間、損失函式以及訓練資料集確定的情況下,經驗風險函式式就可以確定,經驗風險最小化的策略認為經驗風險最小的模型是最優的模型。根據這一策略,按照經驗風險最小化來求解最優模型就是求解最優化問題:

結構化風險:

是為了防止過擬合而提出來的策略,結構風險最小化等價於正則化,結構風險是在經驗風險上加上表示模型複雜度的正則化項或者罰項

結構風險最小化的定義如下:

j(f)是模型的複雜度,不同的模型會用不同的j(f)表示;

比如:logistic回歸和線性回歸用引數的l2範數

而貝葉斯估計中就是最大後驗概率估計(當模型是條件概率分布、損失函式是對數損失函式、模型複雜度由模型的先驗概率表示,結構風險最小化就等價於最大後驗概率估計)

三、正則化:

正則化是結構化風險最小策略的實現,是在經驗風險上加乙個正則化項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。

正則化一般具有如下形式:

其中第一項是經驗風險,第二項是正則化項,是正則化係數

正則化項可以去不同形式,在logistic和線性回歸中可以是引數向量的l2範數

正則化的作用是選擇經驗風向和模型複雜度同時較小的模型

四、交叉驗證

交叉驗證的由來:如果給定的樣本資料充足,進行模型選擇的簡單方法就是將資料分成三部分,分別為訓練集、驗證集、測試集。訓練集用來訓練模型,驗證集用於模型的選擇,而測試集用於最終對學習方法的評估。在學習到的不同複雜度的模型中,選擇對驗證集有最小**誤差的模型,由於驗證集有足夠多的資料,用它對模型進行選擇也是有效的。但是在實際應用中往往資料是不充足的,為了選擇好的模型,可以使用交叉驗證的方法。

基本想法:

基本想法是重複的使用資料,把給定的資料進行切分,將切分得到的資料集組合為訓練集與測試集,在此基礎上反覆地進行訓練、測試以及模型選擇。

1、簡單交叉驗證:

首先隨機的將已給的資料分成兩部分,一部分作為訓練集,另一部分作為測試集;然後用訓練集在不同的條件下(例如:不同的引數個數)訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。

2、s折交叉驗證:

應用最多的就是s折交叉驗證,方法如下:首先隨機的將已知資料切分為s個互不相交的大小相同的子集,然後利用s-1個子集的資料訓練模型,餘下的乙個自己測試模型;將這一過程對可能的s種選擇重複進行,最後選出s此評測中平均測試誤差最小的模型。

3、留一交叉驗證:

s折交叉驗證的特殊情況s=n,稱為留一交叉驗證,往往在資料缺乏的情況下使用,這裡n是給定資料集的容量。

五、泛化誤差

指的是學習到的模型對未知資料的**能力,事實上泛化誤差就是所學到模型的期望風險。

泛化誤差上界:

學習方法的泛化能力分析往往是通過研究泛化誤差的概率上界進行的,簡稱為泛化誤差上界。泛化誤差上界通常具有以下性質:1、它是樣本容量的函式,當樣本容量增加時,泛化誤差上界趨於0;它是假設空間容量的函式,假設空間容量越大,模型就越難學,泛化誤差上界就越大。

統計學習方法概述

監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 輸入空間和輸出空間是輸入和輸出的所有可能取值的集合,可以是有限個元素,也可以是整個歐式空間。每個輸入由特徵向量表示,所有特徵向量的空間為特徵空間。特徵向量的每一維對應乙個特徵。輸入空間和特徵空間不一定一致。模型輸入...

統計學習方法概述

1 實現統計學習的方法的步驟如下 1 得到乙個有限的訓練資料集合,假設這些資料是獨立同分布的。2 確定包含所有可能的模型的假設空間,即學習模型的集合。3 確定模型選擇的準則,即學習的策略。4 實現求解最優模型的演算法,即學習的演算法。5 通過學習方法選擇最優模型。6 利用學習的最優模型對新資料進行 ...

統計學習方法筆記 01概述

統計學習是計算機運用資料及統計方法提高效能的機器學習 herbert a.simon.如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。物件是資料 從資料出發,提取資料特徵,抽象資料模型,發現資料知識,回到資料的分析與 中。前提假設 同類資料具有一定的統計規律性。比如用隨機變數來描述資料特徵...