統計學習方法概論

2021-08-20 05:19:26 字數 1629 閱讀 9132

統計學習方法概論

a.有監督、無監督的比較,分類和回歸的比較

監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出作出乙個好的**(注意這裡的輸入、輸出是指某個系統的輸入與輸出,與學習的輸入與輸出不同)監督學習是極其重要的統計學習分支,也是統計學習中內容最豐富、應用最廣泛的部分。

無監督學習沒有輸出標籤

訓練資料通常是乙個向量和乙個預期輸出組成,如果函式的輸出是乙個連續的數值,則稱為回歸分析。如果函式的輸出是乙個分類標籤,則稱為分類問題

b.什麼是過擬合以及解決辦法、交叉驗證

過擬合是指學習時選擇的模型所包含的引數過多,以致於出現這一模型對已知資料**得很好,但對未知資料**很差的現象。

防止過擬合可以選擇正則化和交叉驗證。正則化是在損失函式上加上一項正則化項。

正則化項為引數向量的l2範數:

正則化項也可以是引數向量w的l1範數:

正則化符合奧卡姆剃刀原理。奧卡姆剃刀原理應用於模型選擇時認為:在所有可能選擇的模型中,能夠很好地解釋已知資料並且十分簡單才是最好的模型。

交叉驗證

如果給定的樣本資料充足,進行模型選擇的一種簡單方法是隨機地將資料集切分成三部分,分別為訓練集,驗證集和測試集。訓練集用來訓練模型,驗證集用於模型的選擇,而測試集用於最終對學習方法的評估。在學習到的不同複雜度的模型中,選擇對驗證集有最小**誤差的模型。但是,在許多實際應用中資料是不充足的。為了選擇好的模型,可以採用交叉驗證方法。交叉驗證的基本想法是重複地使用資料;把給定的資料進行切分,將切分的資料集組合為訓練集與測試集,在此基礎上反覆地進行訓練、測試以及模型選擇。

1簡單檢查驗證:首先隨機地將已知資料分為兩部分,一部分作為訓練集,另一部分作為測試集;然後用訓練集在各種條件下(不同的引數下)訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。

2s折交叉驗證:

應用最多的是s折交叉驗證,方法如下:首先隨機地將已給資料且分為s個互不相交的大小相同的子集;然後利用s-1個子集的資料訓練模型,利用餘下的子集測試模型;將這一過程對可能的s種選擇重複進行;最後選出s次平均測試誤差最小的模型。

3留一交叉驗證:

s折交叉驗證的特殊情形是s=n,稱為留一交叉驗證,往往在資料缺乏的情況下使用。這裡n是給定資料集的容量。

**可使用

c.模型評估指標(精確率、召回率、f值、roc、auc)

分類是監督學習的乙個核心問題。

tp----將正類**為正類數;

fn----將正類**為負類數;

fp----將負類**為正類數;

tn----將負類**為負類數。

roc 以fp rate為橫軸,tp rate為縱軸。(auc為roc的面積,area under curve)

prc 以recall為橫軸,precision為縱軸。

recall = tp rate

在正負樣本分佈得極不均勻的情況下,prc比roc更能有效地反應分類器的好壞

若樣本極不均衡,則隨recall的增加,fp會遠大於tp的值,precision會變化很大

相對來講,roc曲線會穩定很多,在正負樣本量都足夠的情況下,roc曲線足夠反映模型的判斷能力。

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

統計學習方法概論

這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...

統計學習方法概論

本文是學習李航寫的 統計學習方法 一書第一章 統計學習方法概論 所做的乙個筆記,主要就是對第一章的總結。1.統計學習 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱統計機器學習。由此可以看出統計學習的研究物件是資料,目的是對資料進行 與分析。同時,統...