統計學習方法概論

a.有監督、無監督的比較，分類和回歸的比較

監督學習的任務是學習乙個模型，使模型能夠對任意給定的輸入，對其相應的輸出作出乙個好的**（注意這裡的輸入、輸出是指某個系統的輸入與輸出，與學習的輸入與輸出不同）監督學習是極其重要的統計學習分支，也是統計學習中內容最豐富、應用最廣泛的部分。

無監督學習沒有輸出標籤

訓練資料通常是乙個向量和乙個預期輸出組成，如果函式的輸出是乙個連續的數值，則稱為回歸分析。如果函式的輸出是乙個分類標籤，則稱為分類問題

b.什麼是過擬合以及解決辦法、交叉驗證

過擬合是指學習時選擇的模型所包含的引數過多，以致於出現這一模型對已知資料**得很好，但對未知資料**很差的現象。

防止過擬合可以選擇正則化和交叉驗證。正則化是在損失函式上加上一項正則化項。

正則化項為引數向量的l2範數：

正則化項也可以是引數向量w的l1範數：

正則化符合奧卡姆剃刀原理。奧卡姆剃刀原理應用於模型選擇時認為：在所有可能選擇的模型中，能夠很好地解釋已知資料並且十分簡單才是最好的模型。

交叉驗證

如果給定的樣本資料充足，進行模型選擇的一種簡單方法是隨機地將資料集切分成三部分，分別為訓練集，驗證集和測試集。訓練集用來訓練模型，驗證集用於模型的選擇，而測試集用於最終對學習方法的評估。在學習到的不同複雜度的模型中，選擇對驗證集有最小**誤差的模型。但是，在許多實際應用中資料是不充足的。為了選擇好的模型，可以採用交叉驗證方法。交叉驗證的基本想法是重複地使用資料；把給定的資料進行切分，將切分的資料集組合為訓練集與測試集，在此基礎上反覆地進行訓練、測試以及模型選擇。

1簡單檢查驗證：首先隨機地將已知資料分為兩部分，一部分作為訓練集，另一部分作為測試集；然後用訓練集在各種條件下（不同的引數下）訓練模型，從而得到不同的模型；在測試集上評價各個模型的測試誤差，選出測試誤差最小的模型。

2s折交叉驗證：

應用最多的是s折交叉驗證，方法如下：首先隨機地將已給資料且分為s個互不相交的大小相同的子集；然後利用s-1個子集的資料訓練模型，利用餘下的子集測試模型；將這一過程對可能的s種選擇重複進行；最後選出s次平均測試誤差最小的模型。

3留一交叉驗證：

s折交叉驗證的特殊情形是s=n,稱為留一交叉驗證，往往在資料缺乏的情況下使用。這裡n是給定資料集的容量。

**可使用

c.模型評估指標（精確率、召回率、f值、roc、auc）

分類是監督學習的乙個核心問題。

tp----將正類**為正類數；

fn----將正類**為負類數；

fp----將負類**為正類數；

tn----將負類**為負類數。

roc 以fp rate為橫軸，tp rate為縱軸。（auc為roc的面積，area under curve）

prc 以recall為橫軸，precision為縱軸。

recall = tp rate

在正負樣本分佈得極不均勻的情況下，prc比roc更能有效地反應分類器的好壞

若樣本極不均衡，則隨recall的增加，fp會遠大於tp的值，precision會變化很大

相對來講，roc曲線會穩定很多，在正負樣本量都足夠的情況下，roc曲線足夠反映模型的判斷能力。

統計學習方法概論

統計學習方法 1 統計學習方法概論

統計學習方法概論

統計學習方法概論

相關推薦