統計學習方法之基礎整理（一）

交叉驗證

roc曲線和auc值

生成模型與判別模型

正則化是模型選擇的典型方法，是結構風險最小化策略的實現。

作用是選擇經驗風險與模型複雜度同時較小的模型。

正則化項可以取不同的形式，如l1範數、l2範數。

概念：引數向量中各個元素絕對值之和。

作用：可以實現稀疏（引數稀疏的好處：完成特徵自動選擇、模型更容易解釋）

概念：引數向量中各個元素的平方和然後求平方根。

作用：防止過擬合，提公升模型的泛化能力（讓l2範數的規則項∣∣w

∣∣

2||w||^2

∣∣w∣∣2

盡可能小，可以使得w每個元素都很小，接近於零，但是與l1不同的是，不會等於0；這樣得到的模型抗干擾能力強，引數很小時，即使樣本資料x發生很大的變化，模型**值y的變化也會很有限）

交叉驗證用於模型選擇方法

原因：資料不足

基本思想：重複的使用資料，把給定的數進行切分，將切分資料集組合為訓練集與測試集，在此基礎上反覆進行訓練、測試以及模型選擇。

概念：：接收者操作特徵(receiveroperating characteristic),roc曲線上每個點反映著對同一訊號刺激的感受性。

橫軸：負正類率(false postive rate fpr)特異度，劃分例項中所有負例佔所有負例的比例；(1-specificity)

縱軸：真正類率(true postive rate tpr)靈敏度，sensitivity(正類覆蓋率)

注：針對乙個二分類問題，將例項分成正類(postive)或者負類(negative)。但是實際中分類時，會出現四種情況.

若乙個例項是正類並且被**為正類，即為真正類(true postive tp)

若乙個例項是正類，但是被**成為負類，即為假負類(false negative fn)

若乙個例項是負類，但是被**成為正類，即為假正類(false postive fp)

若乙個例項是負類，但是被**成為負類，即為真負類(true negative tn)

當測試集中的正負樣本的分布變換的時候，roc曲線能夠保持不變。在實際的資料集中經常會出現樣本類不平衡，即正負樣本比例差距較大，而且測試資料中的正負樣本也可能隨著時間變化。

概念： roc曲線下的面積，介於0.1和1之間。auc作為數值可以直觀的評價分類器的好壞，值越大越好。

物理意義：任取一對（正、負）樣本，正樣本的score大於負樣本的score的概率。

監督學習是對給定的輸入**相應的輸出。

一般形式為：

監督學習方法分為生成方法和判別方法、

由資料學習聯合概率p(x,y)，然後求條件概率分布p（y|x）作為**的模型。即，給定輸入x產生輸出y的生成關係。

常見的生成模型：樸素貝葉斯、隱馬爾可夫模型

特點：生成方法可以還原出聯合概率分布p(x,y)，而判別方法則不能。生成方法學習收斂速度快，即當樣本容量增加時，學到的模型可以更快地收斂於真實模型，當存在隱變數時能讓可以用生成方法，此時判別方法則不能用。

由資料直接學習決策函式f（x）或者條件概率分布p(x|y)作為**模型。判別方法關心的是給定的輸入x，應該**什麼樣的輸出。

典型模型：感知機、決策樹、邏輯斯蒂回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場。

特點：判別方法直接學習的是條件概率p(x|y)和決策函式f（x）。直接面對**，往往學習的準確率更高，由於直接學習p(x|y)或f（x）。可以對資料進行各種程度上的抽象，定義特徵並使用特徵，因此可以簡化學習問題。