統計學習基本三要素基礎知識

方法=模型+策略+演算法

模型：1.決策函式的集合

2.引數空間

3.條件概率的集合

4.引數空間

策略：損失函式

風險函式

o-1損失函式

平方損失函式

絕對損失函式

對數損失函式

損失函式的期望

經驗風險

演算法：如果最優化問題有顯式的解析式，演算法比較簡單。但通常解析式不存在，就需要數值計算的方法。

正則化與交叉驗證

交叉驗證：訓練集用於訓練模型

驗證集用於模型選擇

測試集同於最終對學習方法的評估

1.簡單交叉驗證

2.s折交叉驗證

3.留一交叉驗證

泛化能力

泛化誤差性質：樣本容量增加，泛化誤差趨於0

生成模型與判別模型

生成模型：

條件概率

樸素貝葉斯法和隱馬爾可夫模型

常見：

1. 判別式分析 2. 樸素貝葉斯native bayes 4. k近鄰knn 5. 隱馬爾科夫模型hmm 6. 貝葉斯網路 7. sigmoid belief networks 8. 馬爾科夫隨機場markov random fields 9. 深度信念網路dbn 10. 隱含狄利克雷分布簡稱lda(latent dirichlet allocation) 11. 多專家模型（the mixture of experts model）

判別方法由資料直接學習決策函式f(x)或田間概率分布 p（y|x）作為**的模型，即判別模型

k近鄰法、感知機、決策樹、logistic回歸模型、最大熵模型、支援向量機、提公升方法和條件隨機場

各自優缺點：

生成方法：可還原出聯合概率分布p(x,y), 而判別方法不能。生成方法的收斂速度更快，當樣本容量增加的時候，學到的模型可以更快地收斂於真實模型；當存在隱變數時，仍可以使用生成方法，而判別方法則不能用。

判別方法：直接學習到條件概率或決策函式，直接進行預測，往往學習的準確率更高；由於直接學習y=f(x)或p(y|x), 可對資料進行各種程度上的抽象、定義特徵並使用特徵，因此可以簡化學習過程。

分類問題

二分類問題是很重要的問題，我們需要認真計算其中的準確率和召回率。

二分類指標

tp true positive

fn false negative

fp false positive

tn true negative

精確率

召回率

f1值

精準率和召回率和f1取值都在0和1之間，精準率和召回率高，f1值也會高，不存在數值越接近0越高的說法，應該是數值越接近1越高

回歸問題

回歸學習最常用的損失函式是平方損失函式，在此情況下，回歸問題可以由著名的最小二乘法(least squares) 求解。

感謝李航老師的統計學習方法

統計學習基本三要素基礎知識

統計學習三要素

統計學習統計學習三要素

1 3 統計學習三要素

統計學習基本三要素 基礎知識

統計學習三要素

統計學習 統計學習三要素

1 3 統計學習三要素

相關推薦

統計學習基本三要素基礎知識

統計學習統計學習三要素