統計學習基礎

腦圖檢視效果更好

包括監督學習、非監督學習、半監督學習、強化學習等（1）有限訓練資料集

（2）學習模型集合（所有可能模型的假設空間）

（3）確定學習策略–模型選擇準則

（4）學習演算法–求解最優模型

（5）使用模型對資料進行**或分析概率模型：由條件概率分布p(x, y)表示

非概率模型：由決策函式y = f(x)表示假設空間定義為決策函式集合

x y 是輸入輸出空間的變數損失函式和風險函式

0-1損失函式

平方損失函式

絕對損失函式

對數損失函式（對數似然損失函式）

損失函式的期望–稱為風險函式或期望損失

經驗風險

結構風險 = 經驗風險+正則化項（罰項）

最優化經驗風險最小化–過擬合–例子：極大似然估計：模型=條件概率分布，損失函式=對數損失函式

結構風險最小化=正則化求解最優化問題

存在顯示解析解：簡單易解決

不存在：數值計算方法求解，難點-全域性最優解，高效訓練誤差 = 經驗風險

測試誤差過擬合：模型複雜度過高，對已知資料**很好，對未知資料**很差

訓練誤差和測試誤差與模型複雜度關係結構風險最小化策略–經驗風險+正則化項

簡單交叉驗證隨機切分兩份

s折交叉驗證

留一交叉驗證 s=n時的特殊情況使用學到的模型對為主資料**的誤差

是樣本容量的函式：樣本容量增加–泛化誤差上界趨於0

是假設空間容量的函式：假設空間越大–模型難學–泛化誤差上界越大生成方法學習而成

資料學習聯合概率分布p(x, y)，求出條件概率分布p(y|x)作為**模型

例子：樸素貝葉斯，隱馬爾科夫模型

特點可以還原聯合概率分布

收斂速度快

存在隱變數仍可學習判別方法學習而成

直接學習決策函式或者條件概率函式作為**的模型

例子：knn, 感知機，決策樹，lr, 最大熵模型， svm， bagging和boosting，crf

特點準確率高

對資料抽象，定義特徵並使用，可以簡化學習問題tp-正類**為正類數

fn-正類**為負類數

fp-負類**為正類數

tn-正類**為負類數

精確率：**為正類數中**準確的比例

召回率：**準確數中**為正類的比例

f1值精確率和召回率的調和均值常用

隱馬爾科夫鏈

crf常用：平方損失函式

求解：最小二乘法

統計學習基礎

過擬合是指訓練誤差和測試誤差之間的差距太大。就是模型複雜度高於實際問題，模型在訓練集上表現很好，但在測試集上卻表現很差。措施 1 增加資料集 2 加入正則化 3 進行特徵選擇 4 提前停止訓練，深度學習中常用dropout策略。欠擬合是指模型不能在訓練集上獲得足夠低的誤差。換句換說，就是模型複雜度低...

統計學習方法統計學習基礎（一）

監督學習統計學習的三要素模型評估與模型選擇一統計學習的特點以方法為中心目標是對資料進行與分析統計學習的方法可以總結出統計學習的三要素模型策略和演算法。監督學習的任務是學習乙個模型，使模型能夠對任意給定的輸入能做出乙個好的基本概念假設空間模型屬於由輸入空間到輸出空間的對映的...

統計學統計學基礎

五種抽樣方法 1 簡單隨機選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統簡單的系統抽取樣本 3 任意使用乙個碰巧很容易被選擇的樣本 4 整群先將總體分為不同組群，從中隨機挑選幾個組群作為樣本 5 分層定義層級，在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...

統計學習基礎

統計學習基礎

統計學習方法 統計學習基礎（一）

統計學 統計學基礎

相關推薦

統計學習方法統計學習基礎（一）

統計學統計學基礎