統計學習基礎

2021-07-29 13:22:39 字數 1235 閱讀 9074

腦圖檢視效果更好

包括監督學習、非監督學習、半監督學習、強化學習等(1)有限訓練資料集

(2)學習模型集合(所有可能模型的假設空間)

(3)確定學習策略–模型選擇準則

(4)學習演算法–求解最優模型

(5)使用模型對資料進行**或分析概率模型:由條件概率分布p(x, y)表示

非概率模型:由決策函式y = f(x)表示假設空間 定義為決策函式集合

x y 是輸入輸出空間的變數損失函式和風險函式

0-1損失函式

平方損失函式

絕對損失函式

對數損失函式(對數似然損失函式)

損失函式的期望–稱為風險函式或期望損失

經驗風險

結構風險 = 經驗風險+正則化項(罰項)

最優化經驗風險最小化–過擬合–例子:極大似然估計:模型=條件概率分布,損失函式=對數損失函式

結構風險最小化=正則化求解最優化問題

存在顯示解析解:簡單易解決

不存在:數值計算方法求解,難點-全域性最優解,高效訓練誤差 = 經驗風險

測試誤差過擬合:模型複雜度過高,對已知資料**很好,對未知資料**很差

訓練誤差和測試誤差與模型複雜度關係結構風險最小化策略–經驗風險+正則化項

簡單交叉驗證 隨機切分兩份

s折交叉驗證

留一交叉驗證 s=n時的特殊情況使用學到的模型對為主資料**的誤差

是樣本容量的函式:樣本容量增加–泛化誤差上界趨於0

是假設空間容量的函式:假設空間越大–模型難學–泛化誤差上界越大生成方法學習而成

資料學習聯合概率分布p(x, y),求出條件概率分布p(y|x)作為**模型

例子: 樸素貝葉斯, 隱馬爾科夫模型

特點可以還原聯合概率分布

收斂速度快

存在隱變數仍可學習判別方法學習而成

直接學習決策函式或者條件概率函式作為**的模型

例子:knn, 感知機,決策樹,lr, 最大熵模型, svm, bagging和boosting,crf

特點準確率高

對資料抽象,定義特徵並使用,可以簡化學習問題tp-正類**為正類數

fn-正類**為負類數

fp-負類**為正類數

tn-正類**為負類數

精確率:**為正類數中**準確的比例

召回率:**準確數中**為正類的比例

f1值 精確率和召回率的調和均值常用

隱馬爾科夫鏈

crf常用:平方損失函式

求解:最小二乘法

統計學習基礎

過擬合是指訓練誤差和測試誤差之間的差距太大。就是模型複雜度高於實際問題,模型在訓練集上表現很好,但在測試集上卻表現很差。措施 1 增加資料集 2 加入正則化 3 進行特徵選擇 4 提前停止訓練,深度學習中常用dropout策略。欠擬合是指模型不能在訓練集上獲得足夠低的誤差。換句換說,就是模型複雜度低...

統計學習方法 統計學習基礎(一)

監督學習 統計學習的三要素 模型評估與模型選擇 一 統計學習的特點 以方法為中心 目標是對資料進行 與分析 統計學習的方法 可以總結出統計學習的三要素 模型 策略和演算法。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入能做出乙個好的 基本概念 假設空間 模型屬於由輸入空間到輸出空間的對映的...

統計學 統計學基礎

五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...