統計學習方法概論 《統計學習方法》李航著

2021-09-25 03:32:28 字數 1603 閱讀 6247

統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。

監督學習方法主要包括 分類、標註 與 回歸問題

回歸問題:輸入變數 和 輸出變數 均為連續變數的**問題

分類問題:輸出變數為有限個離散變數的**問題

標註問題:輸入與輸出變數均為變數序列的**問題

統計學習三要素:模型,策略,演算法

損失函式度量模型一次**的好壞

風險模型度量平均意義下模型**好壞

泛化誤差反應了學習方法的泛化能力

泛化能力是有該方法學到的學習到的模型對位置資料的**能力

泛化誤差就是對學習到的模型的期望風險

泛化誤差上界的性質:

(1)它是樣本容量的函式,樣本容量增加,泛化上界趨向於0

(2)它是假設空間容量的函式,假設空間越容量大,模型越南學,泛化誤差上界就越大。

監督學習方法可以分為生成方法和判別方法,所學到的模型分別稱為生成模型和判別模型

生成方法的特點:

(1)可以還原聯合概率分布p(x,y)

(2)學習收斂速度快

判別方法的特點:

(1)直接學習的是條件概率p(y|x)或決策函式f(x),直接面對**,準確率更高

(2)可以對資料進行各種程度的抽象、定義特徵並使用特徵,因此可以簡化學習問題

分類 是監督學習的乙個核心問題

評價分類器效能的一般指標是 分類精確率

二類分類問題常用的評價指標是精確率和召回率,分類器在測試資料集上的**或正確或不正確,4種情況出現的總數分別記作

tp------將正類**為正類數

fn------將正類**為負類數

fp------將負類**為正類數

tn------將負類**為負類數

精確率定義:p = (tp

tp+f

p)

\left(\frac\right)

(tp+fp

tp​)

召回率定義:r = (tp

tp+f

n)

\left(\frac\right)

(tp+fn

tp​)

f1是精確率和召回率的調和均值

( 2f

1)

\left(\frac\right)

(f12​)

= (1p)

\left(\frac\right)

(p1​

) + (1r

)\left(\frac\right)

(r1​

)f1 = (2t

p2tp

+fp+

fn

)\left(\frac\right)

(2tp+f

p+fn

2tp​

)標註常用的統計學習方法有:隱馬爾科夫模型,條件隨機場

回歸模型是表示從輸入變數到輸出變數之間對映的函式

回歸問題的學習等價於函式擬合

回歸問題分為學習和**兩個過程。

回歸學習最常用的損失函式是平方損失函式,在此情況下,回歸問題可以由著名的最小二乘法求解

統計學方法:k近鄰法、感知機、樸素貝葉斯法、決策樹、邏輯斯蒂回歸與最大熵模型、支援向量機、提公升方法、em演算法、隱馬爾可夫模型、條件隨機場。

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

李航統計學習方法筆記1 統計學習方法概論

模型 由輸入到輸出的對映 假設空間 由輸入空間到輸出空間的對映多集合 模型 由條件概率分布p y x 或決策函式y f x 表示 損失函式 度量模型一次 的好壞,用乙個損失函式來度量 錯誤的程度 風險函式 度量平局意義下模型 的好壞 經驗風險 模型f x關於訓練資料集的平均損失 當模型上條件概率分布...

李航 統計學習方法 筆記 1 統計學習方法概論

統計學習由監督學習 非監督學習 半監督學習和強化學習等組成,本書主要討論監督學習。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 方法 模型 策略 演算法 在監督學習過程中,模型就是所要學習的條件概率分布或決策函式。策略即從假設空間中選取引數最優模型,模型的分類...