統計學習方法（第1章）學習筆記

第1章統計學習方法概論

統計學習是由監督學習（supervised learning）、非監督學習（unsupervised learning）、半監督學習（semi-supervised learning）和強化學習（reinforcement learning）組成。

監督學習的任務是學習乙個模型，是模型能夠對任意給定的輸入，對其相應的輸出做出乙個好的**。

在監督學習中，將輸入與輸入所有可能取值的集合稱為輸入空間與輸出空間。

每個具體的輸入是乙個例項，通常有特徵向量表示。所有特徵向量存在的空間稱為特徵空間，其每一維對應乙個特徵。

輸入例項x的特徵向量記作

監督學習從訓練資料集合中學習模型，對測試資料進行**。輸入輸出對又稱為樣本或樣本點。

監督學習假設輸入與輸出的隨機變數x和y遵循聯合概率分布p(x,y)。p(x,y)表示分布函式或分布密度函式。

監督學習的目的在於學習乙個由輸入到輸出的對映，這一對映由模型來表示。模型屬於由輸入空間到輸出空間的對映的集合，稱為假設空間。

由條件概率分布p(x|y)或決策函式y=f(x)表示。

統計學習三要素：方法=模型+策略+演算法

3.1損失函式和風險函式：損失函式度量模型一次**的好壞，風險函式度量平均意義下模型**的好壞。

損失函式值越小，模型就越好，由於模型的輸入、輸出（x,y）是隨機變數，遵循聯合分布p（x,y），所以損失函式的期望是：

（這個稱為風險函式或期望損失）

經驗損失（經驗風險）：

學習的目標就是選擇期望風險最小的模型。但是一方面算期望風險需要用到聯合分布，另一方面聯合分布又是未知的，所以監督學習就成為乙個病態的問題。根據大數定理，當樣本容量n趨向於無窮是，我們的經驗風險趨向於期望風險。所以我們可以用經驗風險去估計期望風險。

由於現實中訓練樣本數有限，甚至很小，所以還要考慮到監督學習的兩個基本策略：經驗風險最小化和結構風險最小化

3.2經驗風險最小化和結構風險最小化

1.經驗風險最小化：

當樣本容量足夠大是，經驗風險最小化能保證有很好的學習效果，「極大似然估計」就是經驗風險最小化的乙個例子。但是，當樣本容量很小時，效果就未必很好。

2.結構風險最小化

本身就是為了防止過擬合而提出的策略，就是在經驗風險上加上了模型複雜懲罰函式，就是正則化項或罰項。

其中的j(f)為模型的複雜度。貝葉斯估計中的最大後驗概率估計就是結構風險最小化的乙個例子。

指學習時選擇的模型所包含的引數過多，以至於出現模型對已知資料**的很好，但對未知資料**的很差的現象。一般防止過擬合的方法：正則化與交叉驗證。

正則化項一般是模型複雜度的單調遞增函式，模型越複雜，正則化值就越大。正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。

就是模型對未知資料的**能力。

分類是監督學習的乙個核心問題在監督學習中，當輸出變數y 取有限個離散值時，**問題便成為分類問題這時，輸入變數x 可以是離散的，也可以是連續的.監督學習從資料中學習乙個分類模型或分類決策函式，稱為分類器(classifier) .

評價分類器效能的指標一般是分類準確率。

對於二分類問題常用的指標是——精確率和召回率。

tp一將正類**為正類數:

fn一一將正類**為負類數:

fp一一將負類**為正類數，

tn-一將負類**為負類數.

許多統計學習方法可以用於分類，包括k鄰近法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯特回歸模型、支援向量機、提公升方法、貝葉斯網路、神經網路等。分類的乙個典型應用的例子就是文字分類。

回歸是監督學習的另-個重要問題回歸用於**輸入變數(自變數)和輸出變數(因變數)之間的關係。回歸問題的學習等價於函式擬合·選擇一條函式曲線使其很好地擬合己知資料且很好地**未知資料。回歸問題按照輸入變數的個數，分為一元回歸和多元回歸；按照輸入變數和輸出變數之間的關係即模型的型別，分為線性回歸和非線性回歸。回歸學習最常用的損失函式是平方損失函式，在此情況下，回歸問題可以由著名的最小二乘法(least squares) 求解。

統計學習方法（第1章）學習筆記

第1章統計學習方法概論

統計學習方法筆記1 統計學習方法概論

統計學習方法 1 統計學習方法概論

統計學習方法 （第1章）學習筆記

第1章 統計學習方法概論

統計學習方法筆記1 統計學習方法概論

統計學習方法 1 統計學習方法概論

相關推薦

統計學習方法（第1章）學習筆記

第1章統計學習方法概論