統計學習方法讀書筆記（1）

1.監督學習：對任意給定輸入，對其相應的輸出做乙個好的**。

2.回歸問題：輸入變數與輸出變數都為連續變數的**問題。

分類問題：輸入變數為有限個離散變數的**問題。

標註問題：輸入輸出變數均為變數序列的**問題。

3.概率模型：由條件概率分布p(y|x)表示

非概率模型：由決策函式y= f(x)表示

4.統計學習三要素：

（1）模型：概率模型or非概率模型

（2）策略：學習或選擇最優的模型，如何度量？損失函式度量模型一次**的好壞，風險函式度量平均意義下模型**的好壞。度量結果不理想？經驗風險最小化和結構風險最小化（加入正則項防止過擬合）。

（3）演算法：即最優化問題，分為全域性最優和區域性最優。

5.訓練誤差和測試誤差：看是對訓練資料集還是測試資料集計算平均損失。

7.交叉驗證：資料不充足時，把給定的資料進行切分來重複使用資料，反覆地進行訓練，測試以及模型選擇。包括簡單交叉驗證，s折交叉驗證，留一交叉驗證。

8.泛化能力：學習到的模型對未知資料的**能力。

泛化誤差：

9.生成模型：由資料學習聯合概率密度分布p(x,y)，然後求出條件概率分布p(y|x)作為**的模型，即生成模型：p(y|x)= p(x,y)/ p(x)。基本思想是首先建立樣本的聯合概率概率密度模型p(x,y)，然後再得到後驗概率p(y|x)，再利用它進行分類，就像上面說的那樣。

判別模型：由資料直接學習決策函式y=f(x)或者條件概率分布p(y|x)作為**的模型，即判別模型。基本思想是有限樣本條件下建立判別函式，不考慮樣本的產生模型，直接研究**模型。典型的判別模型包括k近鄰，感知級，決策樹，支援向量機等。

10.分類問題：k近鄰法，感知機，樸素貝葉斯，決策樹，邏輯斯諦回歸，支援向量機，提公升方法，em演算法，隱馬爾科夫模型，貝葉斯網路，神經網路。

11.標註問題：輸入觀測序列，輸出乙個標記序列或狀態序列。

12.回歸問題：選擇一條函式曲線很好的擬合已知資料和**未知資料。最常用的損失函式為平方損失函式，可由最小二乘法求解。