統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行**與分析的一門學科。

從資料出發，提取資料的特徵，抽象出資料的模型，發現資料中的知識，又回到對資料的分析與**中去。

統計學習關於資料的基本假設是同類資料具有一定的統計規律性，這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料，例如英文文章、網際網路網頁、資料庫中的資料等。

統計學習總的目的就是考慮學習什麼樣的模型和如何學習模型，以使模型能對資料進行準確的**與分析，同時也要考慮盡可能地提高學習效率。

實現統計學習方法的步驟如下：

（1）得到乙個有限的訓練資料集合；

（2）確定包含所有可能的模型的假設空間，即學習模型的集合；

（3）確定模型選擇的準則，即學習的策略；

（4）實現求解最優模型的演算法，即學習的演算法；

（5）通過學習方法選擇最優模型；

（6）利用學習的最優模型對新資料進行**或分析。

學習：如果乙個系統能夠通過執行某個過程改進它的效能

電腦科學由三維組成：系統、計算、資訊。

在監督學習中，將輸入與輸出所有可能取值的集合分別稱為輸入空間與輸出空間。

監督學習假設輸入與輸出的隨機變數x和y遵循聯合概率分布p（x，y）。

監督學習的目的在於學習乙個由輸入到輸出的對映，這一對映由模型來表示。換句話說，學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映的集合，這個集合就是假設空間。假設空間的確定意味著學習範圍的確定。

方法=模型+策略+演算法

在監督學習過程中，模型就是所要學習的條件概率分布或決策函式。模型的假設空間包含所有可能的條件概率分布或決策函式。

監督學習問題就變成了經驗風險或結構風險函式的最優化問題。

統計學習基於訓練資料集，根據學習策略，從假設空間中選擇最優模型，最後需要考慮用什麼樣的計算方法求解最優模型。

將學習方法對未知資料的**能力稱為泛化能力。

過擬合是指學習時選擇的模型所包含的引數過多，以致於出現這一模型對已知資料**得很好，但對未知資料**得很差的現象。

當模型的複雜度增大時，訓練誤差會逐漸減小並趨向於0；而測試誤差會先減小，達到最小值後又增大。當選擇的模型複雜度過大時，過擬合現象就會發生。

正則化項一般是模型複雜度的單調遞增函式，模型越複雜，正則化值就越大。

正則化符合奧卡姆剃刀原理。奧卡姆剃刀原理應用於模型選擇時變為以下想法：在所有可能選擇的模型中，能夠很好地解釋已知資料並且十分簡單才是最好的模型，也就是應該選擇的模型。從貝葉斯估計的角度來看，正則化對應於模型的先驗概率。可以假設複雜的模型有較小的先驗概率，簡單的模型有較大的先驗概率。

學習方法的泛化能力是指由該方法學習到的模型對未知資料的**能力。

監督學習方法又可以分為生成方法和判別方法。

生成方法由資料學習聯合概率分布p(x, y)，然後求出條件概率分布p(y|x)作為**的模型，即生成模型：

p(y|x)=p(x, y) / p(x)

模型表示了給定輸入x產生輸出y的生成關係。

生成方法的特點：生成方法可以還原出聯合概率分布p(x,y)，而判別方法則不能；生成方法的學習收斂速度更快，即當樣本容量增加的時候，學到的模型可以更快地收斂於真實模型；當存在隱變數時，仍可以用生成方法學習，此時判別方法就不能用。

判別方法由資料直接學習決策函式f(x)或者條件概率分布p(y|x)作為**的模型，即判別模型。判別方法關心的是對給定的輸入x，應該**什麼樣的輸出y。

判別方法的特點：判別方法直接學習的是條件概率p(y|x)或決策函式，直接面對**，往往學習的準確率更高；由於直接學習p(y|x)或f(x)，可以對資料進行各種程度上的抽象、定義特徵並使用特徵，因此可以簡化學習問題。

在監督學習中，當輸出變數y取有限個離散值時，**問題便成為分類問題。這時，輸入變數x可以是離散的，也可以是連續的。

標註問題的輸入是乙個觀測序列，輸出是乙個標記序列或狀態序列。

回歸用於**輸入變數（自變數）和輸出變數（因變數）之間的關係。回歸問題的學習等價於函式擬合：選擇一條函式曲線使其很好地擬合已知資料且很好地**未知資料。