《統計學習方法》筆記一統計學習方法概論

好久沒有更新部落格了，這次主要想整理一下之前學習過的機器學習和深度學習有關的知識。我本身數學專業基礎比較薄弱，另外主要做計算機視覺應用所以這個系列的文章並不會涉及很多數學理論知識，學習這些機器學習方法也主要是為了找工作而用，主要了解其中的思想和非常基礎的推導過程。

一、統計學習的分類

統計學習方法是基於資料構建統計模型從而對資料進行**與分析。主要分為四大類：監督學習、非監督學習、半監督學習和強化學習（由於這本書主要就是在介紹監督學習，所以我也主要以監督學習在計算機視覺上的應用主流演算法為主）。

監督學習：任務是學習乙個模型，使模型能夠對任意給定輸入，對其相應的輸出做出乙個很好的**。（這是這本書給的定義，感覺總結出來，不就是**嗎）

二、監督學習

1、輸入空間、特徵空間、輸出空間

這個很好理解我在這就給大家舉個簡單的例子：如果我們要去給一些貓狗進行分類。輸出空間就為這兩個值。假設大小為10x10x3，我們直接把整張圖傳入到模型中，那麼輸入空間就是300維的乙個向量，向量中的每乙個維度的取值為這就是輸入空間。那麼特徵空間又是什麼呢？有時候我們直接假設特徵空間等於輸入空間（上面那個例子就是），有時候特徵空間不能假設成輸入空間，還是以貓狗分類舉例，我們實驗過直接輸入原圖到模型，發現識別率很低，那麼我們做了一項工作，叫做特徵工程，我們從每張中提取了一些特徵（顏色特徵，紋理特徵，幾何特徵等等）組成了乙個新的n維的向量，將這個n維向量輸入到模型中，發現得到的結果又提高。這個向量所在的空間就是特徵空間。（大家不用糾結特徵空間，不是重點）

2、不同的**任務

這本書把**任務分為了三類：輸入變數與輸出變數均為連續變數的**問題稱為回歸問題（例如**天氣氣溫，股價）；輸出變數為有限個離散的**問題稱為分類問題（貓狗分類）；輸入輸出變數均為變數序列的**問題稱為標註問題。

3、監督學習的問題化

上圖介紹了一下監督學習的問題具體是個啥樣的，模型分為概率模型和非概率模型。

三、統計學習三要素（重點）

方法 = 模型 + 策略 + 演算法

1、模型

模型不用多說，就是條件概率分布或者決策函式（一般都是帶引數的）

模型還有一種分類方法：生成模型和判別模型。生成模型，先學習出聯合分布，再計算出條件分布。判別模型，直接學習出決策函式或者條件分布。

2、策略

有了模型的假設空間，那麼我們應該按照什麼樣的學習準則來選擇最優的模型呢？這個學習準則就是策略。這裡要先引入兩個新的概念，損失函式和風險函式。損失函式：度量模型一次**的好壞；風險函式：度量平均意義下模型**的好壞。（說白了，損失函式就是拿一次來試，風險函式就是拿很多次來試）

風險函式時損失函式的期望值（這裡監督學習都有假設x,y具有聯合概率分布p(x,y)）：

顯然我們需要找能使風險函式最小的模型，但是這裡又有乙個病態的問題了，如果能計算出聯合分布，那不就能求出邊緣分布，那不就能計算出條件分布了嗎？那就不需要計算風險函式了。但聯合分布一般都是未知的，所以風險函式又求不出來，那怎麼辦？為了解決這個問題，科學家們提出了經驗風險最小化和結構風險最小化這兩種策略。經驗風險最小化，計算訓練集損失函式值得平均值。

但是這個策略也會存在一些問題，那就是當樣本小時，不夠準確，容易產生過擬合現象。結構風險最小化：

增加乙個懲罰項，由乙個大於0 的常數乘以模型的複雜度組成。（舉個很簡單的例子，乙個平面有很多樣本點，要對這些點分類，你得到一些模型，一次函式，二次函式，三次函式....n次函式，你觀察發現次數越多擬合越好，如果按照經驗風險最小化策略，你顯然會選擇n次函式，但是這個模型因為樣本數量不夠容易過擬合，於是加入懲罰項，次數越多懲罰項越大，最終得到的模型可能就不是n次模型了）

3、演算法：如何通過策略來求得模型的引數。

《統計學習方法》筆記一統計學習方法概論

統計學習方法筆記1 統計學習方法概論

統計學習方法 1 統計學習方法概論

統計學習方法

《統計學習方法》筆記一 統計學習方法概論

統計學習方法筆記1 統計學習方法概論

統計學習方法 1 統計學習方法概論

統計學習方法

相關推薦

《統計學習方法》筆記一統計學習方法概論