統計學習方法統計學習的分類

首先簡單介紹一下統計學習：

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行**和分析的一門學科。其可以理解為計算機系統通過運用資料及統計方法提高系統效能的機器學習。現在我們談論的機器學習，往往就是統計機器學習。

下面進入正文

概率模型和非概率模型的本質區別就是其內在結構是否可以表示成聯合概率分布的形式。如馬爾科夫鏈為概率模型，神經網路為非概率模型。

其判別的依據y（x）是否是線性函式。線性模型可以是用曲線擬合樣本，但是分類的決策邊界一定是直線的，例如logistics模型區分是否為線性模型，主要是看乙個乘法式子中自變數x前的係數w，如果w只影響乙個x，那麼此模型為線性模型。或者判斷決策邊界是否是線性的。

依據模型訓練所得引數維度是否固定，固定為引數化（如k-means），不固定為非引數化（如svm）。一般來說，比較簡單的問題為引數化，困難的為非引數化。

貝葉斯和核方法。

此處要區分貝葉斯方法和極大似然估計。極大似然估計為頻率學派貝葉斯方法為貝葉斯學派。頻率學派認為引數固定，於是用已知資料去似然。貝葉斯學派認為引數也服從概率分布，且要根據先驗知識。

例如：一種癌症，得了這個癌症的人被檢測出為陽性的機率為90%，未得這種癌症的人被檢測出陰性的機率為90%，而人群中得這種癌症的機率為1%，乙個人被檢測出陽性，問這個人得癌症的機率為多少？

假設 a 表示事件「測出陽性」, b1 表示「得癌症」,b2 表示「未得癌症」，那麼:

再來看一下聯合概率：人群中檢測為陽性並且得癌症的機率：

檢測為陽性但未得癌症的概率：

下面開始貝葉斯的功力所在了：「怎樣求出在檢測出陽性的前提下得癌症的概率呢？」根據上面的結果，

這個問題中：人群中患癌症與否的概率是先驗概率，先驗概率是已知的，根據觀測值：是否為陽性，來判斷得癌症的後驗概率。（此處示例引用鏈結

統計學習方法 統計學習的分類