統計學習方法總結

十種主要的統計學習方法特點總結

適用問題

分類問題是從例項的特徵向量到類標記的**問題；標註問題是從觀測序列到標記序列(或狀態序列)的**問題。可以認為分類問題是標註問題的特殊情況。

分類問題中可能的**結果是二類或多類；而標註問題中可能的**結果是所有的標記序列，其數目是指數級的。

em演算法是含有隱變數的概率模型的一般學習方法，可以用於生成模型的非監督學習。

感知機、k近鄰法、樸素貝葉斯法、決策樹是簡單的分類方法，具有模型直觀、方法簡單、實現容易等特點；

邏輯斯諦回歸與最大熵模型、支援向量機、提公升方法是更複雜但更有效的分類方法，往往分類準確率更高；

隱馬爾可夫模型、條件隨機場是主要的標註方法。通常條拌隨機場的標註準確率更高。

模型

分類問題與標註問題的**模型都可以認為是表示從輸入空間到輸出空間的對映.它們可以寫成條件概率分布p(y|x)或決策函式y=f(x)的形式。前者表示給定輸入條件下輸出的概率模型，後者表示輸入到輸出的非概率模型。

樸素貝葉斯法、隱馬爾可夫模型是概率模型；感知機、k近鄰法、支援向量機、提公升方法是非概率模型；而決策樹、邏輯斯諦回歸與最大熵模型、條件隨機場既可以看作是概率模型，又可以看作是非概率模型。

直接學習條件概率分布p(y|x)或決策函式y=f(x)的方法為判別方法，對應的模型是判別模型：感知機、k近鄰法、決策樹、邏輯斯諦回歸與最大熵模型、支援向量機、提公升方法、條件隨機場是判別方法。

首先學習聯合概率分布p(x,y)，從而求得條件概率分布p(y|x)的方法是生成方法，對應的模型是生成模型：樸素貝葉斯法、隱馬爾可夫模型是生成方法。

決策樹是定義在一般的特徵空間上的，可以含有連續變數或離散變數。感知機、支援向量機、k近鄰法的特徵空間是歐氏空間(更一般地，是希爾伯特空間)。提公升方法的模型是弱分類器的線性組合，弱分類器的特徵空間就是提公升方法模型的特徵空間。

感知機模型是線性模型；而邏輯斯諦回歸與最大熵模型、條件隨機場是對數線性模型；k近鄰法、決策樹、支援向量機(包含核函式)、提公升方法使用的是非線性模型。

學習策略

在二類分類的監督學習中，支援向量機、邏輯斯諦回歸與最大熵模型、提公升方法各自使用合頁損失函式、邏輯斯諦損失函式、指數損失函式，分別寫為

這3種損失函式都是0-1損失函式的上界，具有相似的形狀。

可以認為支援向量機、邏輯斯諦回歸與最大熵模型、提公升方法使用不同的**損失函式(surrogateloas punotion)表示分類的損失，定義經驗風險或結構風險函式，實現二類分類學習任務。學習的策略是優化以下結構風險函式：

第1項為經驗風險(經驗損失)，第2項為正則化項，l為損失函式，j(f)為模型的複雜度。

支援向量機用l2範數表示模型的複雜度。原始的邏輯斯諦回歸與最大熵模型沒有正則化項，可以給它們加上l2範數正則化項。提公升方法沒有顯式的正則化項，通常通過早停止(early stopping)的方法達到正則化的效果。

概率模型的學習可以形式化為極大似然估計或貝葉斯估計的極大後驗概率估計。學習的策略是極小化對數似然損失或極小化正則化的對數似然損失。極大後驗概率估計時，正則化項是先驗概率的負對數。

決策樹學習的策略是正則化的極大似然估計，損失函式是對數似然損失，正則化項是決策樹的複雜度。

邏輯斯諦回歸與最大熵模型、條件隨機場的學習策略既可以看成是極大似然估計(或正則化的極大似然估計)，又可以看成是極小化邏輯斯諦損失(或正則化的邏輯斯諦損失)。

樸素貝葉斯模型、隱馬爾可夫模型的非監督學習也是極大似然估計或極大後驗概率估計，但這時模型含有隱變數。

學習演算法

統計學習的問題有了具體的形式以後，就變成了最優化問題。

樸素貝葉斯法與隱馬爾可夫模型的監督學習，最優解即極大似然估計值，可以由概率計算公式直接計算。

感知機、邏輯斯諦回歸與最大熵模型、條件隨機場的學習利用梯度下降法、擬牛頓法等一般的無約束最優化問題的解法。

支援向量機學習，可以解凸二次規劃的對偶問題。有序列最小最優化演算法等方法。

決策樹學習是基於啟發式演算法的典型例子。可以認為特徵選擇、生成、剪枝是啟發式地進行正則化的極大似然估計。

提公升方法利用學習的模型是加法模型、損失函式是指數損失函式的特點，啟發式地從前向後逐步學習模型，以達到逼近優化目標函式的目的。

em演算法是一種迭代的求解含隱變數概率模型引數的方法，它的收斂性可以保證，但是不能保證收斂到全域性最優。

支援向量機學習、邏輯斯諦回歸與最大熵模型學習、條件隨機場學習是凸優化問題，全域性最優解保證存在。而其他學習問題則不是凸優化問題。