《統計學習方法》緒論2

當損失函式給定時，基於損失函式的模型的訓練誤差和模型的測試誤差就成為了學習方法評估的標準。測試誤誤差反映了學習方法對未知的測試資料集的**能力，又被稱為泛化能力。

過擬合：一味的追求提高訓練資料的**能力，所選模型的複雜度則往往會比真模型更高，但會造成過擬合。為了防止過擬合，進行選出最優的模型，以便於選出誤差最小的模型，使用正則化和交叉驗證。

是結構風險最小化策略的實現。一般是模型複雜度的單調遞增函式，模型越複雜，正則化項就越大。

有l1正規化和l2正規化

! l1和l2對比

如果給定的樣本資料充足，進行模型的選擇的一種簡單方法是隨機地將資料集切分為三部分，分為訓練集、驗證集和測試集。

1.簡單交叉驗證

首先隨機地給資料分成訓練集和測試集，然後用訓練集在各種引數下進行訓練模型，從而得到不同的模型，在測試集上評價各個模型的測試誤差，選出測試誤差最小的模型。

2.s折交叉驗證

首先隨機地將已給的資料切分為s個互不相交、大小相同的子集；然後用s-1個子集的資料訓練模型，利用餘下的子集測試模型；將這一過程對可能的s種選擇重讀進行，最後選出s次評測中平均測試誤差最小的模型。

是指該方法學習得到的模型對未知資料的**能力，是學習方法本質上重要的性質，現實中採用最多的方法是通過測試誤差來評價學習方法的泛化能力。

泛化誤差上界：它是樣本容量的函式，當樣本容量增加時，泛化上界趨於0；它是假設空間容量的函式，假設空間容量大，模型就越難學，泛化誤差就越大。

1.判別模型由資料直接學習決策函式或條件概率分布作為**的模型，稱為判別模型。主要關心給定輸入x，應該**什麼樣的輸出y，典型例子有：k近鄰、感知機、決策樹、邏輯斯蒂回歸、最大熵模型、支援向量機、提公升方法和條件隨機場等。

2.生成模型：由資料學習聯合概率分布，然後求出條件概率分布p(x|y)作為**的模型。因為模型表示了給定x產生輸出y的生成關係，典型的有樸素貝葉斯、隱馬爾可夫模型

精確率、召回率、覆蓋率

tp-將正類**為正類數

fn-將正類**為負類數

fp-將負類**為正類數

tn-將負類**為負類數

精確率：tp/(tp+fp)

召回率：tp/(tp+fn)

精確率和召回率的調和均值:2tp/(2tp+fp+fn)

標註問題在資訊提取、自然語言處理等領域被廣泛應用，是這些領域的基本問題。例如，在自然語言處理中的詞性標註就是乙個典型的標註問題，給定乙個由單詞組成的句子，對這個句子中的每乙個單詞進行詞性標註，即對乙個單詞序列**其對應的詞性標記序列。

常見的有：隱馬爾可夫模型、條件隨機場

回歸模型正是表示從輸入變數到輸出變數之間對映的函式。回歸學習常見的損失函式是平方損失函式，在此情況下，回歸問題可以由著名的最小二乘法求解。

《統計學習方法》 緒論2