學習理論 模型診斷與調參

2021-08-28 05:12:58 字數 1060 閱讀 6797

1、基本概念

2、pac理論

3、vc維

4、極大似然,最大後驗概率,貝葉斯估計

5、模型評估與評價指標

6、模型診斷調參​ 1、資料集準備

​ 2、特徵工程

​ 3、模型選擇

​ 4、模型評價

在我們開發過程中,我們往往都是摸著石頭過河,我們不知道資料應該是什麼樣子,不知道資料的特徵,資料集多少合適,如何進行特徵工程,選擇什麼樣的模型最合適,最後我們採用什麼指標來評價模型。對於一系列模糊的過程,我們很難確定各個模組該如何處理,如何優化,所以我們需要快速搭建乙個模型,通過結果去分析如何優化問題。

​ 可以說,決定模型最後效能的就是偏差和方差,如果模型在測試集上很好,在訓練集上不好,那麼很有可能是模型方差過大(模型過擬合,前提是訓練集和測試集分布大致一致)。如果模型在訓練集上不好,那麼意味著模型偏差過大(模型欠擬合)。針對這兩種情況,採用控制變數法去調優模型。

一般而言,在模型調優的過程有如下選擇:

1)更多的資料集

2)特徵工程

3)模型引數調優

4)優化演算法調優

5)換模型,換優化演算法

6)資料集分析

如何定位出模型的問題,就需要分析模型在訓練集和測試集上誤差來大致確定是偏差問題還是方差問題。

偏差問題:

​ 1)優化演算法:是否收斂,學習率是否合適,迭代次數是否合適,是否需要換優化演算法

​ 2)模型:模型引數選擇是否合適,模型的表示能力是否更強,是否需要換模型

​ 3)特徵工程:特徵選擇和特徵提取是否做的不夠

方差問題:

​ 1)測試集和訓練集分布是否一致

​ 2)模型是否加強正則項,調優模型防止過擬合的引數

​ 3)優化演算法是否可以提前收斂

​ 4)特徵工程

​ 5)增加訓練資料集

其中最難是不同的模型有不同的調優方式,尤其是引數多的模型,一般採用控制變數的方法固定其他不變來調整其中乙個來調優。對於不同的模型,還有特殊的處理技巧,比如深度學習,各種超參,技術都會影響效能。另外,特徵工程是乙個覺得模型效能上限的技術,要想得到乙個很好的模型,後期大量時間花費在特徵工程上。

機器學習理論 GMM模型

李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...

機器學習 模型調參

第八課 機器學習簡單介紹 第13節 模型調參方法 引入包 import pandas as pd import numpy as np from sklearn.model selection import train test split 準備資料集 載入資料 iris data pd.read ...

超速學習理論與方法實踐

超速學習理論與方法實踐 在知乎看到了這樣乙個問題 怎樣看待 12 個月內自學完成 4 年麻省理工學院電腦科學的 33 門課程的 scott h.young 所謂的超速學習理論和方法 費曼技巧 以及背後 get more from life 的理念?很久之前就讀過scott young的 如何高效學習...