機器學習基礎知識

1、誤差

學習器實際**輸出與樣本的真實輸出之間的差異稱為「誤差」

有經驗誤差（也成訓練誤差）和泛化誤差。

我們實際需要的是泛化誤差較小的學習器。

2、過擬合與欠擬合

過擬合：學習能力太過強大，把訓練樣本中的特殊特性當作一般特性導致泛化效能下降。

欠擬合：學習能力低下，不能很好的**輸出。

3、評估方法

測試集於訓練集選取盡可能互斥。

如何選取訓練集與測試集，有如下幾種方法：

1）留出法：將資料集d劃分為兩個互斥的集合，乙個為訓練集s另乙個為測試集t，d=s⋃t，s∩t=∅（訓練集與測試集的選取通常採用分層抽樣的方法，並且單次使用留出法所得到的結果不夠穩定可靠，一般要採用多次劃分重複進行實驗後取平均值作為評估結果，一般2/3—4/5的資料用於訓練）

2）交叉驗證法：將資料集d劃分為k個大小相似的互斥子集，即d=d1⋃ d2⋃d3⋃…⋃dk，di∩dj=∅（每個子集通過分層取樣得到，用k-1個子集進行訓練，餘下的子集作為測試集，訓練k次返回k次結果的均值，這種方法的極限是留一法）

3）自助法：給定包含m個樣本的資料集d，每次隨機從中挑選乙個樣本放入d』中，再將此資料放回d中，然後再進行取樣此過程重複m次，我們就得到包含m個樣本的資料集d』（樣本在m次取樣始終不被採到的概率，則這部分作為測試集。自助法在資料集較小，難以劃分訓練集時使用，但是自助法改變了初始資料的分布會帶來誤差）

4、調參

對每乙個引數選定乙個範圍和變化步長，例如在[0,0.2]範圍內以0.05為步長，則有5個候選值需要我們測試，假定演算法有3個引數每個引數有5個候選值則有個模型需要測試，工作量非常大。）

5、效能度量

模型的好壞不僅取決於演算法和資料還取決於任務需求。

回歸任務（連續值**學習任務稱為回歸，離散值**學習任務稱為分類）常用的效能度量是「均方誤差」：

1）錯誤率與精度：（簡單公式）（m個樣本中有α個分類錯誤）

精度=1-錯誤率

2）查準率、查全率

查全率與查準率是一對矛盾的度量，一般來說其中乙個較高時另乙個一般較低，只有在資料簡單時才會同時較高。

p-r曲線圖（p為縱軸，r為橫軸作圖），若乙個學習器的p-r曲線被另乙個學習器的p-r曲線完全包住，則可斷言後者優於前者。（若有交叉則在具體的查全率與查準率下分析，例如計較平衡點查準率=查全率的值，或者比較兩曲線所包圍面積的大小。）

3） f1、fβ、巨集查準率等、微查準率等

4） roc與auc

roc:受試者工作特徵曲線（縱軸真正例率，橫軸假正例率，若乙個曲線被另乙個曲線完全包住則後者優於前者，若有交叉則比較好的辦法則是比較roc曲線下的面積auc）

機器學習基礎知識

機器學習基礎知識

機器學習基礎知識

機器學習基礎知識

相關推薦