機器學習模型評估與選擇

錯誤率：分類錯誤的樣本數佔樣本總數的比例

精度 = 1-錯誤率

誤差：學習器的實際**輸出與樣本的真是輸出之間的差異成為「誤差」

訓練器在訓練集上的誤差為訓練誤差；在新樣本的誤差稱為泛化誤差

過擬合: 學習器把訓練樣本學的太好了，已經把訓練樣本自身的一些特點當作了所有潛在樣本都會有的一般性質

1.留出法

直接將資料集d劃分為兩個互斥的集合，其中乙個集合作為訓練集s，另乙個作為測試集t

2.交叉驗證法

將資料劃分為k個大小相似的互斥子集，即d=d1 u d2 …

每個子集di 都盡可能保持資料分布的一致性

每次用k-1個子集的並集作為訓練集，餘下的子集作為測試集，這樣可以獲得k組訓練/測試集，進行k此訓練和測試

k的取值直接影響交叉驗證發的穩定性和保真性，通常取10

以自助取樣法為基礎，給定包含m個樣本的資料集d，對他進行取樣產生資料集d』每次隨機從d中挑選乙個樣本，將其拷貝放入d『中，然後樣本放回d。該過程持續m次，就得到了包含m個樣本的資料集d』

roc與auc

roc：（受試者工作特徵）根據**結果對樣例進行排序，按順序逐個把樣本作為正例進行**，每次計算出兩個重要量的值，分別以其橫縱座標作圖，就得到了roc曲線。

1.擬合接近目標的遠近程度。過擬合學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。欠擬合學習能力低下導致欠擬合。學習能力低下，擁有長髮的都是女生。2.評估方法目標所選模型的泛化誤差最小一留出法 step 1 將資料集d 互斥的分成訓練集s和測試集t，d sut。step ...

1 經驗誤差和過擬合錯誤率分類錯誤的樣本數佔樣本總數的比例精度 1 錯誤率誤差分為訓練誤差或稱經驗誤差和泛化誤差訓練誤差在訓練集上的誤差泛化誤差在新樣本上的誤差機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得太好了的時候，很可能已經把訓練樣本自身的一些特點當做...

第二章模型評估與選擇一概覽對於同一資料集而言，給定不同的演算法，會提取不同的模型，甚至對於同一演算法給定不同的引數，也會得到不同的模型，選擇最佳的模型的過程稱為模型選擇。模型選擇會遵循一定的標準，首先需要將資料集分成若干部分，一部分用於訓練模型，一部分用於測試模型的泛化能力，對於測試的結果給...