資料集的拆分

2021-09-05 09:50:43 字數 437 閱讀 8512

零、概念

分層取樣:保留類別比例的取樣

一、留出法

拆成兩個互斥的集合,乙個訓練集s,乙個測試集t

缺點:t小**估結果不夠穩定準確;s小時,訓練時的資料s與s+d差別較大,訓練出來的模型與用s+d訓練出來的模型差別較大,降低了評估結果的保真性

二、交叉驗證法

k折交叉驗證的k個測試結果取平均作為最終結果  

留一法是對m個樣本進行m折的特例,優點是不用考慮分層取樣,缺點是開銷大

三、自助法

有放回隨機取樣,直到取樣到的資料與原始資料集一樣大,約有36.8%的資料未被取樣到,這些資料作為測試資料/袋外資料,測試結果為包外估計(out of bag estimate)

lim(1-1/m)^m=1/e≈0.368

優點:訓練樣本規模可以達到給定的資料集大小

缺點:改變初始化資料集的分布

機器學習 KNN演算法( 資料集的拆分)

注意 不能簡單將x的前n個資料集作為訓練資料集,因為目標值y是排好序的,如 0,0,1,1,2,2,只能取到一定值。方法 先對原始資料進行亂序化處理,再取前n個作為訓練資料集。亂序化過程中,x和y是分離的,但是又是一一對應的,所以不能將其分開隨機化,會丟失對應關係。方式一 可以先將x和y合併成乙個矩...

機器學習筆記3 拆分資料集和訓練集

拆分資料集和訓練集 from sklearn import cross validation for version 0.17 for version 0.18 from sklearn.model selection import train test split set the random s...

資料拆分之 垂直拆分 and 水平拆分

對資料進行拆分了。有垂直和水平兩種。垂直拆分比較簡單,也就是本來乙個資料庫,資料量大之後,從業務角度進行拆分多個庫。如下圖,獨立的拆分出訂單庫和使用者庫。水平拆分的概念,是同乙個業務資料量大之後,進行水平拆分。分庫分表方案 分庫分表方案最主要就是路由演算法,把路由的key按照指定的演算法進行路由存放...