機器學習實驗方法與原理

總共n個資料，假設為2，每次訓練集大小為n/2，每次訓練的資料量會偏小，取平均值後，由於每次訓練的資料量比較小，最終學習輸出的模型會不能很好的代表樣本的分布（欠擬合），換句話說就是偏差大。或者這麼理解，由於k折交叉驗證是使用k次訓練的結果取平均值來進行**的，如果只有兩折交叉驗證，每次對訓練集的**結果是使用一半的資料訓練一半的資料**，當資料集少時如果只針對本資料集**，那麼偏差會很小，但是該模型對兩個不同的資料集進行了擬合，那麼最後對同乙個資料集的**，乙個會比較好，乙個會比較差，平均以後的偏差就會比較大。相應的，由於擬合的不充分，方差就會比較小。

當k值很大時，假設為n折，那麼每次訓練集的大小為n-1，幾乎等於原始資料集的大小了，可以更好地學習到樣本的整體分布，這種情況下模型的偏差會偏小，但是方差偏大。可以這麼理解，n折交叉驗證那麼訓練資料就會有n份，每份之間的資料差異並不大，所以他們擬合出的平均值結果對訓練資料集進行**，偏差會比較小，但是由於對於給定的資料集充分地進行了學習，導致整體的方差會偏大。