通俗易懂徹底理解訓練集,驗證集,測試集

2021-10-25 13:26:28 字數 963 閱讀 1010

首先顧名思義的進行理解:

訓練指參與了反向傳播,對神經網路引數本身有調整的,叫訓練。相當於書上的典型例題。做完以後必須對答案弄懂弄透的那種,主要功能是學習知識本身。

驗證指的是檢驗成果,驗證從詞義本身理解,如人臉驗證,指紋驗證,往往是可以多次進行的。相當於模擬考試,一般有很多輪模考。這些模擬考試中的模擬題有答案但沒有詳細的解法,只用來評分但不用來學習知識,為的是驗證之前的學習效果。由於題量即訓練集樣本的數目是固定的,大家拿到的題目無論是內容還是數目都一模一樣,成績的好壞在於做題的方法。所以在神經網路訓練中驗證集主要是用來調整超引數,即通過模考調整學習方法,淘汰掉那些直接背答案的不具有泛化能力的學習方法,通過模考不斷調整學習方法真正吸收知識做到舉一反三的效果。

測試集則相當於高考,只有一次,誰都不能提前知道高考題,考了多少就是多少。

驗證和測試的區別在於驗證是可以多次進行的,而測試是一錘定音的。為了高考能考好,在考前不斷地做模考來調整自己的學習方法。

由於測試集的特點在於在高考前沒有人能夠知道高考題。如果使用測試集即高考題反覆調整學習方法即超引數,最後又使用相同的題目作為最終評價標準。就相當於提前獲得了高考題,然後用高考題作為模擬題不斷調整學習方法,獲得乙個最好成績以後又去考一模一樣的題,自然不能客觀評價該學習方法的好壞。比如你通過洩題知道今年高考幾何考很難,然後你對幾何的學習就更加細緻,最後果然取得了好成績,這當然不能公正地代表你的實力。究其原因在於提前利用測試集對超引數進行了調整,而測試集是不應該被提前知道的。

該方法為一篇sci**中的具體用法。先按7:3將所有資料劃分成非測試集和測試集。然後對非測試集使用5折交叉驗證來獲得最優超引數,即將非測試集分為5份,然後分別將每1份作為驗證集,其他作為訓練集來進行訓練和驗證。在這一過程中,保持超引數一致,然後取5個模型的平均訓練loss和平均驗證loss,來衡量超引數的好壞。最後取得乙個滿意的超引數以後,使用全部非測試集作為訓練集,用該超引數訓練獲得1個模型。最後測試這一模型在測試集上的表現。對於交叉驗證法的理解可參考《通俗易懂徹底理解十倍交叉驗證法》

First集Follow集通俗易懂的講解加例項

文法 s abc a a b b first集合求法 能由非終結符號推出的所有的開頭符號或可能的 但要求這個開頭符號是終結符號。如此題a可以推導出a和 所以first a a,同理 first b s可以推導出abc,還可以推導出bc,還可以推導出c,所以first s a,b,c follow集合...

通俗易懂徹底理解十倍交叉驗證法

將所有資料分為十份,然後將每乙份作為驗證集,其他作為訓練集來進行訓練和驗證。在這一過程中,保持超引數一致,然後取10個模型的平均訓練loss和平均驗證loss,來衡量超引數的好壞。最後取得乙個滿意的超引數以後,使用全部資料作為訓練集,用該超引數訓練獲得1個模型。為了降低由於訓練集和驗證集單次劃分而導...

訓練集 驗證集和測試集的理解

相信很多小夥伴在學習機器學習的過程中時常遇到 訓練集 驗證集與測試集 三個術語,大部分人比較容易理解訓練集和測試集的區別與作用,而對驗證集和測試集的理解卻十分模糊。本文就從機器學習的一般流程進一步 三個資料集的具體作用。先來看看三種資料集的劃分 ripley,b.d對三種屬於的經典解釋 由此可見,驗...