訓練模型積累

1、學習率（base_lr）：

如果學習率較小，訓練會變得更加可靠，但是優化會耗費較長的時間，因為朝向損失函式最小值的每個步長很小。如果學習率較大，訓練可能根本不會收斂，甚至會發散。權重的改變量可能非常大，使得優化越過最小值，使得損失函式變得更糟。

備註：訣竅就是從乙個低學習率開始訓練網路，並在每個批次中指數提高學習率。為每批樣本記錄學習率和訓練損失。然後，根據損失和學習率畫圖。

首先，學習率較低，損失函式值緩慢改善，然後訓練加速，直到學習速度變得過高導致損失函式值增加：訓練過程發散。

其次，觀察計算損失函式變化率（也就是損失函式關於迭代次數的導數），然後以學習率為 x 軸，以變化率為 y 軸畫圖。

參考：

語言模型訓練

模型訓練 nohup ngram count text tieba.word.merged order 4 vocab words.txt kndiscount interpolate lm tieba.word.4gram.lm 結果測試 ngram lm tieba.word.4gram.lm ...

預訓練模型

elmo elmo是一種是基於特徵的語言模型，用預訓練好的語言模型，生成更好的特徵。而elmo的主要做法是先訓練乙個完整的語言模型，再用這個語言模型去處理需要訓練的文字，生成相應的詞向量。文字分類實戰九 elmo 預訓練模型在nlp領域，使用預訓練模型或元件的監督學習任務被稱為下游任務 bert...

模型訓練技巧（待續）

批訓練 batch trainning 一次訓練一批比如50個樣本，在nn或cnn中，對一批樣本在同相同引數的網路上進行前向過程和誤差傳導過程，然後把梯度求和加更新網路引數。優點訓練速度可也更快，同批中的各樣本可並行訓練。dropout 模型訓練的時候隨機讓某些權重不更新。優點為了防止過擬合...

訓練模型積累

語言模型訓練

預訓練模型

模型訓練技巧（待續）

相關推薦