深度學習引數怎麼調優,這12個trick告訴你

2021-09-02 02:11:48 字數 795 閱讀 5016

1:優化器。機器學習訓練的目的在於更新引數,優化目標函式,常見優化器有sgd,adagrad,adadelta,adam,adamax,nadam。其中sgd和adam優化器是最為常用的兩種優化器,sgd根據每個batch的資料計算一次區域性的估計,最小化代價函式。

學習速率決定了每次步進的大小,因此我們需要選擇乙個合適的學習速率進行調優。學習速率太大會導致不收斂,速率太小收斂速度慢。因此sgd通常訓練時間更長,但是在好的初始化和學習率排程方案的情況下,結果更可靠。

adam優化器結合了adagrad善於處理稀疏梯度和rmsprop善於處理非平穩目標的優點,能夠自動調整學習速率,收斂速度更快,在複雜網路中表現更優。

2:學習速率。學習速率的設定第一次可以設定大一點的學習率加快收斂,後續慢慢調整;也可以採用動態變化學習速率的方式(比如,每一輪乘以乙個衰減係數或者根據損失的變化動態調整學習速率)。

3:dropout。資料第一次跑模型的時候可以不加dropout,後期調優的時候dropout用於防止過擬合有比較明顯的效果,特別是資料量相對較小的時候。

4:變數初始化。常見的變數初始化有零值初始化、隨機初始化、均勻分布初始值、正態分佈初始值和正交分布初始值。一般採用正態分佈或均勻分布的初始化值,有的**說正交分布的初始值能帶來更好的效果。實驗的時候可以才正態分佈和正交分布初始值做乙個嘗試。

5:訓練輪數。模型收斂即可停止迭代,一般可採用驗證集作為停止迭代的條件。如果連續幾輪模型損失都沒有相應減少,則停止迭代。

機器學習筆記 引數調優和評價指標

在機器學習應用中,我們有兩種型別的引數 乙個是從訓練集中學得的引數,例如邏輯回歸的權重 另乙個是為了使學習演算法達到最優化可調節的引數,例如邏輯回歸中的正則化引數或決策樹中的深度引數。這種可調節的引數稱為超引數 hyperparameters 我們可以用驗證曲線調節超引數中的乙個引數來優化模型。現在...

Spark機器學習 模型選擇與引數調優之交叉驗證

機器學習可以簡單的歸納為 通過資料訓練y f x 的過程,因此定義完訓練模型之後,就需要考慮如何選擇最終我們認為最優的模型。如何選擇最優的模型,就是本篇的主要內容 在 統計學習方法 這本書中,曾經講過模型驗證的方法有三種,分別是簡單的交叉驗證,s折交叉驗證,留一交叉驗證 即把全部資料按照比例分割成兩...

整合學習筆記04 模型評估與超引數調優

引數與超引數 模型引數是模型內部的配置變數,其值可以根據資料進行估計。進行 時需要引數。它引數定義了可使用的模型。引數是從資料估計或獲悉的。引數通常不由程式設計者手動設定。引數通常被儲存為學習模型的一部分。引數是機器學習演算法的關鍵,它們通常由過去的訓練資料中總結得出 模型超引數是模型外部的配置,其...