深度學習中的超引數優化

構建深度學習模型時，你必須做出許多看似隨意的決定：應該堆疊多少層？每層包含多少個單元或過濾器？啟用函式應該使用relu還是其他函式？在某一層之後是否應該使用batchnormalization？應該使用多大的dropout比率？還有很多，這些在架構層面的引數叫做超引數（hyperparameter），以便將其與模型引數區分開來，後者通過反向傳播進行訓練。

在實踐中，經驗豐富的實戰者憑著直覺能夠判斷上述選擇哪些可行、哪些不可行。但是調節超引數並沒有正式成文的規則。如果想要在某項任務上達到最佳效能，就不能滿足於乙個容易犯錯的人隨意做出的選擇。即使你擁有很好的直覺，最初的選擇也幾乎不可能是最優的。

因此，我們需要制定乙個原則，系統性的自動探索可能的決策空間。超引數優化過程通常如下所示。

1）選擇一組超引數（自動選擇）。

2）構建相應的模型。

3）將模型在訓練資料上擬合，並衡量其在驗證資料上的最終效能。

4）選擇要嘗試的下一組超引數（自動選擇）。

5）重複上述過程。

6）最後，衡量模型在測試資料上的效能。

訓練模型權重相對簡單：在小批量資料上計算損失函式，然後用反向傳播演算法讓權重向正確的方向移動。與此相反，更新超引數則非常具有挑戰性。

1）計算反饋訊號（這組超引數在這個任務上是否得到了乙個高效能的模型）的計算代價可能非常高，他需要在資料集上建立乙個新模型並從頭開始訓練。

2）超引數空間通常由許多離散的決定組成，因而既不是連續的，也不是可微的。因此，你通常不能在超引數空間中做梯度下降。相反，你必須依賴不使用梯度的優化方法，而這些方法的效率比梯度下降要低很多。

深度學習中的超引數優化

深度學習網路優化與超引數選擇

引數學習深度學習超引數調整

深度學習（四） knn 超引數

深度學習中的超引數優化

深度學習網路優化與超引數選擇

引數學習 深度學習超引數調整

深度學習（四） knn 超引數

相關推薦

引數學習深度學習超引數調整