沒有GPU時,DNN超引數優化

2021-10-23 11:47:52 字數 416 閱讀 6352

在沒有gpu時,dnn的訓練是非常耗時的。此時,需在可忍受的時間內尋找到較好的超引數:

步驟1:完成模型構建的**後,去除正則化,檢查損失函式值

步驟2:在小資料集上訓練網路,使其實現「過擬合」(如正確率達到100%),以驗證模型的可行性

步驟3:在正常的資料集上,尋找相對較優的學習率,以降低損失函式值

步驟4:在粗網格上,訓練網路,訓練次數設定1-5次,尋找超引數

步驟5:重新定義網格,增加訓練次數訓練網路

步驟6:觀察損失函式

步驟7:重複步驟5-7,至尋找到較優的超引數

cs231n高階!斯坦福李飛飛**密西根大學老師《深度學習與計算機視覺》第11課

網路優化與超引數選擇

可以認為與網路中的可訓練引數成正比。網路中的神經單元數越多,層數越多,神經網路的擬合能力越強。但是訓練速度 難度越大,越容易產生過擬合。所謂超引數,也就是搭建神經網路中,需要我們自己如選擇 不是通過梯度下降演算法去優化 的那些引數。比如,中間層的神經元個數 學習速率。一種顯然的想法是增大網路容量 1...

優化秒殺搶購時的超發

高併發下的資料安全 我們知道在多執行緒寫入同乙個檔案的時候,會存現 執行緒安全 的問題 多個執行緒同時執行同一段 如果每次執行結果和單執行緒執行的結果是一樣的,結果和預期相同,就是執行緒安全的 如果是mysql資料庫,可以使用它自帶的鎖機制很好的解決問題,但是,在大規模併發的場景中,是不推薦使用my...

深度學習中的超引數優化

構建深度學習模型時,你必須做出許多看似隨意的決定 應該堆疊多少層?每層包含多少個單元或過濾器?啟用函式應該使用relu還是其他函式?在某一層之後是否應該使用batchnormalization?應該使用多大的dropout比率?還有很多,這些在架構層面的引數叫做超引數 hyperparameter ...