深度學習常用優化器介紹

深度學習的優化演算法從sgd-->sgdm-->nag-->adagrad-->adadelta-->adam-->nadam這樣的發展歷程，理論知識參考這裡，下面我們依次介紹tensorflow中這些優化器的實現類，官方文件。

優化器（optimizers）類的基類。這個類定義了在訓練模型的時候新增乙個操作的api。你基本上不會直接使用這個類，但是你會用到他的子模擬如gradientdescentoptimizer, adagradoptimizer, momentumoptimizer.等等這些。後面講的時候會詳細講一下gradientdescentoptimizer 這個類的一些函式，然後其他的類只會講建構函式，因為類中剩下的函式都是大同小異的。

這個類是實現梯度下降演算法的優化器。(結合理論可以看到，這個建構函式需要的乙個學習率就行了)

引數：

learning_rate:a tensor or a floating point value. 要使用的學習率

use_locking:要是true的話，就對於更新操作（update operations.）使用鎖

name:名字，可選，預設是」gradientdescent」.

作用：對於在變數列表（var_list）中的變數計算對於損失函式的梯度,這個函式返回乙個（梯度，變數）對的列表，其中梯度就是相對應變數的梯度了。這是minimize()函式的第乙個部分，

引數：

loss:待減小的值

var_list:預設是在graphkey.trainable_variables.

gate_gradients:how to gate the computation of gradients. can be gate_none, gate_op, or gate_graph.

aggregation_method:specifies the method used to combine gradient terms. valid values are defined in the class aggregationmethod.

colocate_gradients_with_ops: if true, try colocating gradients with the corresponding op.

grad_loss: optional. a tensor holding the gradient computed for loss.

實現了 adadelta演算法的優化器，可以算是下面的adagrad演算法改進版本。

引數：

learning_rate: tensor或者浮點數，學習率

rho:tensor或者浮點數. the decay rate.

epsilon:a tensor or a floating point value. a constant epsilon used to better conditioning the grad update.

use_locking:if true use locks for update operations.

name:這個操作的名字(可選)，預設是」adadelta」

實現了 adagrad 演算法的優化器。

實現了 momentum 演算法的優化器。

實現了adam演算法的優化器。

參考：

深度學習常用優化器介紹

深度學習優化器

深度學習優化器

學習日誌深度學習李巨集毅優化器介紹

深度學習常用優化器介紹

深度學習優化器

深度學習 優化器

學習日誌 深度學習 李巨集毅 優化器介紹

相關推薦

深度學習優化器

學習日誌深度學習李巨集毅優化器介紹