強化學習常用演算法總結

state-action-reward-state』-action』，簡稱sarsa，是為了建立和優化狀態-動作(state-action)的價值q**所建立的方法。首先初始化q**，根據當前的狀態和動作與環境進行互動後，得到獎勵reward以及下一步的狀態和動作後，對q**進行更新；並不斷重複這個過程。

q**更新公式為：

另外，為了保證每一步的探索性，sarsa在執行下一步時採用e-greedy演算法，即根據一定的概率估計來選擇下一步的action。sarsa的這種更新q**方式稱為「on-policy」方式，即先做出下一步的動作再回頭開更新q值。

與之對應的是「off-policy」方式，即在更新q**時，無需知道下一步的動作，而是假設下一步的動作可以取到最大的q值。基於這種「off-policy」的方法稱為q-learning演算法，其更新q**的數學表示式為：

deep q-learning，簡稱dqn演算法是為了解決傳統的**型方法在大規模強化學習任務時遇到的執行效率低，儲存量低等問題而提出的演算法，它的基本思想是採用神經網路的方式來近似代替q**。dqn本質上還是q-learning演算法，同樣為了更好的與環境進行互動，採用e-greedy演算法。

dqn的創新在於：

經驗回放(experience replay)：使用經驗池存在多條s,a,r,s』資訊，並隨機選擇一批資料作為輸入到神經網路進行訓練。經驗回放保證了樣本的關聯性和利用效率問題，即對於某一條資訊它有多次機會可以進入網路進行訓練。

q目標固定(fixed-q-target)：複製乙個和原來一樣的q網路，用來訓練目標q。q目標固定主要為了解決訓練過程的穩定性問題。

策略梯度方法是指在優化神經網路的過程中，對於策略π(s,a)的期望回報，所有的軌跡獲得的回報r與對應的軌跡發生概率p的加權和，當n足夠大時，可通過取樣n個episode求平均的方式近似表達，即：

deep deterministic policy gradient，簡稱ddpg演算法，是結合dqn演算法與actor-critic提出的求解針對連續動作空間上的學習任務的演算法。

ddpg演算法實現的流程：

強化學習常用演算法總結

強化學習演算法分類總結

強化學習強化學習基礎

強化學習框架總結

強化學習常用演算法總結

強化學習演算法分類總結

強化學習 強化學習基礎

強化學習框架總結

相關推薦

強化學習強化學習基礎