強化學習（2）演算法總論

drl的基本模型：

drl演算法大框架：

大腦的執行機構-actor：輸入狀態s，輸出動作a（policy gradient演算法）

大腦的評判機構-critrc：根據回饋r（外界給的）進行調整。（q learning）

人類也是在本能和價值觀影響作用下進行行為，並且價值受經驗的影響不斷改變。

在actor-critic的框架下：有dqn、a3c、unreal等演算法提出。

第乙個提出的drl演算法，輸出動作有限情況可用。僅有critic模組。critic模組重新表示為value network。

演算法：基於價值網路，我們可以遍歷某個狀態s下各種動作的價值，然後選擇價值最大的乙個動作輸出。

重點：value network怎麼設計，每個動作的價值如何計算。怎麼更新每個動作的價值。

針對更新問題：我們要有乙個目標q（價值）（根據bellman公式迭代），和現在的q進行平方差最小化來更新引數。

a3c演算法：

1）在價值網路的基礎上，價值網路給出動作的好壞評價，乘以動作網路中整體動作概率分布，作為動作網路的損失函式。

2）actor網路的輸出有兩種：某一確定動作和所有動作的分布概率。a3c採用動作概率的方式。

3）a3c在動作價值q的基礎上，使用優勢a（advantage）作為動作的評價。優勢a是指動作a在狀態s下相對其他動作的優勢。假設狀態s的價值是v，那麼a=q-v。

具體計算上：a3c演算法調整了critic評判模組的價值網路，讓其輸出v值，然後使用多步的歷史資訊來計算動作的q值

4）還使用非同步訓練的思想

區分：我們只有在使用policy gradient時完全不使用q，僅使用reward真實值來評價，才叫做policy gradient，要不然policy gradient就需要有q網路或者v網路，就是actor critic。

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習演算法 Q learning

q learning 演算法的步驟 1 給定引數lamda和獎勵矩陣r 2 令q為0 3 for each episode 3.1 隨機選擇初始的狀態s 3.2 未達到目標狀態，則執行以下幾步 1 在當前狀態s的所有可能行為中選取乙個行為a 2 按照q s，a r s，a lamda max，其中s...

強化學習 Q learning演算法

我們以乙個迷宮尋寶的遊戲為例來看什麼是 q learning。在這個遊戲中，agent 從乙個給定的位置開始，即起始狀態。在不穿越迷宮牆壁的前提下，在每個狀態時，都可以選擇上下左右四個方向走一步，或者原地不動，上下左右這四個動作的每乙個都會將 agent 帶到網格的乙個新的單元格，即新的狀態，在迷宮...

強化學習（2） 演算法總論

強化學習 強化學習基礎

強化學習演算法 Q learning

強化學習 Q learning演算法

相關推薦

強化學習（2）演算法總論

強化學習強化學習基礎