強化學習方法分類

model-based：先理解真實世界是怎樣的，並建立乙個模型來模擬現實世界的反饋，通過想象來預判新下來將要發生的所有情況，然後選擇這些想象情況中最好的那種，並依據這種情況來採取下一步的策略。

model-free：不依賴環境，不嘗試去理解環境，agent會根據現實環境的反饋採取下一步的動作，一步一步等待真實世界的反饋，再根據反饋採取下一步行動。

■例如q-learning，sarsa，policy gradients。

monte-carlo update：遊戲開始後，要等待遊戲結束，然後再總結這一回合中的所有轉折點，再更新行為準則。

■例如：policy gradients，mc

temporal-difference update：在遊戲進行中每一步都在更新，不用等待遊戲的結束，這樣就能邊玩邊學習了。

例如：q-learning，sarsa，公升級版的pg.

policy based：目標是找到最優策略，通過感官分析所處的環境，直接輸出下一步要繫取的各種動作的概率，然後根據概率採取行動。

例如：policy gradients

value based：目標是找到最優獎勵總和，輸出的是所有動作的價值，根據最**值來選動作，這類方法不能選取連續的動作。

■例如：q-learning，sarsa

還有一種名為actor-critic的演算法：它結合了這兩類方法的優勢之處。

on-policy：必須agent「本人」在場，並且一定是agent邊玩邊學習，例如sarsa，sarsa（λ），trpo。

off-policy：可以選擇自己玩，也可以選擇看著別人玩，通過看別人玩來學習別人的行為準則，例如q-learning，dqn，deterministic policy gradient。

on-policy和off-policy本質區別在於：更新q值的時候是使用既定策略還是使用新的策略。

在有限次數下，到底是堅持在你認為中獎概率高的拉桿上投入更多的次數（exploit）呢？

還是去試試別的拉桿（explore）呢？

強化學習分類

在學習強化學習的過程中我們經常會遇到一些陌生的名詞分類，什麼model free，offpolicy之類的，學習的時候不明覺厲可能就一眼帶過了，但是其實這些分類的名詞其實十分有趣，掌握他們十分有助於我們加深對相關強化學習演算法的了解。舉個栗子我們剛剛學習強化學習的時候都學習過gridworld這個...

model based 強化學習分類

model based rl這個方向的工作可以根據environment model的用法分為三類 1.作為新的資料來源 environment model 和 agent 互動產生資料，作為額外的訓練資料來源來補充演算法的訓練。2.增加決策的context資訊在進行q值或者v值預估時，envir...

2019 5 13 基於模型的強化學習方法

注寫作四項工作看懂一篇工作二提出難點問題，提出新概念。例多光譜注意力機制工作三修改演算法，網路結構損失函式步數基於模型的的強化學習是比無模型難很多的問題。一狀態轉移概率 1 馬氏決策過程可以利用五元組 s,a,p,r,y 來描述。根據狀態轉移概率是否已知，可以分為基於模型和...

強化學習方法分類

強化學習分類

model based 強化學習分類

2019 5 13 基於模型的強化學習方法

相關推薦