強化學習演算法分類總結

2021-09-29 05:36:59 字數 613 閱讀 3706

知識總結:

a2c,a3c,ppo1,ppo2 :策略函式的優化(πθ(a|s))

q-learing                              :  動作值函式的優化(qθ(s,a))

ddpg,sac                       :結合策略函式和動作值函式(πθ(a|s)+qθ(s,a))

mpc(模型**控制)            : 純動態規劃

mbmf                                 : 在一些深度強化學習的標準基準任務上,基於學習到的環境進行模型**控制

exit  / alphazero                 : 演算法用這種演算法訓練深層神經網路來玩 hex /專家迭代

mbve                                 : 用假資料增加真實經驗/免模型方法的資料增強

world models                     : 全部用假資料來訓練智慧型體,所以被稱為:「在夢裡訓練」/免模型方法的資料增強

強化學習分類

在學習強化學習的過程中我們經常會遇到一些陌生的名詞分類,什麼model free,offpolicy之類的,學習的時候不明覺厲可能就一眼帶過了,但是其實這些分類的名詞其實十分有趣,掌握他們十分有助於我們加深對相關強化學習演算法的了解。舉個栗子 我們剛剛學習強化學習的時候都學習過gridworld這個...

model based 強化學習分類

model based rl這個方向的工作可以根據environment model的用法分為三類 1.作為新的資料來源 environment model 和 agent 互動產生資料,作為額外的訓練資料來源來補充演算法的訓練。2.增加決策的context資訊 在進行q值或者v值預估時,envir...

強化學習常用演算法總結

state action reward state action 簡稱sarsa,是為了建立和優化狀態 動作 state action 的價值q 所建立的方法。首先初始化q 根據當前的狀態和動作與環境進行互動後,得到獎勵reward以及下一步的狀態和動作後,對q 進行更新 並不斷重複這個過程。q 更...