基於強化學習的放置類遊戲

2021-10-09 03:49:25 字數 451 閱讀 8592

心理基礎:

遊戲特定:

相關資料

emergent tool use from multi-agent autocurricula

實施方案

角色屬性2:移動速度mov_spd,每秒移動的格仔數

角色技能1:近程攻擊

角色技能:遠端攻擊

角色每秒可以進行一次操作:移動或者攻擊

角色1屬性:近程攻擊,移動速度1

角色2屬性:遠端攻擊,移動速度0.5

角色3屬性:沒有攻擊技能,移動速度5

技能和移動都有對應的序列幀動畫

角色不能移動到水域的格仔上

乙個格仔只能有乙個角色

玩家可以付費增加某種角色的數量,數量越多,這個角色的學習速度越快。系統會自動保持場景裡面每種角色一定的數量。

玩家可以付費修改地圖格仔的屬性

遊戲顯示每個角色的平均生存時間

基於模型的強化學習

1 在model based rl裡,雖然學習mdp模型可以提高強化學習的效率,但是如果模型誤差較大可能導致學不到較好的策略,這個問題一般怎麼解決?如果模型學習的不夠精準,那就只能用很短很短的rollout來做planning。例如q planning就是1步的rollout,這樣並不能特別高的提公...

RL(九)基於策略的強化學習

前面的演算法都是基於價值來算的,但是當處理連續動作的問題時,就顯得力不從心了,因為我們需要求的q錶太大,根本無法滿足我們的需要。前面我們在演算法分類的時候也講過,我們可以按基於價值和基於策略的方式來給rl分類,所以這篇部落格就是用基於策略演算法來求解強化學習問題。值函式近似法 在值函式近似法中,動作...

《強化學習》基於取樣迭代優化agent

前面介紹了三種取樣求均值的演算法 mc td td lamda 下面我們基於這幾種方法來迭代優化agent 傳統的強化學習演算法 已經知道完整mdp 使用價值函式v s 沒有給出完整mdp 使用價值函式q s,a 可見我們的目標就是確定下來最優策略和最優價值函式 有完整mdp 用dp解決複雜度較低 ...