RL實踐1 動態規劃值迭代

參考自葉強《強化學習》第三講，方格世界—— 使用動態規劃求解隨機策略

動態規劃的使用條件時mdp已知，在簡單遊戲中，這個條件時顯然成立的

使用value iteration的方法求解每個狀態的價值函式，迭代收斂之後，對應最優策略生成。

注意：動態規劃和強化學習都用的價值函式，區別在於

從方格狀態走到終止狀態（灰色標記）

值得注意的是，知乎原版的注釋是錯誤的，採用的是同步更新

有三個trick可以加快運算速度（對於大規模問題）

prioritised sweeping：state的影響力排序

real-time dp：遍歷過的才更新

# 狀態集合
states = [i for i in range(16)]
# 價值集合
values = [0 for _ in range(16)]
# 動作集：
actions = ["n", "e", "s", "w"]
# 動作字典：
ds_actions = 
# 衰減率
gamma = 1.00
# 定義mdp
def nextstate(s, a):
next_state = s
if (s%4 == 0 and a == "w") or (s<4 and a == "n") or \
((s+1)%4 == 0 and a == "e") or (s > 11 and a == "s"):
pass
else:
ds = ds_actions[a]
next_state = s + ds
return next_state
# 定義獎勵
def rewardof(s):
return 0 if s in [0, 15] else -1
# 判斷是否結束
def isterminatestate(s):
return s in [0, 15]
# 獲取所有可能的next state 集合
def getsuccessors(s):
successors = 
if isterminatestate(s):
return successors
for a in actions:
next_state = nextstate(s, a)
# if s != next_state:
return successors
# 更新當前位置的價值函式
def updatevalue(s):
sucessors = getsuccessors(s)
newvalue = 0 # values[s]
num = 4 # len(successors)
reward = rewardof(s)
for next_state in sucessors:
newvalue += 1.00 / num * (reward + gamma * values[next_state])
return newvalue
# 列印所有狀態對應價值函式
def printvalue(v):
for i in range(16):
print(''.format(v[i]), end=" ")
if (i + 1) % 4 == 0:
print("")
print()
# 一次迭代
# 這裡採用的是同步更新，不是非同步更新。建立了newvalues陣列，遍歷過states後，統一更新global values
def performoneiteration():
newvalues = [0 for _ in range(16)]
for s in states:
newvalues[s] = updatevalue(s)
global values
values = newvalues
printvalue(values)

# 主函式
def main():
max_iterate_times = 160
cur_iterate_times = 0
while cur_iterate_times <= max_iterate_times:
print("iterate no.".format(cur_iterate_times))
performoneiteration()
cur_iterate_times += 1
printvalue(values)

if __name__ == '__main__':
main()

iterate no.0 0.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 -1.00 0.00 iterate no.1 0.00 -1.75 -2.00 -2.00 -1.75 -2.00 -2.00 -2.00 -2.00 -2.00 -2.00 -1.75 -2.00 -2.00 -1.75 0.00 ...iterate no.158 0.00 -14.00 -20.00 -22.00 -14.00 -18.00 -20.00 -20.00 -20.00 -20.00 -18.00 -14.00 -22.00 -20.00 -14.00 0.00 iterate no.159 0.00 -14.00 -20.00 -22.00 -14.00 -18.00 -20.00 -20.00 -20.00 -20.00 -18.00 -14.00 -22.00 -20.00 -14.00 0.00 iterate no.160 0.00 -14.00 -20.00 -22.00 -14.00 -18.00 -20.00 -20.00 -20.00 -20.00 -18.00 -14.00 -22.00 -20.00 -14.00 0.00 0.00 -14.00 -20.00 -22.00 -14.00 -18.00 -20.00 -20.00 -20.00 -20.00 -18.00 -14.00 -22.00 -20.00 -14.00 0.00

RL實踐1 動態規劃值迭代

動態規劃迭代與遞迴

DP動態規劃遞迴迭代

動態規劃1

RL實踐1 動態規劃值迭代

動態規劃 迭代與遞迴

DP動態規劃 遞迴迭代

動態規劃1

相關推薦

動態規劃迭代與遞迴

DP動態規劃遞迴迭代