強化學習筆記(四)

2021-10-19 15:08:13 字數 537 閱讀 3103

sarsa 演算法

初始化 q(s, a) 為任意值

重複以下步驟 (每個訓練回合):

初始化狀態 s

從狀態 s 中根據**於 q 的策略選擇行為 a (例如: ε-greedy ε=0.9: 90%情況取最優行為, 10% 情況隨機採取行為)

重複以下步驟 (單個回合中的每一步):

執行行為 a, 觀察獎勵 r, 下一狀態 s'

從狀態 s' 中根據**於 q 的策略選擇行為 a' (例如: ε-greedy ε=0.9: 90%情況取最優行為, 10% 情況隨機採取行為)

更新 q(s, a): q(s, a) <- q(s, a) + α * [r + γ * q(s', a') - q(s, a)]

(α: 學習效率, 表示單次差距有多少被學習, γ: 衰減因子, q 現實: r + γ * max(q(s', a')), q 估計: q(s, a))

更新下一狀態 s' 為當前狀態 s, 更新下一狀態 a' 為當前狀態 a

直到狀態 s 全部結束

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...

強化學習 學習筆記

強化學習任務通常用馬爾可夫決策過程來描述 強化學習任務對應了四元組 強化學習的目標是在環境中不斷地嘗試而學得乙個 策略 policy 策略有兩種表示方法 確定性策略 表示為函式 隨機性策略 表示為概率 策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中,學習的目的就是要找到能使長期累積獎...