強化學習筆記（四）

sarsa 演算法

初始化 q(s, a) 為任意值
重複以下步驟 (每個訓練回合):
初始化狀態 s
從狀態 s 中根據**於 q 的策略選擇行為 a (例如: ε-greedy ε=0.9: 90%情況取最優行為, 10% 情況隨機採取行為)
重複以下步驟 (單個回合中的每一步):
執行行為 a, 觀察獎勵 r, 下一狀態 s'
從狀態 s' 中根據**於 q 的策略選擇行為 a' (例如: ε-greedy ε=0.9: 90%情況取最優行為, 10% 情況隨機採取行為)
更新 q(s, a): q(s, a) <- q(s, a) + α * [r + γ * q(s', a') - q(s, a)] 
(α: 學習效率, 表示單次差距有多少被學習, γ: 衰減因子, q 現實: r + γ * max(q(s', a')), q 估計: q(s, a))
更新下一狀態 s' 為當前狀態 s, 更新下一狀態 a' 為當前狀態 a
直到狀態 s 全部結束

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略，交替做兩件事策略評價，和策略改進，則可以得到最優的策略。其中，策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式，得到乙個改進的策略。value iteration...

強化學習學習筆記

強化學習任務通常用馬爾可夫決策過程來描述強化學習任務對應了四元組強化學習的目標是在環境中不斷地嘗試而學得乙個策略 policy 策略有兩種表示方法確定性策略表示為函式隨機性策略表示為概率策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中，學習的目的就是要找到能使長期累積獎...

強化學習筆記（四）

強化學習筆記

強化學習筆記

強化學習 學習筆記

相關推薦

強化學習學習筆記