強化學習筆記整理

強化學習：自動進行決策並且可以做連續決策，包括agent、狀態、行動、獎勵四部分，目標是獲得最多的累計獎勵

原理：求解最優策略等價於求解最優的值函式

值函式選取策略更新的方式：

原理：通過隨機取樣的經驗平均來估計期望值

一次實驗，學習速度慢，效率不高

步驟：

agent與環境互動後得到互動序列，

通過序列計算各時刻的獎勵值

將獎勵累積到值函式中更新

根據更新的值函式更新策略

原理：結合動態規劃方法和蒙特卡羅方法，利用貝爾曼方程進行自迭代更新

原理：基於時序差分方法，採用遞進方式更新原有q值，減少估計誤差造成的影響，收斂到最優的q

異策略時序差分：動作策略是，目標策略是貪心策略

問題：現實中狀態維數很大甚至是連續的，不能遍歷所有的情況。

解決：將q矩陣q(s,a)更新變為乙個函式擬合問題：

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略，交替做兩件事策略評價，和策略改進，則可以得到最優的策略。其中，策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式，得到乙個改進的策略。value iteration...

強化學習學習筆記

強化學習任務通常用馬爾可夫決策過程來描述強化學習任務對應了四元組強化學習的目標是在環境中不斷地嘗試而學得乙個策略 policy 策略有兩種表示方法確定性策略表示為函式隨機性策略表示為概率策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中，學習的目的就是要找到能使長期累積獎...

強化學習筆記整理

強化學習筆記

強化學習筆記

強化學習 學習筆記

相關推薦

強化學習學習筆記