強化學習 馬爾克夫決策過程和貝爾曼方程

2021-10-07 14:22:53 字數 724 閱讀 4157

a(finite) set of actions 動作空間 a(search,recharge,wait)

a(finite) set of states 電池狀態 s high low

a(finite) set of rewards 獎勵 r

one-step dynamics of the environment 一步動態特性 (動態特性函式p)

a discount rate 折扣率 伽馬 【0-1】 越大對未來的獎勵越關注

階段任務中 狀態空間為所有狀態集合

連續任務中 狀態空間為非終止狀態集合

某些狀態下只能採取部分動作a(s)

前提條件:環境返回獎勵不會影響智慧型體動作的選擇(沒有策略)

一步動態特性:

構建 狀態-動作 轉移概率圖,根據概率圖 當前狀態和智慧型體選擇的動作,環境可以判斷出下乙個狀態並返回獎勵(不考慮之前智慧型體採取的動作)

open ai table of environments

值函式(獎勵):是狀態(或者狀態-動作的函式),描述的是該狀態下智慧型體有多好

策略:狀態到每個動作的選擇概率之間的對映

策略隨著獎勵(經驗)發生變化

貝爾曼方程是動態規劃達到最佳化的必要條件,解決的是多階段決策問題(動態規劃)。某一階段的最優解通過貝爾曼方程轉換為下一階段的最優解。初始狀態的最優決策可以有最終狀態的最優決策(易解)逐步迭代求解

最優策略:每個狀態的值函式都比其他策略的值大

強化學習 馬爾可夫決策過程

參考 推薦 一 馬爾可夫性 agent與environment的互動過程可以表示為乙個序列 馬爾可夫性 下乙個狀態的產生只和上乙個狀態有關,而與更之前的狀態無關。即 p left s s 1,s 2,s t right p left s s t right 這個條件雖然在某些問題上有些理想,但是極大...

《強化學習》馬爾可夫決策過程MDP

狀態自動機 mdp和nfa唯一相似的地方就是它們都有狀態轉移,拋掉這一點兩者就八竿子打不著了。我們用貝爾曼期望方程求解在某個給定策略 和環境env下的價值函式 具體解法是 下面是對於v s 的解法 從而對於每乙個特定的 都能得到其對應的價值函式。所以我們可以有一組的 但是我們解決問題的目標是拿到最優...

強化學習 馬爾科夫決策

ps 本書的符號標記基本嚴格遵守相關數學領域的慣例,對於變數,大寫字母表示隨機變數,小寫字母表示普通變數 對於確定性函式而言均使用小寫字母表示函式名及引數名 關於隨機變數的運算通常也用大寫字母表示如期望。強化學習馬爾科夫鏈決策過程 mdp 這與馬爾科夫鏈不同,也隱馬爾科夫鏈不同,mdp模型增加了中間...