馬爾科夫過程,馬爾科夫獎勵過程和馬爾科夫決策過程

2021-10-10 04:47:47 字數 2192 閱讀 6421

馬爾科夫決策過程是強化學習中的乙個基本框架,用來表示agent與環境的互動過程:agent觀測得到環境的當前狀態之後,採取動作,環境進入下乙個狀態,agent又得到下乙個環境狀態的資訊,形成乙個迴圈迴路。

在理解馬爾科夫決策過程之前,首先要理解馬爾科夫、馬爾科夫獎勵過程。

1. 馬爾科夫過程

滿足馬爾科夫性質的狀態轉換過程是馬爾科夫過程;

什麼是馬爾科夫性質呢?

在環境狀態的轉換過程中,環境的下乙個狀態只取決於當前狀態,和歷史狀態無關,即滿足馬爾科夫性質。

2. 馬爾科夫獎勵過程

(1)馬爾科夫鏈可以通過轉移圖轉移矩陣這兩種形式表示:

轉移圖

轉移矩陣

(2)馬爾科夫獎勵過程:馬爾科夫鏈加上獎勵函式(價值函式)

(3) 馬爾科夫獎勵過程需要重點研究的是如何求解狀態空間裡每個狀態的獎勵函式

獎勵: 馬爾科夫獎勵過程中,每次到達乙個過程,會得到乙個獎勵,這個獎勵是已知的。

return(回報)? 當前狀態之後的未來狀態獲取獎勵(乘上折扣率)的累加值。這裡計算的是乙個特定的軌跡的return

獎勵函式:某個狀態的獎勵函式得到的是該狀態的價值:return的期望

問題:每個狀態都有乙個特定獎勵函式嗎?獎勵函式的值等於價值,每個狀態都有乙個價值

bellman equation(貝爾曼等式):獎勵函式的另一種計算方法

動態規劃的方法(基於貝爾曼等式)

求解獎勵函式方法2:蒙特卡羅(monte carlo)方法(基於取樣求return期望)

具體地,例如:以狀態s1為起始狀態,可能接下來的狀態轉換軌跡是(s3、s4、s6),也可能是(s2、s3、s5)等等,總之可以通過產生大量的軌跡,每個軌跡都會得到乙個 return,然後直接取乙個平均,那麼就可以等價於現在s1的價值。

3. 馬爾科夫決策過程

在馬爾科夫獎勵過程中加入動作和策略,即是馬爾科夫決策過程,策略是當前狀態下採取某動作的概率。

狀態價值函式:和馬爾科夫獎勵過程的價值函式類似

q函式-動作價值函式:某乙個狀態採取某乙個動作,得到乙個return的期望

狀態價值函式(價值函式)與動作價值函式的關係:對 q 函式中的動作函式進行加和,就可以得到價值函式(狀態價值函式)

狀態價值函式的貝爾曼等式

動作價值函式的貝爾曼等式

馬爾科夫決策過程

1.能夠檢測到理想狀態 2.可以多次嘗試採取不同動作 3.系統的下乙個狀態只與當前狀態有關,而與之前的狀態無關。在決策過程中還和當前採取的動作有關。s 表示狀態集 a 表示一組動作 p 表示狀態轉移概率。psa表示在當前狀態s下,執行動作a,轉移到其他狀態的概率。r 獎勵還是。表示agent採取某個...

Markov過程(馬爾科夫過程)

剛剛在刷杭電題的時候看到的,似乎也是乙個很有意思的東西,有點博弈論的感覺 母題的意思是有賭徒甲有資本a元,賭徒乙有資本b元,兩人進行賭博,每賭一局輸者給贏者1元,沒有和局,直賭至兩人中有一人輸光為止。設在每一局中,甲獲勝的概率為p,乙獲勝的概率為q 1 p,求甲先輸光的概率。過程一大堆看不懂又麻煩,...

馬爾科夫模型與隱馬爾科夫模型

隨機過程 是隨時間而隨機變化的過程。又稱為隨機函式。馬爾科夫模型 vmm 它描述了一類重要的隨機過程。乙個系統有有限個狀態集s 隨時間推移,該系統將同某一狀態轉移到另一狀態。q s1,s2,sn 為一隨機變數序列,隨機變數取值為狀態集s中的乙個狀態,設時間t時狀態為qt。對系統的描述通常是給出當前時...