馬爾科夫決策過程和Bellman方程

2022-06-22 23:12:18 字數 976 閱讀 6688

要求:

1.能夠檢測到理想的狀態

2.可以多次嘗試

3.系統的下個狀態只與當前狀態資訊有關,而與更早之前的狀態無關,在決策過程中還和當前採取的動作有關。

馬爾科夫決策過程由五個元素組成:

s:表示狀態集(states)

a:表示一組動作(actions)

p:表示狀態轉移概率psa表示在當前s∈s,經過a∈a作用後,會轉移到的其他狀態的概率分布情況。在狀態s下執行動作a,轉移到s'的概率可以表示為p(s'|s,a)

r:獎勵函式,表示agent採取某個動作後的即時獎勵

y:折扣係數,意味著當下的reward比未來反饋的reward更重要 σγtr(st) 0≤γ<1

上圖即為決策過程,可以大致描述為,智慧型體初始狀態為s0,選擇乙個動作a0,按概率轉移矩陣psa轉移到了下乙個狀態s1,由此反覆。

在馬爾科夫決策模型中,有乙個狀態價值函式:v(s) = e(ut|st = s),表示t時刻狀態s能獲得的未來回報的期望,用來衡量某個狀態或者狀態-動作對的優劣價值,累計獎勵的期望。從而就有最優價值函式 v*(s) = max v(s) (表示所有策略下最優累計獎勵期望)

bellman方程用如下公式表示(其中π是給定狀態s下,動作a的概率分布,γ為折扣係數):

vπ(s) = σa∈a π(a|s)(rs

a + γσs'∈s pss'

a vπ(s'))

pss'

a = p(st+1=s'|st=s,at=a)

vπ(s) = eπ [rs

a + γ vπ(st

+1)|st =s]

可以理解成,在某狀態s下,當前獎勵為rs

a,對於a『∈a和s,會有相應的後續乙個或多個狀態s',這時需要求每個後續s'對應的價值和其發生概率的乘積,從而計算出bellman中的vπ

馬爾科夫決策過程

1.能夠檢測到理想狀態 2.可以多次嘗試採取不同動作 3.系統的下乙個狀態只與當前狀態有關,而與之前的狀態無關。在決策過程中還和當前採取的動作有關。s 表示狀態集 a 表示一組動作 p 表示狀態轉移概率。psa表示在當前狀態s下,執行動作a,轉移到其他狀態的概率。r 獎勵還是。表示agent採取某個...

馬爾科夫過程,馬爾科夫獎勵過程和馬爾科夫決策過程

馬爾科夫決策過程是強化學習中的乙個基本框架,用來表示agent與環境的互動過程 agent觀測得到環境的當前狀態之後,採取動作,環境進入下乙個狀態,agent又得到下乙個環境狀態的資訊,形成乙個迴圈迴路。在理解馬爾科夫決策過程之前,首先要理解馬爾科夫 馬爾科夫獎勵過程。1.馬爾科夫過程 滿足馬爾科夫...

簡述馬爾科夫決策過程(上)

在人工智慧中,大家可能知道兩種技術,第一是機器演算法,第二是深度學習。而在深度學習中有強化學習和突破學習這兩種技術。這兩種技術給深度學習帶來了很大的幫助。而強化學習中有乙個技術,那就是馬爾科夫決策過程,那麼什麼是馬爾科夫決策過程呢?下面我們就給大家介紹一下這個內容。初聽馬爾科夫決策過程,相信大家也是...