強化學習第二章之Markov決策過程

乙個時間離散化的智慧型體、環境介面可以用這樣的軌道表示：

s0,o0,a0,r1,s1,o1,a1,r2,s2,o2,a2,r3…

在進行t個回合後，迴圈將會停止，記為：

s0,o0,a0,r1,s1,o1,a1,r2,s2,o2,a2,r3…st=s終止

如果環境是可觀測的，那麼ot=st，完全觀測軌道任務簡化為;

s0,a0,r1,s1,a1,r2,s2,a2,r3…st=s終止

在上述基礎上引入概率和markov性得到決策過程模型，定義時間t，從狀態st=s和動作at=a跳躍到下乙個狀態st+1=s』和獎勵rt+1=r的概率為：

pr[st+1=s』,rt+1=r = r丨st=s，at=a]

如果狀態空間、動作空間、獎勵空間都是元素個數有限的集合，這樣的markov決策過程稱為有限markov決策過程。

markov性是markov決策過程模型對狀態的額外約束，它要求狀態必須含有可能對未來影響的所有過去資訊。

如果狀態空間s、動作a、獎勵空間r都是元素個數有限的集合，這樣的markov決策過程稱為有限的markov決策過程。

對於有限markov決策過程，可以定義函式p:srs*a→[0,1]為markov決策過程的動力

p（s』，r丨s,a）=pr[st-1=s』,rt-1=r丨st=s,at=a]

狀態轉移概率：

p（s』丨s，a） = pr[st+1=s』丨st=s,at=a]=∑（r∈r）p（s』,r丨s，a），s∈s，a∈a，s』∈s

獎勵、回報與價值函式

回報gt總和為：

gt=rt+1 + …+rt

由於連續性的任務沒有終止時間，所以gt會包括以後所有獎勵資訊。如果對未來獎勵資訊簡單求和，未來獎勵信心的總和往往是無窮大，為了解決這個問題，引入了折扣將rt前乘以折扣因子r∈[0,1]若rt等於0，智慧型體只會考慮眼前利益，完全無視遠期利益，就相當於貪心演算法的效果，若指定r=1，智慧型體會認為單前1單位獎勵和未來的1的單位獎勵是一樣重要的，對於連續性任務，一般設定r∈（0,1）時，如果未來每一步的獎勵有界，則回報也是有界的。

強化學習第二章之Markov決策過程

強化學習學習筆記（第二章，多臂賭博機）

Oracle強化第二章編寫控制結構

C primer之第二章

強化學習第二章之Markov決策過程

強化學習學習筆記（第二章，多臂賭博機）

Oracle強化 第二章 編寫控制結構

C primer之第二章

相關推薦

Oracle強化第二章編寫控制結構