強化學習馬爾科夫決策

ps : 本書的符號標記基本嚴格遵守相關數學領域的慣例，對於變數，大寫字母表示隨機變數，小寫字母表示普通變數；對於確定性函式而言均使用小寫字母表示函式名及引數名；

關於隨機變數的運算通常也用大寫字母表示如期望。

強化學習馬爾科夫鏈決策過程（mdp），這與馬爾科夫鏈不同，也隱馬爾科夫鏈不同，mdp模型增加了中間行為抽象，行為具有改變狀態的能力，是狀態的改變生成機理，

描述了狀態是通過什麼行為而發生改變的，像增加了隱層一樣，而且行為具有主動性，而馬爾科夫鏈只是描述了一種狀態之間的被動切換關係。

符號說明：

隨機變數的取值是由的隨機分布決定的。

1. 以上集合即時隨機過程的表示，其中〖 s〗_t 代表隨機變數 2. 花寫 s 代表隨機變數〖 s〗_t 的取值空間 3. 〖 a〗_t 代表行為隨機變數，其取值空間為花寫的a，通常每個狀態下可以取得行為空間可能並不相同，所以才表示為狀態值的函式；為簡化，將行為空間固定。 4. r_(t+1) 是行為〖 a〗_t 的獎賞，同時也是行為的後果，與此同時智慧型體的狀態s_(t+1) 得到更新，本處行為與其對應的獎賞之間是有時間差的，主要是從時間角度強調，回報是在後期才會產生，與新的狀態的時機更近，簡而言之強調的時間線上的關聯而不是強調行為的所屬，也許這樣更好地強調了過程性吧！ 5. 決策和智慧型體一起產生了乙個序列（軌跡），是智慧型體策略和環境互動的乙個例項，也是乙個取樣。 6. a. 有限mdp的狀態、行為、獎賞集合元素有限；這種情況下，隨機變數〖 s〗_t 和〖 r〗_t 有良好定義的離散概率分布（依賴於先前狀態和行為）。也就是說，在 t 時刻以及給定先前狀態和行為的特定值的情況下，隨機變數〖 s〗_t 和〖 r〗_t 的特定取值s′∈s 和〖 r〗_t∈r，有產生的概率。 b. 等號上面的原點提醒我們這是關於函式 p 的定義而是以前定義的事實。函式 p: s×r×s×a --> [0,1]是四個引數的普通確定性函式。中間的「|」來自條件概率的符號，但是這裡它僅僅提醒我們，為 s 和 a 的每個選擇, p 指定了乙個概率分布，很自然的函式 p 滿足以下性質（概率的基本定義）： 7. 上面公式（6），四引數函式p 給出的概率完全刻畫了nite mdp的動力學性質，很容易得到（7）的計算方法。人們可以計算任何想知道關於環境的資訊，如狀態轉移概率。注意符號有點略加濫用，三引數函式p：s×s×a --> [0，1]，字母p只是表示這是乙個關於概率的函式與其它的p沒有其它關係，有點像方法過載。也很容易計算狀態--行為對的期望獎賞，如乙個二元函式 r : s × a → r r : s × a × s → r 在本書中，我們通常使用四引數p函式（6），但是這些其他符號有時也很方便。 ps : 本書的符號標記基本嚴格遵守相關數學領域的慣例，對於變數，大寫字母表示隨機變數，小寫字母表示普通變數；對於確定性函式而言均使用小寫字母表示函式名及引數名；關於隨機變數的運算通常也用大寫字母表示如期望。強化學習馬爾科夫鏈決策過程（mdp），這與馬爾科夫鏈不同，也隱馬爾科夫鏈不同，mdp模型增加了中間行為抽象，行為具有改變狀態的能力，是狀態的改變生成機理，描述了狀態是通過什麼行為而發生改變的，像增加了隱層一樣，而且行為具有主動性，而馬爾科夫鏈只是描述了一種狀態之間的被動切換關係。馬爾科夫決策過程的優化又與動態規劃密切相關，但與通常的動態規劃不同，融入了概率和隨機過程相關學科的內容，強化學習主要學習乙個好的策略。

給定的方案條件下，正向計算值函式，此時使用變數代換（小學數學基本思想）具體的資料，計算狀態值函式以及行為值函式。變數代換的好處有二：a. 給定乙個具體的策略，直接代入即可算得相應值函式; b. 方便後面有用函式理論去進行優化計算。

強化學習馬爾科夫決策

馬爾科夫決策過程

強化學習馬爾可夫決策過程

馬爾科夫決策程序（MDP）

強化學習 馬爾科夫決策

馬爾科夫決策過程

強化學習 馬爾可夫決策過程

馬爾科夫決策程序（MDP）

相關推薦

強化學習馬爾科夫決策

強化學習馬爾可夫決策過程