人工智障學習筆記強化學習 3 蒙特卡洛方法

上一章我們了解了馬爾可夫決策過程的動態規劃方法，但是動態要求乙個完全已知的環境模型，這在現實中是很難做到的。另外，當狀態數量較大的時候，動態規劃法的效率也將是乙個問題。所以本章我們引用一種不需要完整的環境模型的方法概念——蒙特卡羅方法。

蒙特卡洛是乙個賭城的名字。又叫統計模擬方法，它使用隨機數（或偽隨機數）來解決計算的問題，是一類重要的數值計算方法。相對於確定性的演算法，蒙特卡洛方法是基於抽樣資料來計算結果。

策略評估迭代過程：

1. 探索 - 選擇乙個狀態(s, a)。

2. 模擬 - 使用當前策略π，進行一次模擬，從當前狀態(s, a)到結束，隨機產生一段情節(episode)。

3. 抽樣 - 獲得這段情節上的每個狀態(s, a)的回報g(s,a)，記錄g(s,a)到集合returns(s,a)。

4. 估值 - q(s, a) = returns(s, a)的平均值。

（因為狀態(s, a)可能會被多次選擇，所以狀態(s, a)有一組回報值。）

策略優化 - 使用新的行動價值q(s,a)優化策略π(s)。

策略評估迭代步驟一般會針對所有的狀態-行動，或者乙個起始(s0,a0)下的所有狀態-行動。這也說明持續探索（continual exploration）是蒙特卡洛方法的主題。模擬過程 - 會模擬到結束。是前進式的，隨機選擇下乙個行動，一直前進到結束為止。因此可以看出蒙特卡洛方法需要大量的迭代，才能正確的找到最優策略。策略評估是計算行動價值(q(s,a))。

蒙特卡羅策略估計(monte carlo policy evalution)

首先考慮用蒙特卡羅方法來學習狀態值函式vπ(s)。估計vπ(s)的乙個明顯的方法是對於所有到達過該狀態的回報取平均值。這裡又分為first-visit mc methods和every-visit mc methods。這裡，我們只考慮first mc methods，即在乙個episode內，我們只記錄s的第一次訪問，並對它取平均回報。當我們經過無窮多的episode後，vπ(s)的估計值將收斂於其真實值。

動作值函式的mc估計(mote carlo estimation of action values)

在狀態轉移概率p(s'|a,s)已知的情況下，策略估計後有了新的值函式，我們就可以進行策略改進了，只需要看哪個動作能獲得最大的期望累積回報就可以。然而在沒有準確的狀態轉移概率的情況下這是不可行的。為此，我們需要估計動作值函式qπ(s,a)。qπ(s,a)的估計方法前面類似，即在狀態s下採用動作a，後續遵循策略π獲得的期望累積回報即為qπ(s,a)，依然用平均回報來估計它。有了q值，就可以進行策略改進了。

持續探索(maintaining exploration)

我們通過一些樣本來估計q和v，並且在未來執行估值最大的動作。這裡就存在乙個問題，假設在某個確定狀態s0下，能執行a0, a1, a2這三個動作，如果智慧型體已經估計了兩個q函式值，如q(s0,a0), q(s0,a1)，且q(s0,a0)>q(s0,a1)，那麼它在未來將只會執行乙個確定的動作a0。這樣我們就無法更新q(s0,a1)的估值和獲得q(s0,a2)的估值了。這樣的後果是，我們無法保證q(s0,a0)就是s0下最大的q函式。maintaining exploration的思想很簡單，就是用soft policies來替換確定性策略，使所有的動作都有可能被執行。比如其中的一種方法是ε-greedy policy，即在所有的狀態下，用1-ε的概率來執行當前的最優動作a0，ε的概率來執行其他動作a1, a2。這樣我們就可以獲得所有動作的估計值，然後通過慢慢減少ε值，最終使演算法收斂，並得到最優策略。簡單起見，在下面mc控制中，我們使用exploring start，即僅在第一步令所有的a都有乙個非零的概率被選中。

蒙特卡羅控制(mote carlo control)

mc版本的策略迭代過程：

值函式qπ(s,a)的估計值需要在無窮多episode後才能收斂到其真實值。這樣的話策略迭代必然是低效的。我們看動態規則的值迭代演算法，每次都不用完整的策略估計，而僅僅使用值函式的近似值進行迭代，這裡也用到了類似的思想。每次策略的近似值，然後用這個近似值來更新得到乙個近似的策略，並最終收斂到最優策略。這也就是我們常說的廣義策略迭代思想。即：在每個episode後都重新估計下動作值函式（儘管不是真實值），然後根據近似的動作值函式，進行策略更新。

總結：

蒙特卡洛方法的適用條件：1.環境是可模擬的：在實際的應用中，模擬容易實現。相對的，了解環境的完整知識反而比較困難。由於環境可模擬，我們就可以抽樣。2.只適合情節性任務(episodic tasks)因為，需要抽樣完成的結果，只適合有限步驟的情節性任務。儘管蒙特卡羅方法和動態規劃方法存在諸多不同，但蒙特卡羅方法也借鑑了很多動態規劃中的思想。比如他們都是首先進行策略估計，計算特定策略π對應的vπ和qπ，然後進行策略改進，最終形成策略迭代。

人工智障學習筆記強化學習 3 蒙特卡洛方法

強化學習蒙特卡羅法

強化學習學習筆記

強化學習筆記

人工智障學習筆記 強化學習 3 蒙特卡洛方法

強化學習 蒙特卡羅法

強化學習 學習筆記

強化學習筆記

相關推薦

人工智障學習筆記強化學習 3 蒙特卡洛方法

強化學習蒙特卡羅法

強化學習學習筆記