無模型策略評估蒙特卡洛（MC）方法估計

mc基於統計（大數）原理，可解決無模型的強化學習問題。核心思想為：智慧型體不斷與環境互動，產生一系列歷史軌跡（s,a,r,…,s,a,r，從開始到結束），通過索引歷史軌跡中具體某個狀態、行為下的累計回報g，並用他們的均值來估計這個狀態、行為的值函式。

根據核心思想：

圖中v（s）亦可為q（s,a）；一般情況下，都是估計q（s,a），因為根據貝爾曼最優，它可以直接得出最優策略。

思路：每一條歷史軌跡有乙個累計回報g，每有乙個g，就更新一次v or q，具體演算法如下：

以上演算法，都是mc發揮其策略評估的作用，最終都要用於策略更新。

上面提到策略更新，就不得不提epsilon-貪婪法：

一般貪婪法和epsilon-貪婪法都用於策略更新上，一般貪婪法就是取q值函式最大的a，使這個a的概率為1；epsilon-貪婪法考慮隨機搜尋，以概率epsilon進行隨機取樣，於是pi（s|a）的概率就變為：

當然，epsilon可以在更新過程中逐漸衰減，變成自適應，是的更新到後面減少隨機性，使決策結果更可靠。

只有乙個策略，智慧型體在這個策略下，和環境互動，獲得歷史軌跡；根據歷史軌跡的平均回報來估計值函式；根據值函式，採用貪婪法或epsilon-貪婪法更新這個策略；迴圈至策略收斂。

有兩個策略，乙個是行為策略，乙個是目標策略；智慧型體在行為策略下和環境互動，產生歷史軌跡，並根據歷史軌跡的平均回報來估計值函式；於此同時，目標策略根據這個估計值函式，採用貪婪法來更新自己的策略（但需要保證，這個估計值函式最大值對應的行為和目標策略在這個狀態s下的行為a一致，簡言，就是用別人的argmaxq(s,a) 來更新自己的pi(a|s)=1）

優勢：智慧型體可以不用自己探索，可以參考別人探索產生的歷史資料或舊的歷史資料，所以叫離線。

無模型策略評估蒙特卡洛（MC）方法估計

蒙特卡洛方法

蒙特卡洛方法

蒙特卡洛方法蒙特卡洛方法概率密度函式

無模型策略評估 蒙特卡洛（MC）方法估計

蒙特卡洛方法

蒙特卡洛方法

蒙特卡洛方法 蒙特卡洛方法概率密度函式

相關推薦

無模型策略評估蒙特卡洛（MC）方法估計

蒙特卡洛方法蒙特卡洛方法概率密度函式