無模型策略評估 蒙特卡洛(MC)方法估計

2021-10-21 17:44:41 字數 1121 閱讀 1688

mc基於統計(大數)原理,可解決無模型的強化學習問題。核心思想為:智慧型體不斷與環境互動,產生一系列歷史軌跡(s,a,r,…,s,a,r,從開始到結束),通過索引歷史軌跡中具體某個狀態、行為下的累計回報g,並用他們的均值來估計這個狀態、行為的值函式。

根據核心思想:

圖中v(s)亦可為q(s,a);一般情況下,都是估計q(s,a),因為根據貝爾曼最優,它可以直接得出最優策略。

思路:每一條歷史軌跡有乙個累計回報g,每有乙個g,就更新一次v or q,具體演算法如下:

以上演算法,都是mc發揮其策略評估的作用,最終都要用於策略更新。

上面提到策略更新,就不得不提epsilon-貪婪法:

一般貪婪法和epsilon-貪婪法都用於策略更新上,一般貪婪法就是取q值函式最大的a,使這個a的概率為1;epsilon-貪婪法考慮隨機搜尋,以概率epsilon進行隨機取樣,於是pi(s|a)的概率就變為:

當然,epsilon可以在更新過程中逐漸衰減,變成自適應,是的更新到後面減少隨機性,使決策結果更可靠。

只有乙個策略,智慧型體在這個策略下,和環境互動,獲得歷史軌跡;根據歷史軌跡的平均回報來估計值函式;根據值函式,採用貪婪法或epsilon-貪婪法更新這個策略;迴圈至策略收斂。

有兩個策略,乙個是行為策略,乙個是目標策略;智慧型體在行為策略下和環境互動,產生歷史軌跡,並根據歷史軌跡的平均回報來估計值函式;於此同時,目標策略根據這個估計值函式,採用貪婪法來更新自己的策略(但需要保證,這個估計值函式最大值對應的行為和目標策略在這個狀態s下的行為a一致,簡言,就是用別人的argmaxq(s,a) 來更新自己的pi(a|s)=1)

優勢:智慧型體可以不用自己探索,可以參考別人探索產生的歷史資料或舊的歷史資料,所以叫離線。

蒙特卡洛方法

蒙特卡洛方法 monte carlo method,也有翻譯成 蒙特卡羅方法 是以概率和統計的理論 方法為基礎的一種數值計算方法,將所求解的問題同一定的概率模型相聯絡,用計算機實現統計模擬或抽樣,以獲得問題的近似解,故又稱隨機抽樣法或統計試驗法。上述就是蒙特卡洛方法的基本概念,比較抽象,下面結合實際...

蒙特卡洛方法

這個演算法是用來求解積分和一些運算的,主要就是通過概率模擬的方法,比如對於 或者積分 import random def calpai n 1000000 r 1.0 a,b 0.0,0.0 x neg,x pos a r,a r y neg,y pos b r,b r count 0 for i ...

蒙特卡洛方法 蒙特卡洛方法概率密度函式

簡介 為了更加清楚的讓同學們深刻的理解pbr裡面那些公式背後的東西,同學們務必先來擼一遍光線追蹤,畢竟我們這裡舉例的這些蒙特卡洛方法都是光線追蹤第三卷裡 ray tracing the rest of your life 的舉例,只不過可能對於有的同學來說,閱讀起來比較難,所以我們來更加詳盡的翻譯或...