強化學習中的重要性取樣

在之前內容的整理中涉及了一些重要性取樣的內容，在介紹蒙特卡羅離線策略時有所提及。其中詳細介紹了到底什麼是重要性取樣。

這篇博文主要想更加深刻得思考為什麼用的是重要性取樣方法？

參考鏈結中一句話說的很好：重要性取樣出現的原因是因為原始分布難以直接取樣，故需要借助乙個簡單、可取樣的分布來計算期望。但強化學習中使用重要性取樣不是因為原始分布難以取樣，而是不想通過這個分布進行取樣。

只要能夠理解這句話，就可以分析清楚為什麼有時候用重要性取樣，有時候不用了？

在off policy策略中，我們希望估計目標策略下的期望回報（價值），但只有行動策略中的回報\(g_t\)。這些從行動策略中得到的回報的期望\(e[g_t|s_t=s]=v_b(s)\)是不準確的，所以不能用它們的平均來得到\(v_\)。

重要性取樣就是在改權重算均值。

這種情況和有策略\(\pi\)的分布，想求策略\(b\)的均值有異曲同工之妙，基本上就是一模一樣。這也就是那句話，有簡單的想算複雜的和想算複雜的只有簡單的解決方法其實一樣。

我再仔細看看為什麼q-learning 那些方法都還沒用重要性取樣，

待續...