task 03 策略梯度及 PPO 演算法

在 reinforcement learning 中有 3 個components，乙個actor，乙個environment，乙個reward function。

如果要 learn 的 agent 跟和環境互動的 agent 是同乙個的話，這個叫做on-policy(同策略)。

如果要 learn 的 agent 跟和環境互動的 agent 不是同乙個的話，那這個叫做off-policy(異策略)。

tips:

第乙個 tip 是 add 乙個 baseline。如果 given state s 採取 action a 會給你整場遊戲正面的 reward，就要增加它的概率。如果 state s 執行 action a，整場遊戲得到負的 reward，就要減少這一項的概率。

第二個 tip：給每乙個 action 合適的 credit。

reinforce: monte carlo policy gradient

蒙特卡洛可以理解為演算法完成乙個 episode 之後，再拿這個 episode 的資料來去 learn 一下，做一次更新。因為我們已經拿到了一整個 episode 的資料的話，也能夠拿到每乙個 step 的 reward，我們可以很方便地去計算每個 step 的未來總收益，就是我們的期望，就是我們的回報。

時序差分強化學習是指在不清楚馬爾可夫狀態轉移概率的情況下，以取樣的方式得到不完整的狀態序列，估計某狀態在該狀態序列完整後可能得到的收益，並通過不斷地取樣持續更新價值。

蒙特卡洛強化學習則需要經歷完整的狀態序列後，再來更新狀態的真實價值。

如果要 learn 的 agent 跟和環境互動的 agent 是同乙個的話，這個叫做on-policy(同策略)。

如果要 learn 的 agent 跟和環境互動的 agent 不是同乙個的話，那這個叫做off-policy(異策略)。

ppo 演算法有兩個主要的變種：ppo-penalty 和 ppo-clip。

task 03 策略梯度及 PPO 演算法

爬蟲task03心得

Task03異常處理

Task 03 異常處理

task 03 策略梯度及 PPO 演算法

爬蟲task03心得

Task03異常處理

Task 03 異常處理

相關推薦