task 03 策略梯度及 PPO 演算法

2021-10-10 02:21:42 字數 942 閱讀 2665

在 reinforcement learning 中有 3 個components,乙個actor,乙個environment,乙個reward function。

如果要 learn 的 agent 跟和環境互動的 agent 是同乙個的話, 這個叫做on-policy(同策略)。

如果要 learn 的 agent 跟和環境互動的 agent 不是同乙個的話, 那這個叫做off-policy(異策略)。

tips:

第乙個 tip 是 add 乙個 baseline。 如果 given state s 採取 action a 會給你整場遊戲正面的 reward,就要增加它的概率。如果 state s 執行 action a,整場遊戲得到負的 reward,就要減少這一項的概率。

第二個 tip:給每乙個 action 合適的 credit。

reinforce: monte carlo policy gradient

蒙特卡洛可以理解為演算法完成乙個 episode 之後,再拿這個 episode 的資料來去 learn 一下,做一次更新。因為我們已經拿到了一整個 episode 的資料的話,也能夠拿到每乙個 step 的 reward,我們可以很方便地去計算每個 step 的未來總收益,就是我們的期望,就是我們的回報。

時序差分強化學習是指在不清楚馬爾可夫狀態轉移概率的情況下,以取樣的方式得到不完整的狀態序列,估計某狀態在該狀態序列完整後可能得到的收益,並通過不斷地取樣持續更新價值。

蒙特卡洛強化學習則需要經歷完整的狀態序列後,再來更新狀態的真實價值。

如果要 learn 的 agent 跟和環境互動的 agent 是同乙個的話, 這個叫做on-policy(同策略)。

如果要 learn 的 agent 跟和環境互動的 agent 不是同乙個的話, 那這個叫做off-policy(異策略)。

ppo 演算法有兩個主要的變種:ppo-penalty 和 ppo-clip。

爬蟲task03心得

通過這一階段的學習,我知道了爬蟲中針對ip被封的解決方案,主要有三種小套路 1,修改請求頭,模擬瀏覽器 而不是 去直接訪問 去訪問 2,採用 ip並輪換 3,設定訪問時間間隔 下面是獲取ip位址的案例 from bs4 import beautifulsoup import requests imp...

Task03異常處理

猜數字遊戲 題目描述 電腦產生乙個零到100之間的隨機數字,然後讓使用者來猜,如果使用者猜的數字比這個數字大,提示太大,否則提示太小,當使用者正好猜中電腦會提示,恭喜你猜到了這個數是 在使用者每次猜測之前程式會輸出使用者是第幾次猜測,如果使用者輸入的根本不是乙個數字,程式會告訴使用者 輸入無效 嘗試...

Task 03 異常處理

異常就是執行期檢測到的錯誤。計算機語言針對可能出現的錯誤定義了異常型別,某種錯誤引發對應的異常時,異常處理程式將被啟動,從而恢復程式的正常執行。1.python 標準異常總結 2.python標準警告總結 3.try except 語句 try 語句按照如下方式工作 首先,執行try子句 在關鍵字t...