強化學習 task03

2021-10-10 02:25:50 字數 562 閱讀 6088

在 reinforcement learning 中有 3 個components,乙個actor,乙個environment,乙個reward function。

讓機器玩 video game 時,

actor 做的事情就是去操控遊戲的搖桿, 比如說向左、向右、**等操作;

environment 就是遊戲的主機, 負責控制遊戲的畫面負責控制說,怪物要怎麼移動, 你現在要看到什麼畫面等等;

reward function 就是當你做什麼事情,發生什麼狀況的時候,你可以得到多少分數, 比如說殺乙隻怪獸得到 20 分等等。

在 reinforcement learning 裡面,environment 跟 reward function 不是你可以控制的,environment 跟 reward function 是在開始學習之前,就已經事先給定的。你唯一能做的事情是調整 actor 裡面的 policy,使得 actor 可以得到最大的 reward。actor 裡面會有乙個 policy, 這個 policy 決定了 actor 的行為。policy 就是給乙個外界的輸入,然後它會輸出 actor 現在應該要執行的行為。

爬蟲task03心得

通過這一階段的學習,我知道了爬蟲中針對ip被封的解決方案,主要有三種小套路 1,修改請求頭,模擬瀏覽器 而不是 去直接訪問 去訪問 2,採用 ip並輪換 3,設定訪問時間間隔 下面是獲取ip位址的案例 from bs4 import beautifulsoup import requests imp...

Task03異常處理

猜數字遊戲 題目描述 電腦產生乙個零到100之間的隨機數字,然後讓使用者來猜,如果使用者猜的數字比這個數字大,提示太大,否則提示太小,當使用者正好猜中電腦會提示,恭喜你猜到了這個數是 在使用者每次猜測之前程式會輸出使用者是第幾次猜測,如果使用者輸入的根本不是乙個數字,程式會告訴使用者 輸入無效 嘗試...

Task 03 異常處理

異常就是執行期檢測到的錯誤。計算機語言針對可能出現的錯誤定義了異常型別,某種錯誤引發對應的異常時,異常處理程式將被啟動,從而恢復程式的正常執行。1.python 標準異常總結 2.python標準警告總結 3.try except 語句 try 語句按照如下方式工作 首先,執行try子句 在關鍵字t...