強化學習RL實戰篇

2021-07-22 12:41:08 字數 1095 閱讀 2984

執行一維一級倒立擺環境:

import gym

env = gym.make('cartpole-v0')

env.reset()

for _ in range(1000):

env.render()

env.step(env.action_space.sample())

乙個典型的agent-environment loop 的實現

import gym

#建立乙個環境

env = gym.make('cartpole-v0')

for i_episode in range(20):

#給環境乙個監視

observation = env.reset()

for t in range(100):

env.render()

print(observation)

#確定事件

action = env.action_space.sample()

observation, reward, done, info = env.step(action)

if done:

print("episode finished after {} timesteps".format(t+1))

break

環境的step 函式返回我們需要的資訊,step 函式返回四個值,

1、observation (object):觀察,乙個與環境相關的物件描述你觀察到的環境。如相機的畫素資訊,機械人的角速度和角加速度,棋盤遊戲中的棋盤狀態。

2、reward (float):回報,之前行為獲得的所有回報之和。不同環境的計算方式不一,但目標總是增加自己的總回報。

3、done (boolean):判斷是否到了重新設定(reset)環境的時刻了。done 為true 說明該episode 完成。

4、info(dict):用於除錯的診斷資訊。但是,正式的評價這不允許使用該資訊進行學習。

常用的gym包含的包

from gym import spaces

from gym import envs

一 強化學習 RL 基礎

1.初探強化學習 1.什麼是強化學習?2.強化學習可以解決什麼問題?強化學習如何解決這些問題?2.強化學習 監督學習和非監督學習1.監督學習解決的是什麼問題?監督學習如何解決這些問題?2.強化學習與監督學習的差異 3.強化學習與非監督學習的差異 3.強化學習基礎理論 3.1.強化學習模型 ta t ...

最新 強化學習庫 RL庫

近日,為了讓工業界能更好地使用前沿強化學習演算法,帝國理工和普林斯頓 強化學習團隊發布了專門面向工業界的整套強化學習基線演算法庫 rlzoo。rlzoo 專案與目前大多數專案不同,是以面向非rl研究者設計的。該庫目前同時支援 openai gym,deepmind control suite 以及其...

RL(九)基於策略的強化學習

前面的演算法都是基於價值來算的,但是當處理連續動作的問題時,就顯得力不從心了,因為我們需要求的q錶太大,根本無法滿足我們的需要。前面我們在演算法分類的時候也講過,我們可以按基於價值和基於策略的方式來給rl分類,所以這篇部落格就是用基於策略演算法來求解強化學習問題。值函式近似法 在值函式近似法中,動作...