百度系強化學習的先導工程知識梳理

2021-10-07 12:19:51 字數 2004 閱讀 9809

pip install -u paddlepaddle

快速開始 paddle

這裡有很多基礎概念

幾個重要的概念

paddle 的設計思想

parl 的特點包括:

使用parl的目標是構建乙個強化學習智慧型體,構建主要基於3個類:

熟悉gym 的小練習

env = gym.make(

'cartpole-v0'

)obs = env.reset(

)obs, r, done, info = env.step(a)

env.render(

)env.close(

)print

(env.action_space)

#> discrete(2)

print

(env.observation_space)

#> box(4,)

print

(env.observation_space.high)

#> array([ 2.4 , inf, 0.20943951, inf])

print

(env.observation_space.low)

#> array([-2.4 , -inf, -0.20943951, -inf])

熟悉gym 的小練習

import gym

import time

env = gym.make(

'cartpole-v0'

)#創造環境

obs = env.reset(

)#初始化環境,observation為環境狀態

count =

0for _ in

range

(100):

a = env.action_space.sample(

)#隨機取樣動作

obs, r, done, info = env.step(a)

#與環境互動,獲得下一步的時刻

if done:

break

env.render(

)#繪製場景

count+=

1# time.sleep(0.1) #每次等待0.2s

print

(count)

#列印該次嘗試的步數

問題error in/usr/bin/python3』: malloc(): memory corruption`

問題 在 anaconda spyder 中跑小烏龜畫圖的時候,跑完後圖形介面關不掉

cart-pole 的實現原始碼在哪 ?

requirement for using turtle

熟悉turtle 的小練習

import gym

import turtle

import numpy as np

import time

canvas = turtle.getscreen(

)# generate a canvas

t = turtle.turtle(

)# initialize a turtle (a directed pen)

t.forward(

200)

t.left(90)

t.goto(0,

100)

t.home(

)# t.forward(200)

t.circle(60)

t.dot(20)

turtle.bgcolor(

"grey"

)turtle.title(

"my turtle program"

)input()

# to pause the python script

百度強化學習框架PARL入門強化學習

parl框架github鏈結 parl框架gitee鏈結 走過路過不要錯過歡迎同學們點下star支援一下咱們的自己的框架 監督學習和非監督學習的輸出為 是什麼 是乙個判斷,多用於聚類和回歸問題。比較經典的案例如手寫數字體識別,房價 強化學習的輸出是 決策 通常用於策略類問題,比如阿爾法狗就是典型的強...

2020百度強化學習培訓體會

感謝美麗的科科老師,加班加點地用心備課和深入淺出的講解,讓我這個對強化學習一無所知的門外漢,也有機會登堂入室,一窺強化學習的奧妙與強大。一 相對於保守安全的sarsa演算法 也許是我功夫還不到吧,在cliffwalking遊戲中,雖然agent每次都成功的避開了懸崖旁邊的危險路徑,但經常是執行結果大...

百度7日強化學習總結

基本概念包括 兩部分 agent智慧型體,environment 環境 三要素 state狀態,動作action,reward獎勵。agent學習兩種策略 基於價值的value based 隨機性策略,代表性的有sarsa,q learning,dqn 基於策略的policy based 隨機性策略...