強化學習概念介紹

2021-10-01 22:24:44 字數 743 閱讀 1833

是智慧型體(agent)以試錯的方式進行學習,通過與環境進行互動獲得獎勵指導行為,目標是尋找乙個最優策略,使智慧型體獲得最大的獎勵。(注意,agent的動作的影響不止立即獲取得到的獎勵,而且還影響接下來的動作和最終的獎勵)

envirnment ,reward,action,state,policy(確定策略和隨機策略:以一定的概率執行某一動作)

把用來指導個體產生於環境進行互動行為的策略:行為策略

把用來評價狀態或行為價值的策略稱為:目標策略

1獲得樣例後更新自己的模型

2.利用當前的模型指導下一步行動

3.下一步的行動獲得reward之後再更新模型

4,不斷迭代指導模型收斂

強化學習的分類

理解或感知環境 ;回合更新或單步更新 基於價值或基於策略 同策略或異策略(自己玩或者看別人玩)

pip install gym

常用函式:env=gym.make(「cartpole-vo」)

ebv.reset() 初始化智慧型體

env.render() 現實環境中的物體影象

env.step() 描述智慧型體與環境互動的所有資訊

除此之外還有baselines mujoco環境(主要用於機械人),rllab ,torcs ,pysc2

1.沒有教師訊號,沒有label,只有reward

2.反饋有延時,不是立即返回

3資料是序列化的,資料與資料之間是有關係的

4.agent執行的動作會影響後續的資料

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習介紹

策略 policy 獎賞訊號 reward 值函式 value function,以及可選的環境模型 model policy 定義了agent在一給定時間的決策方式。policy是從感知到環境的狀態,到在這些狀態下應該採取的動作的對映。一般而言策略是概率性的,指定了執行每個動作的概率。reward...

強化學習概念理解

一 基本理解 強化學習與其他機器學習不同之處為 沒有教師訊號,也沒有label,只有reward。反饋有延時,不是能立即返回。資料是序列化的,資料與資料之間是有關的,而不是i.i.d的 agent執行的動作會影響之後的資料。四 強化學習的關鍵要素 強化學習的關鍵要素有 environment,rew...