強化學習概念介紹

是智慧型體（agent）以試錯的方式進行學習，通過與環境進行互動獲得獎勵指導行為，目標是尋找乙個最優策略，使智慧型體獲得最大的獎勵。（注意，agent的動作的影響不止立即獲取得到的獎勵，而且還影響接下來的動作和最終的獎勵）

envirnment ，reward，action，state，policy（確定策略和隨機策略：以一定的概率執行某一動作）

把用來指導個體產生於環境進行互動行為的策略：行為策略

把用來評價狀態或行為價值的策略稱為：目標策略

1獲得樣例後更新自己的模型

2.利用當前的模型指導下一步行動

3.下一步的行動獲得reward之後再更新模型

4，不斷迭代指導模型收斂

強化學習的分類

理解或感知環境；回合更新或單步更新基於價值或基於策略同策略或異策略（自己玩或者看別人玩）

pip install gym

常用函式：env=gym.make(「cartpole-vo」)

ebv.reset() 初始化智慧型體

env.render（）現實環境中的物體影象

env.step() 描述智慧型體與環境互動的所有資訊

除此之外還有baselines mujoco環境（主要用於機械人），rllab ,torcs ,pysc2

1.沒有教師訊號，沒有label，只有reward

2.反饋有延時，不是立即返回

3資料是序列化的，資料與資料之間是有關係的

4.agent執行的動作會影響後續的資料

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處，本文是乙個骨架性的文章，所有專有名詞都保持英文原始單詞，具體內容會在後續中給出詳細解答。keywords reinforcement learning，situation，action，e...

強化學習介紹

策略 policy 獎賞訊號 reward 值函式 value function,以及可選的環境模型 model policy 定義了agent在一給定時間的決策方式。policy是從感知到環境的狀態，到在這些狀態下應該採取的動作的對映。一般而言策略是概率性的，指定了執行每個動作的概率。reward...

強化學習概念理解

一基本理解強化學習與其他機器學習不同之處為沒有教師訊號，也沒有label，只有reward。反饋有延時，不是能立即返回。資料是序列化的，資料與資料之間是有關的，而不是i.i.d的 agent執行的動作會影響之後的資料。四強化學習的關鍵要素強化學習的關鍵要素有 environment，rew...

強化學習概念介紹

強化學習 1 1 0 強化學習介紹

強化學習介紹

強化學習概念理解

相關推薦