強化學習基本概念

rl演算法種類

強化學習方法

相關概念

對於機器：先採取動作再接受環境的狀態和獎勵

對於環境：接受機器的動作，做出下乙個的狀態和獎勵

s0當前的狀態，a0當前的動作，r1當前的獎勵…馬爾科夫決策下一刻的狀態只和當前狀態有關，和之前無關

強化學習的目標使rt最大化

1.每一時刻加起來的r（e.p.人一輩子的幸福度）

2.t時刻之後的幸福度

3.從t時刻開始，對未來每乙個時刻加乙個折扣（下一刻加乙個折扣，下下乙個兩個折扣）。越靠近現在的獎勵越在乎，越考後的獎勵

4.3化簡

最典型的離線學習就是 q learning, 後來人也根據離線學習的屬性, 開發了更強大的演算法, 比如讓計算機學會玩電動的 deep-q-network.

狀態s機器感知到的環境描述。乙個具體的地方和時刻，乙個具體的即時配置

動作空間a

機器可以採取的行動的集合

獎勵r環境反饋給機器乙個獎賞

q值在當前狀態採取某個動作，使t+1時刻折扣未來獎勵的最大值（未來每一步都採取最優策略的情況的累計折扣獎勵值）

q(s,a)=r+γmaxq中γ

獎勵遞減值（折扣值）

α學習效率來決定這次的誤差有多少是要被學習的,是乙個小於1 的數

epsilon

貪婪度決定每回合採取最優動作的機率

qlearning

乙個基於值的強化學習演算法，利用 q 函式尋找最優的「動作—選擇」策略，找到當前狀態下使得q值最大的動作a，作為最佳策略

sarsa

決策部分和 q learning 一樣, 使用的是 q 表的形式決策, 在 q 表中挑選值較大的動作值施加在環境中來換取獎懲.不同的地方在於 sarsa 的更新方式是不一樣的.

單步更新

雖然每步都更新，但直到獲取寶藏上一步才獲得更新，之前的步都認為和寶藏沒有關係

回合更新

等到這回合結束, 才開始對本回合所經歷的所有步都新增更新, 但是這所有的步都是和寶藏有關係的

lambda

lambda=0時為單步更新，1為回合更新。在 0 和 1 之間為腳步衰減值，相當於離寶藏越近越重要

基於value

qlearning、sarsa 根據最**值來選著動作

基於概率

強化學習中最直接的一種, 通過感官分析所處的環境, 直接輸出下一步要採取的各種動作的概率, 所以每種動作都有可能被選中, 只是可能性不同

sarsa。必須是本人在場，學著自己在做的事情，說到做到

離線學習

qlearning 可以選擇自己行動，也可以選擇看著別人行動，通過看別人行動來學習別人的行為準則，從過往的經驗中學習，但是這些過往的經歷沒必要是自己的經歷，任何人的經歷都能被學習

強化學習基本概念

value based 或q learning 和policy based 或policy gradients 是強化學習中最重要的兩類方法，區別在於 value based是某個state下所有action的期望價值 q值之後通過選擇最大q值對應的action執行策略，適合僅有少量離散取值的a...

強化學習的基本概念

mdp markov decission process 馬爾可夫決策流程代表了強化學習要解決的問題。有幾個構成 1 一組有限的狀態s s0,s1,s 2,st st 1.s 0,s 1,s 2,s t,s s0 s1 s2 st st 1 階段性任務的狀態集合記作s s s 2 一組有限的...

強化學習系列 1 基本概念

figure 1 1 reinforcement learning is a multidisciplinary concept 3.強化學習如何解決問題以及一些相關概念強化學習不同於有監督學習和無監督學習，它不關心輸入長什麼樣子，只關心當前輸入下應該採用什麼樣的動作才能實現最終目標。當前採用什麼...

強化學習基本概念

強化學習基本概念

強化學習的基本概念

強化學習系列 1 基本概念

相關推薦