強化學習介紹

策略（policy） , 獎賞訊號 reward , 值函式 value function, 以及可選的環境模型 model

policy 定義了agent在一給定時間的決策方式。policy是從感知到環境的狀態，到在這些狀態下應該採取的動作的對映。一般而言策略是概率性的，指定了執行每個動作的概率。

reward 定義了強化學習的目標。在每一time step 中，環境（environment）向agent傳送乙個reward的實數值，agent的唯一目標是將長期的累積reward最大化。reward只能顯示立即的優劣。

值函式（value function）能夠指明長期的優劣。乙個狀態（state）的值（value）是從當前狀態起，agent未來所有reward的累積和的期望值。reward只能決定對state立即的、固有的喜好程度。而值函式（value function）預示著從長期來看的對狀態的喜好程度。

model用於模仿環境的反應，其能夠推斷出環境將會作出怎樣的反應。

強化學習無監督者，不知道什麼是正確的決策，在作出行動之後有個反饋的reward

反饋的reward是有延遲的，一般在下乙個時間片得到reward

強化學習研究的是乙個時間序列的決策過程

行為會影響環境，強化學習是設計乙個agent智慧型體，使得這個agent主動學習

reward 獎勵：反饋的訊號，強化學習的目標是將累積的reward最大化。強化學習中研究的是長時間序列的問題，而且reward有時是延遲的，所以有時存在放棄當前最優的立即reward，而換取長期的回報，即強化學習在每一次action是並不是選擇最優的，有概率選擇不是最優的道路。

強化學習分為：

基於值函式（value-based）-----不需要顯式的策略，只需要max(v)

基於策略（policy-based）------直接由state得到動作

ac（actor critic）-----actor即policy，critic即value function

q-learning是reinforcement learning 中基於值函式的演算法