強化學習之Q learning

三要素：狀態（state），動作（action），獎賞（reward）。更具具體情況自行進行給定。

q更新公式：

q是什麼？動作效用函式（action-utility function）,用於評價在某一狀態下採取某個動作的優劣。如果q訓練好了，之後**時就可以按照q進行選擇動作。

詳解q更新函式：

α是學習速率；γ是折扣因子；由公式可知，α控制保留之前效果的比例，α越大，保留之前的訓練效果就越少。r為獎勵，是當前狀態下，進行當前動作的獎勵；maxa q(s』,a)是記憶裡根據當前狀態和動作選擇的下乙個狀態的所有動作裡q值最大的乙個。γ控制眼前利益（r）和記憶裡的利益(maxa q(s』,a))的比例，γ越大，agent越傾向於相信過去，重視以往的經驗，γ越小，則傾向於重視眼前利益。

但是下乙個狀態的下乙個動作如何選擇呢？如果使用greedy貪婪演算法，那麼就只使用經驗（即，exploitation），不會進行探索不同的action。所以就出現了ε-greedy貪婪演算法，該演算法允許agent以一定的概率探索新的action（即exploration）。

ε-greedy貪婪演算法：

賦予agentε概率去探索新的action。具體是：首先找到以往最好的action，賦予概率1-ε，然後對所有的action平分ε概率。

所以選擇下乙個action的一種做法為：

##選擇動作
r = random.random()
s = 0.0
for i in range(len(actions)):
s += pro[i]
if s>= r: return actions[i]
return actions[len(actions)-1]

2018-4-20更新

其實，第二項就是 td error（時間差分誤差）。

強化學習之Q learning

強化學習之Q learning演算法

強化學習演算法 Q learning

強化學習 Q learning演算法

強化學習之Q learning

強化學習之Q learning演算法

強化學習演算法 Q learning

強化學習 Q learning演算法

相關推薦