強化學習學習筆記（第二章，多臂賭博機）

本章節以多臂賭博機為模型，介紹了若干個在簡化環境下的強化學習演算法（動作不會影響下一時刻的情景和收益）

1、貪心演算法，每次選擇期望收益最大的動作

2、ξ-貪心，在貪心演算法的基礎上，有ξ的概率從所有的動作中等概率選擇乙個。ξ如果比較大可以更快的找到收益最大的動作，但是會影響選擇選擇收益最大動作的概率（ξ=0.1時，選擇收益最大動作的概率收斂到91%）

3、增量式實現，用常數級的記憶體消耗和運算時間得到平均值，將平均值的式子變形一下即可：q(n+1) = q(n) + 1/n(r(n) - q(n))

4、非平穩問題，每個動作的收益可能隨時間改變，那麼需要改變一下更好的處理方式，使得近期收益賦予比過去很早以前的收益更高的權重，常見的方式是步長固定，但是這樣會導致最後的估算值受第乙個動作的影響而產生偏差，可以用無偏固定步長技巧（練習2.7）

5、基於置信度上界的動作選擇，選擇可能真實值上界最大的動作，有點像a*演算法，上界會隨著使用動作次數的增加而減少，隨著時間流逝而增加。

6、梯度賭博機演算法，引入了偏好函式，偏好函式值越大，動作被選擇的概率越大。這裡利用的數學技巧，將梯度轉化成了數學期望從而可以統計出來。

7、關聯搜尋，介於k臂賭博機和完整強化學習問題之間。