強化學習第七章

1、策略迭代、價值迭代、泛化迭代的前提條件：智慧型體知道環境的狀態轉移概率，即是基於模型的問題

2、蒙特卡洛方法取樣：隨機取樣估計期望值，通過樣本序列逼近真實的期望值。成立原因：大數定理。

3、探索和利用，探索指的是不拘於當前的表現，選擇不同於當前策略的行動；利用是持續使用當前的最優策略，盡可能的獲得更多的回報。

4、蒙特卡洛方法的缺點：估計值的方差大。估計值方差大則均值收斂需要更長時間。方差大的原因：每次擲骰子的數字都不同，取樣頻率的問題，會多次出現同乙個狀態，在計算的過程中沒有區分第一次到達這個狀態和第二次到達，是every-visit的方式，可以改成採用first-visit的方式減小方差，但沒有顯著提高。

優點：資料量足夠大的時候，對期望值的估計是無偏的。

5、時序差分法與sarsa：td法結合了動態規劃和蒙特卡洛方法，利用了最優子結構的思想。

但是他是為了縮小方差使得誤差變大了，蒙特卡洛方法是為了極小的誤差使得方差變大，td方法結果沒有mc好。

6、q-learning：它和sarsa只在乙個地方有區別，sarsa遵循了真實的互動序列，根據真實的行動進行價值的估計，q-learning在下一時刻選擇了使得價值最大的行動，沒有遵循互動序列。

存在」過高估計「的問題，使用最優價值的行動替代互動時候使用的行動。 200頁兩個步驟，關於收斂性證明暫時沒看懂？？？？？

7、dqn演算法兩個突出點：

（1）replay buffer 回放機制：

q學習方法基於當前策略進行互動和改進，每一次模型利用互動的資料學習，學習後樣本被丟棄。存在兩個問題：乙個是互動得到的序列存在相關性。而對於基於極大似然的機器學習模型來說，假設就是訓練樣本是獨立且來自同分布的，假設不成立則效果大打折扣。另乙個是互動資料的使用效率低，模型訓練需要多輪迭代才能收斂，沒用用過就丟棄花的時間長。

樣本回放儲存了互動的樣本資訊，儲存當前的狀態s、動作a和長期累積回報v。buffer的大小設定的比較大，達到100萬個樣本這麼多，新的樣本把久遠的樣本覆蓋，之後均勻的從樣本中隨機取樣進行學習。

（2）target network目標網路:

引入和表現網路一樣的模型，目標網路由表現網路的引數延時更新而來，目標價值由目標網路計算得到。用它和表現網路的估計值比較進行表現網路引數的更新。

強化學習第七章

第七章遷移學習

第七章學習小結

第七章學習小結

強化學習第七章

第七章 遷移學習

第七章學習小結

第七章學習小結

相關推薦

第七章遷移學習