Deep Q learning學習筆記

q-learning作為典型的value-based algorithm，訓練出來的是critic（並不直接採取行為，評價現在的行為有多好），因此提出了state value function的概念，方便對每個狀態進行評估

policy-based是不斷的增加reward高的行為發生的概率，而q-learning是不斷的尋找新的actor使得v增大，具體的分類見deeprl 基礎

q-learning要解決的最首要問題是如何估計state value function

目前主流有兩種方法

完整的玩完一整局的遊戲，然後對期間出現過的狀態進行統計，從該狀態開始計算在之後的所有時間裡獲得的reward，就是他的value

缺點：必須將乙個episode玩完才能得到結果，如果遊戲非常長則不能得到多少有效資料。而且，取樣不是無窮多的，很可能一些重要樣本沒採到，那麼訓練損失會很大。

迅速更新value-function，無需等待整局遊戲的結束，但是在state s

ts_t

st出現的時候，要估計在這之後他會獲得的reward，因此可能會不準確。

知道了如何估計value-function，現在可以正式介紹何為q-function

通常情況下，輸入乙個狀態state，乙個action，q-function將他們對映到乙個值上，表示當前情況的value

q:在state s這裡採取的action不一定就是a，但是我們強制採取action a得到的然後讓他自由的玩下去看他會得到多少reward。

有兩種寫法

（1）左側是標準寫法輸入s，a**q值

（2）右側對於discrete action才能用，輸出一堆值對應著每個可能的action。

其實並不存在新的π』，這個π』只是通過argmax運算q-value得出來的一系列action組成的π。即有q就能找到π』。而且理論上，一定可以找到找到乙個新的π』，這個π』一定比原來的π更好。

本來是乙個network，左側的network引數變化，右側網路引數同樣會變化，這種target變化的情況不好訓練，因此將右側的網路進行固定。將左側網路訓練n次之後，再更新右側的網路引數。也就是不要他們一起動。（一開始兩個network其實是一樣的）

利用這個action更新公式會有乙個問題，一開始全都沒有sample，q值都是0，這時sample到了a2，之後a2會被一直select，其他的沒有任何的機會。這時候用policy-gradient就沒法更新，根本沒有蒐集到有效的資料。

sample到的資料多了後，actor就越來越有把握，也就可以變小（noise on action），這是一種隨機的亂試，不是完全按照q-function一直進行的，比較奇怪。

在乙個episode的開始加上noise，中間保持不變，（noise on parameters），系統的進行嘗試，explore in a consistant way

有點像policy-gradient，越厲害的action機率越高，q-value有正有負，即使很差的我們也給他乙個機率。保證取樣比較全面

1、不斷的與環境進行互動，將經驗存在buffer中，一般buffer會比乙個episode中產生的所有資料大很多，也就是存著很多組資料。滿的時候丟棄舊的。

2、在每乙個interation中，sample很多data（包括很多過去的資料），更新q。

3、（1）rl最費時的是與環境做互動，train的速度很快，這樣可以將歷史資料進行多次利用。（2）我們希望用來訓練的資料diverse，而很和資料就很diverse。

4、問題：當前的π和歷史的π顯然都不一樣，用歷史資料訓練當前資料？

是可以的，experience只是搜尋了某個場景採取的動作會收穫的獎勵，並不涉及具體的π，因此不必要和π保持統一，可以用來訓練。