對深度強化學習的理解

deep mind第乙個正式提出dqn的概念並能夠做出比較有效果的實驗。

一直以來，強化學習都面臨對人工提取特徵的依賴的問題，深度神經網路的發展給問題的解決帶來了希望，卷積神經網路可以從畫素矩陣中直接提取出可以和人工提取值相媲美的特徵值。就是，把一張遊戲的傳進去，卷積神經網路就可以辨識出中任務所處的狀態，例如：在什麼地方、周圍是什麼環境。

deep mind在他們的dqn模型中使用了經驗回放機制，即把每乙個time_step中的狀態存起來，作為乙個經驗，在每乙個time_step的末尾，隨機從經驗集中選取出一條經驗進行學習。這樣，可以降低資料之間的關聯度，並且可以緩解資料格式（data distribution）經常變化的問題。

此外，deep mind使用帶權值的神經網路函式來估計q函式，對於強化學習來說，q函式是離散的，沒有固定的式子，而帶引數的q函式需要將s轉化為向量值作為輸入，這樣，可以使用類似隨機梯度下降的方式對引數進行更新。

dqn的關鍵**如下：

sgw ppt參見資源