深度強化學習

強化學習( reinforcement learning )與深度學習同屬機器學習的範疇，是其中一個重要的分支，主要用來解決連續決策的問題。強化不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的目標(如影象分類問題中的label)，強化學習的目標是不明確的，模型只會向著能夠得到更多獎勵的方向去學習。

q學習

在強化學習中， q學習( q learning )是一種學習 action 對應的期望價值(expected utility )的方法。q 學習中的期望價值是指在一系列步驟的決策中總共可以獲取的最大期望獎勵值(即q值，也就是價值)。

約定:xt: 模型連續做出 t 步動作後得到的觀測結果

at:時刻t觀測到xt後所執行的動作

rt:執行動作at獲得的獎懲

rt表示從開始到時刻t為止所獲得的累計價值，那麼:

深度q網路

神經網路可以用來學習q learning，這樣得到的網路模型就是估值網路。深度 q 網路( deep qnetwork， dqn )是 google 的 deep mind 於2013 年提出的第乙個深度強化學習演算法(其他的還有a3c和 unreal)，並在2023年做了進一步的完善。

深度強化學習

深度強化學習

深度強化學習

深度強化學習簡介

相關推薦