西瓜書強化學習QLearning演算法與網上版本比較

2021-08-21 12:01:49 字數 455 閱讀 6180

西瓜書上的qlearning演算法與網上的版本比較：

不同點：西瓜書上的q(x,a)就是q表，π（x,a）就是貪婪演算法選擇動作的概率，這個值對應於ε。

西瓜書上的第六行的公式和另一版本的更新值公式的區別，網上版本是下乙個狀態的maxq(x',a')，因為是求最大值，所以不需要西瓜書上的第五行和第七行**，直接查詢下乙個狀態x'的最大值得q(x',a')，而西瓜書上的不是。西瓜書上的是利用上一步的策略，來選擇動作，即第五行**表示，決策時上一次迴圈的策略，應為在第七行會更新這個狀態下策略的所以才是q(x,a''),這裡的a''是所以可能的動作，並且使q(x,a'')最大。

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處，本文是乙個骨架性的文章，所有專有名詞都保持英文原始單詞，具體內容會在後續中給出詳細解答。keywords reinforcement learning，situation，action，e...

強化學習系列1 強化學習簡介

2015年10月，alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝，其後的深度強化學習也隨之火了起來。從本期開始開個新坑，一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...