強化學習篇強化學習案例詳解一

一、前述

本文通過乙個案例來講解q-learning

二、具體

1、案例

假設我們需要走到5房間。

轉變為如下圖：先構造獎勵，達到5，即能夠走得5的action則說明獎勵比較高設定成100，沒有達到5說明獎勵比較低，設定成0。

q-learning實現步驟：

2、案例詳解：

第一步的q(1,5)：最開始的q矩陣都是零矩陣，迭代完之後q（1,5）是100

第二次迭代：依舊是隨機

收斂的意思是最後q基本不變了，然後歸一化操作，所有值都除以500，然後計算百分比。

則最後的分值填充如下：

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處，本文是乙個骨架性的文章，所有專有名詞都保持英文原始單詞，具體內容會在後續中給出詳細解答。keywords reinforcement learning，situation，action，e...

強化學習 Pytorch篇

首先祭出強化學習中的基礎方法q learning，演算法流程如下圖所示 q learning是乙個不斷摸索，最終找到最優的方法。個人理解是這樣的首先q表是乙個初值都為0 的表，被學習體只能隨意摸索。當得到reward之後，乘以學習率 alpha 更新q表。這樣，在下一次走到這一步的時候，就能夠根據...

強化學習篇 強化學習案例詳解一

強化學習 強化學習基礎

強化學習 1 1 0 強化學習介紹

強化學習 Pytorch篇

相關推薦

強化學習篇強化學習案例詳解一

強化學習強化學習基礎