李弘毅的強化學習

2022-02-06 13:09:13 字數 355 閱讀 7857

1\policy gradient(review)

三個元件:actor\enviroment\reward

enviromwnt和reward開始之前就已經存在,能調整的就是actor的策略,如何是actor的策略可以得到最大的reward.

2\policy of actor

policy:π,是帶有引數的network

input:機器可以理解的資料,向量或者矩陣

output:動作的選項,有幾個就是有幾個neuron.network給這幾個動作權值.權值不同,採取的policy就不同.

流程:actor-->環境--->判斷結果採取action,採取action之後會得到reward

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...