強化學習筆記

policy iteration：

隨機選擇乙個策略，交替做兩件事：策略評價，和策略改進，則可以得到最優的策略。其中，策略評價即policy evalution, 為當前策略計算值函式v；策略改進即policy improvement, 即給定乙個值函式，得到乙個改進的策略。

value iteration：

s狀態下，最優的v值，應該等於q值最大情況下對應的a值，它是遠期回報的期望。

無模型假設

sarsa(state action reward, state』, action』。對q版本做td learning

q learning 價值函式迭代：

q:= q + α

\alpha

αoff-policy: 價值評估，和動作選擇並不是乙個策略（當下不錯，但我仍然按我之前的做法尋找最優策略，不為所動）

on-policy: 價值評估和動作選擇是乙個策略（並不好，容易走向極端，收斂到區域性最優）

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習學習筆記

強化學習任務通常用馬爾可夫決策過程來描述強化學習任務對應了四元組強化學習的目標是在環境中不斷地嘗試而學得乙個策略 policy 策略有兩種表示方法確定性策略表示為函式隨機性策略表示為概率策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中，學習的目的就是要找到能使長期累積獎...

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習筆記

強化學習筆記

強化學習 學習筆記

強化學習 強化學習基礎

相關推薦

強化學習學習筆記

強化學習強化學習基礎