RL學習筆記 1 概括與基礎

2021-10-24 23:38:51 字數 655 閱讀 8924

根據策略?去期望未來的帶有折扣的回報的總和。

value function, 價值函式:

q-function, q函式:

根據agent學習什麼把rl的agent分為如下幾類:

policy-based agent

actor-critic agent

此外,也可以根據agent到底有沒有學習這個環境模型來分類:

model-free(免模型 ) rl agent

目前,大部分深度強化學習都採用免模型方法。在目前的強化學習研究中,大部分情況下環境都是靜態的、可描述的,智慧型體的狀態是離散的、可觀察的(如 atari 遊戲平台),這種相對簡單確定的問題並不需要評估狀態轉移函式和獎勵函式,直接採用免模型學習,使用大量的樣本進行訓練就能獲得較好的效果。

(1)exploration 去嘗試。怎麼去探索這個環境,通過嘗試不同的行為得到最佳的策略,即有最大獎勵的策略。

(2)exploitation 去利用。不去嘗試新的東西,採取已知的可以得到很大獎勵的行為。

一 強化學習 RL 基礎

1.初探強化學習 1.什麼是強化學習?2.強化學習可以解決什麼問題?強化學習如何解決這些問題?2.強化學習 監督學習和非監督學習1.監督學習解決的是什麼問題?監督學習如何解決這些問題?2.強化學習與監督學習的差異 3.強化學習與非監督學習的差異 3.強化學習基礎理論 3.1.強化學習模型 ta t ...

強化學習RL學習筆記2 概述(2)

types of rl agents rl agents的型別 learning and planning exploration and exploitation 強化學習 reinforcement learning,rl 又稱再勵學習 評價學習或增強學習,是機器學習的正規化和方 之一,用於描述...

概括RAID 0 1學習筆記

raid 1也叫做磁碟映象。raid經過長時間的發展,很多使用者都很了解raid 0 1了,這裡我發表一下個人理解,和大家討論討論。raid,即廉價磁碟冗餘陣列,是一種將相同的資料放在多個硬碟上不同位置的方法。raid有很多不 同的型別 叫做raid 級 每種型別都有其相對的優勢和劣勢。對於orac...