RL學習筆記 1 概括與基礎

根據策略?去期望未來的帶有折扣的回報的總和。

value function, 價值函式：

q-function, q函式:

根據agent學習什麼把rl的agent分為如下幾類：

policy-based agent

actor-critic agent

此外，也可以根據agent到底有沒有學習這個環境模型來分類：

model-free(免模型 ) rl agent

目前，大部分深度強化學習都採用免模型方法。在目前的強化學習研究中，大部分情況下環境都是靜態的、可描述的，智慧型體的狀態是離散的、可觀察的（如 atari 遊戲平台），這種相對簡單確定的問題並不需要評估狀態轉移函式和獎勵函式，直接採用免模型學習，使用大量的樣本進行訓練就能獲得較好的效果。

（1）exploration 去嘗試。怎麼去探索這個環境，通過嘗試不同的行為得到最佳的策略，即有最大獎勵的策略。

（2）exploitation 去利用。不去嘗試新的東西，採取已知的可以得到很大獎勵的行為。

一強化學習 RL 基礎

1.初探強化學習 1.什麼是強化學習？2.強化學習可以解決什麼問題？強化學習如何解決這些問題？2.強化學習監督學習和非監督學習1.監督學習解決的是什麼問題？監督學習如何解決這些問題？2.強化學習與監督學習的差異 3.強化學習與非監督學習的差異 3.強化學習基礎理論 3.1.強化學習模型 ta t ...

強化學習RL學習筆記2 概述（2）

types of rl agents rl agents的型別 learning and planning exploration and exploitation 強化學習 reinforcement learning,rl 又稱再勵學習評價學習或增強學習，是機器學習的正規化和方之一，用於描述...

概括RAID 0 1學習筆記

raid 1也叫做磁碟映象。raid經過長時間的發展，很多使用者都很了解raid 0 1了，這裡我發表一下個人理解，和大家討論討論。raid，即廉價磁碟冗餘陣列，是一種將相同的資料放在多個硬碟上不同位置的方法。raid有很多不同的型別叫做raid 級每種型別都有其相對的優勢和劣勢。對於orac...

RL學習筆記 1 概括與基礎

一 強化學習 RL 基礎

強化學習RL學習筆記2 概述（2）

概括RAID 0 1學習筆記

相關推薦

一強化學習 RL 基礎