強化學習 一 基礎認知

2021-08-31 00:09:31 字數 1601 閱讀 1918

強化學習是想讓乙個智慧型體(agent)在不同的環境狀態(state)下,學會選擇那個使得獎賞(reward)最大的動作(action)。

agent在 t 時刻,通過觀測環境得到自己所在的狀態(state),接下來agent根據策略(policy)進行決策後,做出乙個動作(action)。這個action就會使得agent在環境(environment)中轉移到乙個新的狀態,並且在轉移時獲得乙個即時獎勵(reward)值,這樣agent又可以在新state中重新選擇動作。

這樣就可以累積很多reward值(r0

,r1,

...,

rt,.

..,r

t)(r

0,r1

,...

,rt,

...,

rt)(

r0,r

1,..

.,rt

,...

,rt)

(r0,r1,...,rt,...,rt)(r0,r1,...,rt,...,rt) (r_0,r_1,...,r_t,...,r_t)

(r0,r1

,...

,rt,

...,

rt)(

r0,r

1,..

.,rt

,...

,rt)

(r0​

,r1​

,...

,rt​

,...

,rt​

)r累積起來最大。即是獎勵最大化。

environment model

如果我們知道環境的一切,我們就說這個環境是已知的,即model based。也就是說,在這種情況下,agent知道選擇乙個動作後,它的狀態轉移概率是怎樣的,獲得獎賞是怎樣的。這些都知道的話,我們就可以使用動態規劃的方法(dp)來解決問題。

但是在現實生活中,我們是很難知道狀態之間的轉移概率。這種情況稱為model free。所以我們無法直接使用 動態規劃 的方法來解決這種問題。

exploration and exploitation(探索與利用)

上面講了,在強化學習中,我們的目標就是為了累積獎賞最大化。那麼在每次選擇動作時,agent會選擇在過去經歷中它認為獎賞最大的動作去執行。

但是有乙個問題是,雖然有些動作一開始的獎賞很小。但是也許在這個動作的後面會有獎賞很大的時候呢?如果agent只是選取當前它認為獎賞最大的動作,那麼它有可能陷入了區域性最優。所以,agent需要去探索。探索那些獎賞比較小的動作,也許它後面的獎賞會很大。

當然,探索也不能一直去探索,因為可能你只有有限的時間,不能把時間一直放在探索上面。所以看起來這是一對矛盾體。如何平衡它們是乙個很重要的事情。

參考:強化學習簡介

周志華《machine learning》學習筆記(17)–強化學習

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習基礎

mdps簡單來說就是乙個智慧型體 agent 採取行動 action 從而改變自己的狀態 state 來獲取獎勵 reward 與環境 environment 互動的過程。mdps的策略完全取決於當前狀態,這也是馬爾科夫性質的體現。可以簡單的表示為 m a,ps a,r 回報 return u s0...

一 強化學習 RL 基礎

1.初探強化學習 1.什麼是強化學習?2.強化學習可以解決什麼問題?強化學習如何解決這些問題?2.強化學習 監督學習和非監督學習1.監督學習解決的是什麼問題?監督學習如何解決這些問題?2.強化學習與監督學習的差異 3.強化學習與非監督學習的差異 3.強化學習基礎理論 3.1.強化學習模型 ta t ...