學習筆記 強化學習基礎

2021-10-25 01:16:18 字數 1008 閱讀 6335

1.強化學習的基本結構是什麼?

本質上是強化學習agent和environment間的互動。agent從environment中獲取狀態(state),然後輸出乙個action,這個action會加入到environment中,並使得environment輸出乙個新的state和action得到的reward。agent在environment中存在的目的 就是為了使得積累的reward極大化。

2.強化學習相對於監督學習為什麼訓練會更加困難?(強化學習的特徵)

延遲獎勵:監督學習agent在做出每乙個action後,都能立即得到乙個反饋,如果採取的行為是錯誤的話,還會給出正確的決定;而強化學習卻不能,如果它的agent做出了乙個錯誤的action,有時候可以立即得到指引,說它這個action是錯誤的,但不能得到正確的action,更難的是,做出的action要等到一段時間後才能知道這個行為行不行。

3.強化學習的基本特徵有哪些?

4.近幾年強化學習發展迅速的原因?

有了更多的計算能力,更多的gpu,可以更快的做更多的試錯(trail-and-error)的嘗試

通過這種不同嘗試使得agent在這個環境裡獲得更多的資訊,得到更多的reward

我們有了這個端到端的乙個訓練,可以把特徵提取和價值估計或者決策一塊來優化,這樣就可以得到乙個更強的決策網路

5.觀測和狀態有什麼關係?

6.對於乙個強化學習agent,它由什麼組成?

7.根據強化學習agent的不同,我們可以將其分為幾類?

8.基於策略迭代和基於價值迭代的強化學習方法有什麼區別?

9.有模型(model-based)和免模型(model-free)有什麼區別?

10.強化學習的通俗理解

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習基礎

mdps簡單來說就是乙個智慧型體 agent 採取行動 action 從而改變自己的狀態 state 來獲取獎勵 reward 與環境 environment 互動的過程。mdps的策略完全取決於當前狀態,這也是馬爾科夫性質的體現。可以簡單的表示為 m a,ps a,r 回報 return u s0...

強化學習 學習筆記

強化學習任務通常用馬爾可夫決策過程來描述 強化學習任務對應了四元組 強化學習的目標是在環境中不斷地嘗試而學得乙個 策略 policy 策略有兩種表示方法 確定性策略 表示為函式 隨機性策略 表示為概率 策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中,學習的目的就是要找到能使長期累積獎...