強化學習1

2021-09-29 08:58:08 字數 609 閱讀 4648

這是第一篇強化學習的學習筆記,會覆蓋幾個基本的概念。

程式本身,接受環境的訊號,作出行動,影響環境,形成乙個閉環。

價值函式,通過value來評估哪一些狀態和動作是好的,選擇那些能夠提高value的動作和狀態。

動作,當agent觀察到環境的狀態後,可以作出一些行動去影響環境,比如自動駕駛的汽車看到路面的標識作出判定是加速還是減速,拐彎或是保持。

策略,是agent根據當前的狀態按照一定的機率選擇動作的方案,通常是乙個基於狀態的機率矩陣。

狀態,是agent對當前環境所有情況的一種概況和總結,圍棋中的每一步棋的局面對應一種狀態。

模型,agent認知世界的一種模型,這種模型通常是人類去建立的,可能是一種高斯合作線性模型,屬於人類先驗的知識的設定,agent訓練的是模型中的引數。

馬爾科夫決策過程,表示下一刻的狀態只和當前的狀態相關,和過往的歷史完全沒有關係,表示過往的歷史知識所有都表徵在當前這個狀態中了,比如棋盤中,下一刻的落子和當前的棋局相關,和上一步怎麼走的沒什麼關聯。

探索,在agent選擇動作的策略時,可以一直去選擇最優的動作,也可以增加一點隨機性,比如中午吃飯,可以選擇一直吃的中最好吃的一家,這就是exploit,也可以隨機選擇一家從未吃過的,這就是explore。

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...

強化學習1 什麼是強化學習

強化學習 reinforcement learning,rl 一般也稱作增強學習,和心理學 動物行為的研究等領域有比較久的淵源。心理學中,強化 指生物受到外界環境中的某些刺激後,自覺或者不自覺調整應對策略,達到趨利避害。舉個例子。馬戲團訓練動物時 比方說猴子 訓導員首先會發出某種指令 比方說抬一下手...

強化學習實戰1

利用gym建立如圖所示的迷宮 如下 注意這不是乙個完整的rl agent,因為現在只寫好了影象渲染引擎render agent是乙個類 import gym from gym.envs.classic control import rendering class grid gym.env def i...