強化學習1

這是第一篇強化學習的學習筆記，會覆蓋幾個基本的概念。

程式本身，接受環境的訊號，作出行動，影響環境，形成乙個閉環。

價值函式，通過value來評估哪一些狀態和動作是好的，選擇那些能夠提高value的動作和狀態。

動作，當agent觀察到環境的狀態後，可以作出一些行動去影響環境，比如自動駕駛的汽車看到路面的標識作出判定是加速還是減速，拐彎或是保持。

策略，是agent根據當前的狀態按照一定的機率選擇動作的方案，通常是乙個基於狀態的機率矩陣。

狀態，是agent對當前環境所有情況的一種概況和總結，圍棋中的每一步棋的局面對應一種狀態。

模型，agent認知世界的一種模型，這種模型通常是人類去建立的，可能是一種高斯合作線性模型，屬於人類先驗的知識的設定，agent訓練的是模型中的引數。

馬爾科夫決策過程，表示下一刻的狀態只和當前的狀態相關，和過往的歷史完全沒有關係，表示過往的歷史知識所有都表徵在當前這個狀態中了，比如棋盤中，下一刻的落子和當前的棋局相關，和上一步怎麼走的沒什麼關聯。

探索，在agent選擇動作的策略時，可以一直去選擇最優的動作，也可以增加一點隨機性，比如中午吃飯，可以選擇一直吃的中最好吃的一家，這就是exploit，也可以隨機選擇一家從未吃過的，這就是explore。

強化學習系列1 強化學習簡介

2015年10月，alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝，其後的深度強化學習也隨之火了起來。從本期開始開個新坑，一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...

強化學習1 什麼是強化學習

強化學習 reinforcement learning,rl 一般也稱作增強學習，和心理學動物行為的研究等領域有比較久的淵源。心理學中，強化指生物受到外界環境中的某些刺激後，自覺或者不自覺調整應對策略，達到趨利避害。舉個例子。馬戲團訓練動物時比方說猴子訓導員首先會發出某種指令比方說抬一下手...

強化學習實戰1

利用gym建立如圖所示的迷宮如下注意這不是乙個完整的rl agent，因為現在只寫好了影象渲染引擎render agent是乙個類 import gym from gym.envs.classic control import rendering class grid gym.env def i...

強化學習1

強化學習系列1 強化學習簡介

強化學習1 什麼是強化學習

強化學習實戰1

相關推薦