強化學習隨記

2021-09-24 08:38:45 字數 1010 閱讀 8256

智慧型體:相當於alphago

狀態:當前智慧型體所處的乙個狀態。

獎勵:每一步行為之後都會有乙個結果,對不同的結果都會有乙個獎勵的值,如果你學習了我給你乙個獎勵,如果你打球了(沒學習)我就給你乙個懲罰。每一步操作都會有乙個衡量的指標,來指明這一步操作是對還是不對。

策略:首先在當前的乙個環境下,已經看清楚了現在的狀態,然後你會有乙個目標,對alphago來說最終你想贏。我們會先制定一系列的策略,比如對現在這個狀態,我按照什麼樣的一系列的動作組合,能使得我最終能獲勝,得到最大的獎勵值。

當前有乙個狀態,還有乙個最終的目標,我達到了最終目標我就可以得到這個獎勵,沒有達到我就得不到這個獎勵。

先觀察看下當前狀態如何,在當前狀態下我先選擇乙個行動,不合適就繼續嘗試,每次行動都嘗試不同的方向,總會試出乙個方向會使得最終的結果獎勵值最大。即哪一步走法會使得最終的獎勵值最大,那我就走這樣一步。

狀態我們可以寫成乙個集合,每走一步都有乙個狀態,這一系列的狀態組成這麼乙個經驗集合,每個狀態相當於經驗值。

agent每走一步就會達到乙個新的環境,在新的環境當中看下當前的獎勵如何。

往左或者往右走完,我們會算一下當前的狀態,可以通過杆的角度和速度來算得當前杆是傾斜還是不傾斜。

折扣係數:我們做乙個動作,不只是會對當前狀態有影響,還會對之後的狀態都會有影響。對之後狀態有影響是說影響了這些狀態得到的獎勵。折扣係數就表示著我雖然現在做了乙個動作,對當下有獎勵的同時可能也會對之後的狀態獎勵有影響,當下的獎勵會比未來的獎勵更重要一些,比如說當下的獎勵折扣係數為1,那麼未來帶來的獎勵折扣係數就為0.8或0.6等等

未來回報的期望就表示著:在當前狀態下,可以得到最終的結果或者說平均結果是什麼樣的,它是乙個期望值。

累計獎勵的期望是指:把當下和未來全部狀態的獎勵都算在一起得到的乙個值。 價值函式:是某一策略(某一種狀態-動作對)下得到的值,。 最優價值函式:因為狀態-動作對會有很多,對所有這些進行累計的結果。

動作空間和狀態空間都是有限的才能去計算。

vπ:最終的價值函式。

vπ(s):當前狀態獲得的期望。

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...