強化學習基礎入門 1

2021-10-07 12:32:16 字數 466 閱讀 7851

強化學習是一種機器學習方法。不依賴於先驗資料,而是通過智慧型體與環境的不斷互動,試錯,達到理想的效果。

這個專欄,我會記錄強化學習的學習過程。部落格中肯定會有疏漏和錯誤之處,慢慢改正。

首先,強化學習演算法可以大致分成兩類:基於策略的(policy-based)和基於價值的(value-based)。

根據具體的應用,也可以分為針對離散動作空間和針對連續動作空間。其中,機械人控制就是典型的連續動作空間,其代表演算法為ddpg,這個演算法是我要重點學習的。

其次,深度強化學習演算法,是將強化學習(q-learning)的q錶用神經網路代替。這就需要一定的神經網路知識作為基礎,我對神經網路還是有了解的,但是沒有太多相關程式設計經驗。所以神經網路的程式設計是這段時間的學習重點,我會記錄在部落格中。

最後,演算法要應用到實際的專案中,我的目標就是將強化學習應用到機械人的運動規劃。這方面要大量閱讀開源**,我也會在部落格中記錄**閱讀過程。

希望學習順利吧~

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習1

這是第一篇強化學習的學習筆記,會覆蓋幾個基本的概念。程式本身,接受環境的訊號,作出行動,影響環境,形成乙個閉環。價值函式,通過value來評估哪一些狀態和動作是好的,選擇那些能夠提高value的動作和狀態。動作,當agent觀察到環境的狀態後,可以作出一些行動去影響環境,比如自動駕駛的汽車看到路面的...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...