強化學習基礎入門 1

強化學習是一種機器學習方法。不依賴於先驗資料，而是通過智慧型體與環境的不斷互動，試錯，達到理想的效果。

這個專欄，我會記錄強化學習的學習過程。部落格中肯定會有疏漏和錯誤之處，慢慢改正。

首先，強化學習演算法可以大致分成兩類：基於策略的（policy-based）和基於價值的（value-based）。

根據具體的應用，也可以分為針對離散動作空間和針對連續動作空間。其中，機械人控制就是典型的連續動作空間，其代表演算法為ddpg，這個演算法是我要重點學習的。

其次，深度強化學習演算法，是將強化學習（q-learning）的q錶用神經網路代替。這就需要一定的神經網路知識作為基礎，我對神經網路還是有了解的，但是沒有太多相關程式設計經驗。所以神經網路的程式設計是這段時間的學習重點，我會記錄在部落格中。

最後，演算法要應用到實際的專案中，我的目標就是將強化學習應用到機械人的運動規劃。這方面要大量閱讀開源**，我也會在部落格中記錄**閱讀過程。

希望學習順利吧~

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習1

這是第一篇強化學習的學習筆記，會覆蓋幾個基本的概念。程式本身，接受環境的訊號，作出行動，影響環境，形成乙個閉環。價值函式，通過value來評估哪一些狀態和動作是好的，選擇那些能夠提高value的動作和狀態。動作，當agent觀察到環境的狀態後，可以作出一些行動去影響環境，比如自動駕駛的汽車看到路面的...

強化學習系列1 強化學習簡介

2015年10月，alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝，其後的深度強化學習也隨之火了起來。從本期開始開個新坑，一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...

強化學習基礎入門 1

強化學習 強化學習基礎

強化學習1

強化學習系列1 強化學習簡介

相關推薦

強化學習強化學習基礎