多智慧型體強化學習系列開貳錘 ECKai

多智慧型體強化學習入門（一）——基礎知識與博弈

多智慧型體強化學習入門（二）——基礎演算法（minimax-q，nashq，ffq，wolf-phc）

多智慧型體強化學習入門（三）——矩陣博弈中的分布式學習演算法

多智慧型體強化學習入門（四）——maddpg演算法

多智慧型體強化學習入門（五）——qmix演算法分析

多智慧型體強化學習入門（六）——mfmarl演算法（mean field multi-agent rl）

多智慧型體強化學習入門（七）——ac for cdec-pomdp 大規模規劃學習演算法

多智慧型體強化學習入門（八）——圖卷積強化學習dgn

多智慧型體強化學習入門（九）——注意力圖網路的多智慧型體博弈

附：強化學習——drqn分析詳解

1. eckai - 知乎

2. 開貳錘_貳錘_csdn部落格

多智慧型體強化學習環境

環境是強化學習的核心要素之一。不同的環境一直是研究新的強化學習演算法的動力。但是讓智慧型體和真實環境互動的代價是很大的，不但費時費力，甚至有的時候根本不可能進行互動。現在的多智慧型體強化學習和強化學習早期境遇很像，只有較少的環境可用。另外在不同的智慧型體之間分享資訊的設定範圍可能很廣，有些環境涉及通...

多智慧型體強化學習筆記 01

跟單智慧型體強化學習相比，多智慧型體強化學習的入門似乎更難，想了想覺得有以下幾個方面的原因 1 多智慧型體強化學習研究成果較少，沒有一本經典的系統的書籍來介紹。而單智慧型體強化學習演算法有本神作，即sutton的 reinforcement learning an introduction 有這本神...

強化學習系列1 強化學習簡介

2015年10月，alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝，其後的深度強化學習也隨之火了起來。從本期開始開個新坑，一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...

多智慧型體強化學習系列 開貳錘 ECKai

多智慧型體強化學習環境

多智慧型體強化學習筆記 01

強化學習系列1 強化學習簡介

相關推薦

多智慧型體強化學習系列開貳錘 ECKai